Data Science
Как можно построить модель на основе не независимых несбалансированных данных?
00
Вопрос или проблема Я пытаюсь предсказать отток клиентов на основе имеющихся у меня данных. Я определяю отток как деятельность, которой не предшествует другая деятельность в течение недели. Клиент может вернуться через два месяца и снова стать активным
Data Science
Какой алгоритм использовать для транзакционных данных
00
Вопрос или проблема Мне предоставили набор данных о транзакциях и попросили найти полезные идеи для бизнеса. Я совершенно нов в области машинного обучения и науки о данных и только начал работать с KMeans. Набор данных имеет следующие характеристики
Data Science
Как мне разработать функции для задачи идентификации именованных сущностей?
00
Вопрос или проблема Я работал над задачей идентификации именованных сущностей (а не распознавания). В этой задаче обработки естественного языка (NLP) модели дано предложение, и она должна предсказать, является ли каждое слово (или токен) именованной сущностью или нет.
Data Science
Возможно ли использовать Word2vec для парафразирования текста?
00
Вопрос или проблема После прочтения нескольких статей я не уверен, возможно ли как-то сгенерировать текст с тем же значением (парафразировать его), используя только Word2vec. Я нашел другие подходы, которые используют последовательности пар предложений
Data Science
Новый релиз Anaconda для M1 (2022.05)
00
Вопрос или проблема Я пытаюсь установить новую Anaconda для M1, я выбрал 64-Bit (M1) Graphical Installer (428 MB). Однако, когда я его загружаю, он все равно запрашивает Rosetta. Это нормально? Я видел демонстрацию здесь https://youtu.
Data Science
Существует ли подходящий тест гипотезы: Два образца, один из которых состоит только из одной точки данных, ненормальный?
00
Вопрос или проблема У меня есть два “образца”. Первый состоит примерно из 400 физических измерений величины (взятых за один час, и реальная ситуация не является стационарной). Они показывают сильно скошенное распределение, для которого теоретическая
Data Science
Обработка сдвига ковариат и многоколлинеарности в одном наборе данных
00
Вопрос или проблема Проблема связана с регрессионной задачей. Я получаю партии данных из источника эксперимента, который имеет примерно 3 тысячи столбцов. Однако я заметил, что почти 99% столбцов сильно коррелируют друг с другом.
Data Science
Как использовать виджеты без передачи данных или как использовать оранжевый без интернета.
00
Вопрос или проблема Есть ли способ использовать виджеты, не отправляя данные на серверы, или полностью использовать оранжевый без интернета? Я уже использовал оранжевый в прошлом и сейчас нахожусь в ситуации, когда не могу отправить данные.
Data Science
Спортивные прогнозы с использованием нейронной сети Keras застряли на уровне около 0,5 точности.
00
Вопрос или проблема Я в данный момент нахожусь в процессе освоения Data Science, машинного обучения и особенно нейронных сетей (при этом у меня “чистый” опыт в области программной инженерии). Я создал несколько моделей на классических наборах
Data Science
Модель идентификации говорящих на основе глубокого обучения Keras показывает отличные результаты во время обучения, а затем проваливает предсказания.
00
Вопрос или проблема Я пытаюсь создать модель идентификации говорящего 1:N с использованием Keras и TensorFlow в качестве бэкенда. Я использовал корпус LibriSpeech для обучающих данных и предварительно обработал данные, сначала конвертировав каждый файл из .
Data Science
Как избежать ошибки памяти при вызове метода Pandas pd.read_csv в сочетании с использованием GridSearchCV для модели DecisionTreeRegressor?
00
Вопрос или проблема Я реализовал модель DecisionTreeRegressor в среде Anaconda с набором данных, полученным из CSV файла с 20 миллионами строк и 12 измерениями. Я мог получать части из набора данных с размером куска, установленным на 500 000 строк, и
Data Science
Понимание экспериментов в Непрерывном Обучении
00
Вопрос или проблема В статье “Непрерывное обучение через синаптический интеллект” я вижу эту фигуру для эталона Split MNIST, но есть один момент, который я могу понять. Здесь 5 задач, и в конце мы подводим итог средней точности по 5 задачам.
Data Science
Обнаружить крупнейший связанный компонент на散点ном графике (на двумерных данных)
00
Вопрос или проблема У меня есть бивариантные данные, представляющие положение определенной опорной точки вдоль оси y, которая варьируется от -100 до 100 мм. Когда я строю эти данные в виде графика рассеяния, я вижу выбросы и группы неправильно определенных опорных точек.
Data Science
Как увеличить точность тестирования модели?
00
Вопрос или проблема Я использую модель InceptionV3 для тренировки. Вот ссылка на код (https://github.com/maxmelnick/tensorflow/blob/no_random/tensorflow/examples/image_retraining/retrain.py) Изначально у меня есть набор данных небольшого размера.
Data Science
Небольшой бесплатный набор данных для 3D-реконструкции из 2D-изображений.
00
Вопрос или проблема Я пытаюсь начать кодировать 3D-реконструкцию изображений из 2D-изображений (то есть сопоставлять изображения с 3D-точечным облаком). Может кто-нибудь порекомендовать небольшой бесплатный набор данных для начала?
Data Science
Разница между виджетами DataSampler и TestAndScore в Orange
00
Вопрос или проблема Я пытаюсь разобраться в разнице между использованием data sampler для получения 70/30 разбиения на обучающую и тестовую выборки и непосредственным использованием виджета test and score для этого через случайное выборку.
Data Science
Вариационный автокодировщик временных рядов
00
Вопрос или проблема Может кто-то предложить блог, где использовался вариационный автоencoder для прогнозирования временных рядов? Может быть, посмотрите эту статью и ссылки в ней Вариационное кодирование сложной динамики Вариационно-LSTM автоencoder для
Data Science
Подгонка повёрнутой кривой
00
Вопрос или проблема Я пытаюсь подогнать вращающуюся параболу с помощью curve_fit, но она не подходит хорошо, как показано ниже: Я уже пытаюсь подогнать кривую с учетом зависимости от cos(𝜃) и sin(𝜃) следующим образом: def rotated_parabola(x, a, b, c
Data Science
Создание системы рекомендаций на основе контента с использованием метаданных продуктов в качестве признаков?
00
Вопрос или проблема В настоящее время я работаю над системой рекомендаций одежды, где у меня есть табличные данные, содержащие список продуктов с их соответствующими метаданными (бренд, категория, цвет и т. д.) У меня есть дополнительный столбец идентификаторов
Data Science
С чего мне начать? У меня есть массивные данные (из веб-скрапинга), и я хочу предсказать y по 20 переменным.
00
Вопрос или проблема Я пытаюсь изо всех сил воссоздать алгоритм, который использует компания, обрабатывая все его выводы и добавляя некоторые релевантные переменные (я не смогу полностью его воспроизвести, так как у меня нет данных по запасам).