Data Science
Фичевая инженерия для классификации возраста на основе интересов
00
Вопрос или проблема У меня есть набор данных, который содержит пользователей (строки) со списком их интересов (IABs), который выглядит следующим образом: user_id | gender | list of interests --------+--------+-------------------------------- user 1 |
Data Science
Отношение к майнингу текста и подготовке токенов, неуместным словам, низкая точность.
00
Вопрос или проблема Для целей довольно большого проекта я провожу текстовый анализ некоторых документов. Мои шаги довольно стандартны: Приведение всего к нижнему регистру Токенизация Стоп-лист и стоп-слова Лемматизация Стемминг Некоторые другие шаги
Data Science
Как использовать keras.utils.Sequence с несколькими файлами
00
Вопрос или проблема Я смотрю документацию и это руководство https://www.tensorflow.org/api_docs/python/tf/keras/utils/Sequence https://stanford.edu/~shervine/blog/keras-how-to-generate-data-on-the-fly И мне нужно написать в def __len__(self): и def __getitem__(self
Data Science
LimeTextExplainer для мультклассовой классификации – Проблема с объяснением экземпляра с пользовательской функцией классификатора
00
Вопрос или проблема exp = explainer.explain_instance(df_val_final.Description[idx],predproba_list,num_features=5, top_labels=2) При выполнении объяснения экземпляра LimeTextExplainer, указанное выше выражение продолжает выполняться непрерывно с предупреждающим сообщением ниже.
Data Science
Почему у модели GloVe (от gensim) нет векторов для чисел 1, 2, …?
00
Вопрос или проблема Я ожидал, что у GLoVe будут векторы для чисел. from gensim import downloader as api glove = api.load("glove-twitter-25") glove['1'] Это приводит к KeyError: "Key '1' not present" GLoVe игнорирует числа? Или они каким-то образом токенизированы?
Data Science
Какую ценность можно извлечь из проведения разведывательного анализа данных на признаках (и, следовательно, данных) перед кластеризацией?
00
Вопрос или проблема Возможно, это не очень хороший вопрос, но я бы все равно спросил, полезно ли проводить разведочный анализ данных (EDA) перед запуском алгоритма кластеризации? Я понимаю, что EDA помогает нам генерировать полезные и информативные инсайты
Data Science
Как предоставить разбивку предложений предсказания текста в Shiny.
00
Вопрос или проблема Я создал приложение предсказания текста, которое отображает 10 предложений на основе слова, введенного в строку поиска. Однако все предложения отображаются в одной строке поиска горизонтально. Я хотел бы, чтобы предложения появлялись
Data Science
Расчет риска или степени скользкости на основе исторических данных о погоде.
00
Вопрос или проблема Имея почасовые обновления данных о количестве осадков (за предыдущий час) и температуре, как бы вы определили, скользко или нет? . Ответ или решение Теория (Theory) Определение скользкости дорог является важной задачей, особенно в
Data Science
Как объяснить стабильный NDCG@K в модели рекомендательной системы с экстремальной многометочной классификацией
00
Вопрос или проблема Я работаю над проектом с многометочной рекомендационной системой и пытаюсь оценить его как задачу ранжирования. Я вычисляю recall@k и precision@k, которые выглядят достаточно хорошо. Recall увеличивается, а Precision уменьшается, когда
Data Science
Как включить динамические значения delta_x/y для ридеров Opendrift? (Weather.data)
00
Вопрос или проблема Я использую Opendrift и получаю следующую ошибку: delta_x не является постоянным! при чтении прогноза погоды следующим образом: r = reader_netCDF_CF_generic.Reader('./arome_arctic*.nc') Ошибка, которую я получаю, обсуждается здесь: https://github.
Data Science
Ошибка при проверке цели: ошибка измерений в модели CNN-LSTM для многомерного прогнозирования временных рядов.
00
Вопрос или проблема Я создаю модель CNN-LSTM для прогнозирования многомерных временных рядов: model = Sequential() #model.build((10,7,1)) model.add(Conv1D(filters=64, kernel_size=2, activation='relu',input_shape=(10,7),strides=1)) model.
Data Science
Правильная настройка дат в модуле временных рядов Orange
00
Вопрос или проблема Я успешно использую модель временного ряда Orange для прогнозов модели ARIMA. Я испытываю трудности с отображением прогнозов в конце серии на линейной диаграмме. Прогноз на 4 периода показывает серию 1-4 вместо будущих дат.
Data Science
Множественная классификация с фиксированным числом исходов.
00
Вопрос или проблема В многоклассовой классификации обычно у нас есть датафрейм, который выглядит как feature1 feature2 feature3 feature4 class1 class2 class3 12 53 93 12 0 1 0 52 30 17 97 1 0 0 54 93 52 94 1 0 0 10 53 97 23 0 0 1 43 60 17 78 0 1 […]
Data Science
Использование комбинации градиентного бустинга с LSTM для классификации?
00
Вопрос или проблема В настоящее время я использую модель LSTM для классификации высокоразмерных таблиц данных, которые не являются текстом/изображениями (размерности 21392×1970). Я также пробовал XGBoost (градиентный бустинг) в Python отдельно для
Data Science
В чем разница между K-средними и саморганизующимися картами?
00
Вопрос или проблема Кажется, они оба выполняют кластеризацию. Они оба уменьшают размерность входных данных и классифицируют дальнейшие входные данные на основе их расстояния/сходства с центральными точками. Эти точки затем обновляются, чтобы учесть новые данные.
Data Science
Какова правильная целевая функция для косинусного сходства двух векторов, чтобы она была равна 1 или 0?
00
Вопрос или проблема Модель обучения представлений производит векторы для объектов. Я хочу, чтобы косинусное сходство некоторых пар векторов было (близко к) 1, а некоторых — 0. Какую целевую функцию мне использовать? MSE как при обучении модели регрессии?
Data Science
Какой метод корреляции подходит для двух парных списков чисел?
00
Вопрос или проблема У меня есть программа, которая создает изображение, и я использую метрику, чтобы понять, насколько точным является это изображение. Я выбираю пять случаев (A, B, C, D, E) и составляю список метрик точности для каждого случая: program_metrics = [0.
Data Science
Избегание переобучения в неконтролируемом машинном обучении
00
Вопрос или проблема Я использую метод несупервизированного распознавания шаблонов для создания торговой стратегии. Я использую результаты совпадения шаблонов, чтобы решить, стоит ли входить в сделку. Для выбора лучших параметров шаблонов я запускаю несколько
Data Science
Автоматический поиск зависимостей между произвольными признаками
00
Вопрос или проблема Дан тензор третьего ранга с размерами $x,y,z$. Где: $x$: количество графов (количество выборок) $y$: количество узлов/векторов/признаков (скажем, $5$: $a, b, c, d,$ и $e$) $z$: размерность вложения (например, $2$ для декартовой плоскости
Data Science
Машинное обучение в TensorFlow
00
Вопрос или проблема Я выполняю работу, основанную на анализе различных библиотек Python для машинного обучения. Я выбрал для анализа Scikit-Learn, Keras, Tensorflow и Pytorch, так как они наиболее известны. Идея заключалась в обучении различных моделей