Data Science
Data Science
Вопрос или проблема У меня есть набор данных, который содержит пользователей (строки) со списком их интересов (IABs), который выглядит следующим образом: user_id | gender | list of interests --------+--------+-------------------------------- user 1 |
Data Science
Вопрос или проблема Для целей довольно большого проекта я провожу текстовый анализ некоторых документов. Мои шаги довольно стандартны: Приведение всего к нижнему регистру Токенизация Стоп-лист и стоп-слова Лемматизация Стемминг Некоторые другие шаги
Data Science
Вопрос или проблема Я смотрю документацию и это руководство https://www.tensorflow.org/api_docs/python/tf/keras/utils/Sequence https://stanford.edu/~shervine/blog/keras-how-to-generate-data-on-the-fly И мне нужно написать в def __len__(self): и def __getitem__(self
Data Science
Вопрос или проблема exp = explainer.explain_instance(df_val_final.Description[idx],predproba_list,num_features=5, top_labels=2) При выполнении объяснения экземпляра LimeTextExplainer, указанное выше выражение продолжает выполняться непрерывно с предупреждающим сообщением ниже.
Data Science
Вопрос или проблема Я ожидал, что у GLoVe будут векторы для чисел. from gensim import downloader as api glove = api.load("glove-twitter-25") glove['1'] Это приводит к KeyError: "Key '1' not present" GLoVe игнорирует числа? Или они каким-то образом токенизированы?
Data Science
Вопрос или проблема Возможно, это не очень хороший вопрос, но я бы все равно спросил, полезно ли проводить разведочный анализ данных (EDA) перед запуском алгоритма кластеризации? Я понимаю, что EDA помогает нам генерировать полезные и информативные инсайты
Data Science
Вопрос или проблема Я создал приложение предсказания текста, которое отображает 10 предложений на основе слова, введенного в строку поиска. Однако все предложения отображаются в одной строке поиска горизонтально. Я хотел бы, чтобы предложения появлялись
Data Science
Вопрос или проблема Имея почасовые обновления данных о количестве осадков (за предыдущий час) и температуре, как бы вы определили, скользко или нет? . Ответ или решение Теория (Theory) Определение скользкости дорог является важной задачей, особенно в
Data Science
Вопрос или проблема Я работаю над проектом с многометочной рекомендационной системой и пытаюсь оценить его как задачу ранжирования. Я вычисляю recall@k и precision@k, которые выглядят достаточно хорошо. Recall увеличивается, а Precision уменьшается, когда
Data Science
Вопрос или проблема Я использую Opendrift и получаю следующую ошибку: delta_x не является постоянным! при чтении прогноза погоды следующим образом: r = reader_netCDF_CF_generic.Reader('./arome_arctic*.nc') Ошибка, которую я получаю, обсуждается здесь: https://github.
Data Science
Вопрос или проблема Я создаю модель CNN-LSTM для прогнозирования многомерных временных рядов: model = Sequential() #model.build((10,7,1)) model.add(Conv1D(filters=64, kernel_size=2, activation='relu',input_shape=(10,7),strides=1)) model.
Data Science
Вопрос или проблема Я успешно использую модель временного ряда Orange для прогнозов модели ARIMA. Я испытываю трудности с отображением прогнозов в конце серии на линейной диаграмме. Прогноз на 4 периода показывает серию 1-4 вместо будущих дат.
Data Science
Вопрос или проблема В многоклассовой классификации обычно у нас есть датафрейм, который выглядит как feature1 feature2 feature3 feature4 class1 class2 class3 12 53 93 12 0 1 0 52 30 17 97 1 0 0 54 93 52 94 1 0 0 10 53 97 23 0 0 1 43 60 17 78 0 1 […]
Data Science
Вопрос или проблема В настоящее время я использую модель LSTM для классификации высокоразмерных таблиц данных, которые не являются текстом/изображениями (размерности 21392×1970). Я также пробовал XGBoost (градиентный бустинг) в Python отдельно для
Data Science
Вопрос или проблема Кажется, они оба выполняют кластеризацию. Они оба уменьшают размерность входных данных и классифицируют дальнейшие входные данные на основе их расстояния/сходства с центральными точками. Эти точки затем обновляются, чтобы учесть новые данные.
Data Science
Вопрос или проблема Модель обучения представлений производит векторы для объектов. Я хочу, чтобы косинусное сходство некоторых пар векторов было (близко к) 1, а некоторых — 0. Какую целевую функцию мне использовать? MSE как при обучении модели регрессии?
Data Science
Вопрос или проблема У меня есть программа, которая создает изображение, и я использую метрику, чтобы понять, насколько точным является это изображение. Я выбираю пять случаев (A, B, C, D, E) и составляю список метрик точности для каждого случая: program_metrics = [0.
Data Science
Вопрос или проблема Я использую метод несупервизированного распознавания шаблонов для создания торговой стратегии. Я использую результаты совпадения шаблонов, чтобы решить, стоит ли входить в сделку. Для выбора лучших параметров шаблонов я запускаю несколько
Data Science
Вопрос или проблема Дан тензор третьего ранга с размерами $x,y,z$. Где: $x$: количество графов (количество выборок) $y$: количество узлов/векторов/признаков (скажем, $5$: $a, b, c, d,$ и $e$) $z$: размерность вложения (например, $2$ для декартовой плоскости
Data Science
Вопрос или проблема Я выполняю работу, основанную на анализе различных библиотек Python для машинного обучения. Я выбрал для анализа Scikit-Learn, Keras, Tensorflow и Pytorch, так как они наиболее известны. Идея заключалась в обучении различных моделей