Data Science
Как использовать калькулятор признаков tsfresh с результатами от другого калькулятора признаков
00
Вопрос или проблема При использовании библиотеки tsfresh для извлечения признаков возможно ли запустить калькулятор признаков , который принимает результаты другого калькулятора признаков в качестве своих параметров? Например, я хочу рассчитать (или аппроксимировать) частоту моего сигнала.
Data Science
Как выбирается модульное число для построения хеш-таблицы в алгоритме DHP?
00
Вопрос или проблема Я пытаюсь понять алгоритм DHP (Прямое хеширование и отсечение), и я застрял на объяснении выбора числа для операции взятия по модулю. В статье показан пример использования хеш-функции на странице 7: h{{x y}) = ((порядок x)*10 + (порядок
Data Science
Кто написал формулу важности Джини/оценки важности признаков в sklearn?
00
Вопрос или проблема Я искал статью, в которой впервые была предложена важность Джини, но не уверен, действительно ли так это и произошло. Вот формула, с которой я знаком и которую ищу в статье: $$\frac{N_s}{N_t} * \left(i –
Data Science
Правильный порядок подготовки данных в машинном обучении
00
Вопрос или проблема Для упомянутых ниже шагов подготовки данных Обнаружение/обработка выбросов Импутация данных Масштабирование/стандартизация данных Балансировка классов Есть два под Questions Должны ли каждый из этих шагов выполняться после разделения
Data Science
Реализация K-модов в pyspark
00
Вопрос или проблема Я ищу реализацию k-модов на pyspark. Я нашел это и это как реализации. Сначала я пытался реализовать k-моды, используя первую ссылку, и столкнулся с проблемами. Поэтому я попробовал вторую реализацию на github.
Data Science
Почему линейная регрессия не показывает худших результатов при низком весе атрибута?
00
Вопрос или проблема Мне удалось построить несколько моделей линейной регрессии, которые могут достаточно хорошо прогнозировать прочность материала: минимальное RMSE составляет 17.95 с использованием 11 признаков, которые я выбрал из 159 оригинальных признаков.
Data Science
Советы по созданию модели рекомендаций для маркетинга
00
Вопрос или проблема Я работаю над проектом предоставления рекомендаций команде по маркетингу для запуска эффективных кампаний. Набор данных, который у меня есть, содержит информацию о существующих клиентах, их демографические и платежные данные, а также
Data Science
MPE (Наиболее Вероятное Объяснение) против MAP (Максимум Апостериори)
00
Вопрос или проблема Что такое MPE? Как MPE и MAP различаются? Есть ли пример, когда они дадут разные результаты? Что такое MPE? Ответ=> MPE в машинном обучении означает Максимальная Апостериорная Оценка. Это метод, используемый для нахождения наиболее
Data Science
Моя модель CNN предсказывает только один класс – сбалансированные данные и не сходящаяся ошибка.
00
Вопрос или проблема Я работаю над моделью CNN для прогнозирования финансовых временных рядов. Несмотря на сбалансированные данные и несколько настроек, моя модель продолжает предсказывать только один класс на протяжении обучения, независимо от того, какие изменения я вношу.
Data Science
Как я могу преобразовать свои предсказания в текст после предсказания с использованием RNN?
00
Вопрос или проблема Я создаю теггер частей речи для нашего языка. Я передаю токены слова и теги, используя Tokenizer(). Функции для слова и тега разные. # кодировать Y tag_tokenizer = Tokenizer() tag_tokenizer.fit_on_texts(tags) Y_encoded = tag_tokenizer.
Data Science
Как строится матрица совпадений для вычисления альфа Криппендорфа?
00
Вопрос или проблема Я изучаю два документа, чтобы лучше понять, как строить матрицы совпадений с целью получения более полного представления о коэффициенте альфа Криппендорфа. Я использую эти два: https://repository.upenn.edu/cgi/viewcontent.cgi?article=1043&
Data Science
Почему мои модели имеют довольно высокую точность с небольшим обучающим набором данных?
00
Вопрос или проблема Я задавался вопросом, почему мои модели (дерево решений, SVM, случайный лес) ведут себя таким образом, с “высокой” точностью на небольшом обучающем наборе данных. Это признак переобучения? График представляет собой точность
Data Science
Обработка кодирования набора данных, который содержит более 2000 столбцов.
00
Вопрос или проблема Когда у нас есть набор данных, который нужно предварительно обработать, прежде чем передать его модели, мы преобразуем категориальные значения в числовые, для чего мы обычно используем такие методы, как Label Encoding, One Hot Encoding и т.
Data Science
Можно ли использовать LSTM или предобученный BERT для Masked LM для предсказания измененного слова в предложении, используя небольшой набор данных? (2000 образцов)
00
Вопрос или проблема У меня есть небольшой набор данных (2000 образцов) заголовков газет и их забавных аналогов, где изменено только одно слово, чтобы звучало глупо, например: Оригинальный заголовок: Полицейский <офицер> арестован за злоупотребление
Data Science
В чем разница между SMOTE до PCA и после PCA?
00
Вопрос или проблема Все мы знаем, что PCA (Анализ главных компонент) – это популярный статистический инструмент для уменьшения размерности в наборе данных. SMOTE (Метод синтетического увеличения выборки для меньшинства) позволяет генерировать данные
Data Science
Могут ли данные утекать из обучающего набора в тестовый набор, как и наоборот?
00
Вопрос или проблема Я спорил с моим коллегой по этому поводу. Мы знаем, что утечка данных становится проблемой, когда обучающие данные имеют возможность заглянуть в тестовые данные перед фазой тестирования. Но является ли это действительно проблемой
Data Science
Почему активация tanh работает лучше в Pytorch, чем в Keras?
00
Вопрос или проблема Я создаю нейронную сеть для распознавания написанных кириллических букв, и я выяснил, что, когда я использую активационную функцию tanh, это работает значительно лучше с PyTorch, чем с Keras. Код Keras: import tensorflow as tf from tensorflow.
Data Science
Возможно ли обновить данные и повторно обучить только одну из нескольких серий данных в модели BigQuery?
00
Вопрос или проблема Я создаю нечто очень похожее на этот пример проекта BigQuery ML. Моя система отличается в двух направлениях: Во-первых, ей потребуется несколько тысяч временных рядов, поэтому я предпочел бы использовать функцию множественных рядов
Data Science
плохая форма входных данных (5634, 2)
00
Вопрос или проблема Я попробовал всё, и не уверен, как решить следующую ошибку: ValueError: плохая форма входных данных (5634, 2) Это мой первый пример машинного обучения, так что прошу вас проявить терпение. Вот код на Python: import numpy as np import
Data Science
Является ли это хорошим подходом для классификации тикетов, которые содержат описание и логи?
00
Вопрос или проблема Я хочу классифицировать набор данных обращений в службу поддержки, которые в основном содержат текст в поле описания и иногда серверные логи в отдельном поле. Поле логов не всегда присутствует, но когда оно есть, это хороший индикатор