Data Science
Data Science
Вопрос или проблема При использовании библиотеки tsfresh для извлечения признаков возможно ли запустить калькулятор признаков , который принимает результаты другого калькулятора признаков в качестве своих параметров? Например, я хочу рассчитать (или аппроксимировать) частоту моего сигнала.
Data Science
Вопрос или проблема Я пытаюсь понять алгоритм DHP (Прямое хеширование и отсечение), и я застрял на объяснении выбора числа для операции взятия по модулю. В статье показан пример использования хеш-функции на странице 7: h{{x y}) = ((порядок x)*10 + (порядок
Data Science
Вопрос или проблема Я искал статью, в которой впервые была предложена важность Джини, но не уверен, действительно ли так это и произошло. Вот формула, с которой я знаком и которую ищу в статье: $$\frac{N_s}{N_t} * \left(i –
Data Science
Вопрос или проблема Для упомянутых ниже шагов подготовки данных Обнаружение/обработка выбросов Импутация данных Масштабирование/стандартизация данных Балансировка классов Есть два под Questions Должны ли каждый из этих шагов выполняться после разделения
Data Science
Вопрос или проблема Я ищу реализацию k-модов на pyspark. Я нашел это и это как реализации. Сначала я пытался реализовать k-моды, используя первую ссылку, и столкнулся с проблемами. Поэтому я попробовал вторую реализацию на github.
Data Science
Вопрос или проблема Мне удалось построить несколько моделей линейной регрессии, которые могут достаточно хорошо прогнозировать прочность материала: минимальное RMSE составляет 17.95 с использованием 11 признаков, которые я выбрал из 159 оригинальных признаков.
Data Science
Вопрос или проблема Я работаю над проектом предоставления рекомендаций команде по маркетингу для запуска эффективных кампаний. Набор данных, который у меня есть, содержит информацию о существующих клиентах, их демографические и платежные данные, а также
Data Science
Вопрос или проблема Что такое MPE? Как MPE и MAP различаются? Есть ли пример, когда они дадут разные результаты? Что такое MPE? Ответ=> MPE в машинном обучении означает Максимальная Апостериорная Оценка. Это метод, используемый для нахождения наиболее
Data Science
Вопрос или проблема Я работаю над моделью CNN для прогнозирования финансовых временных рядов. Несмотря на сбалансированные данные и несколько настроек, моя модель продолжает предсказывать только один класс на протяжении обучения, независимо от того, какие изменения я вношу.
Data Science
Вопрос или проблема Я создаю теггер частей речи для нашего языка. Я передаю токены слова и теги, используя Tokenizer(). Функции для слова и тега разные. # кодировать Y tag_tokenizer = Tokenizer() tag_tokenizer.fit_on_texts(tags) Y_encoded = tag_tokenizer.
Data Science
Вопрос или проблема Я изучаю два документа, чтобы лучше понять, как строить матрицы совпадений с целью получения более полного представления о коэффициенте альфа Криппендорфа. Я использую эти два: https://repository.upenn.edu/cgi/viewcontent.cgi?article=1043&
Data Science
Вопрос или проблема Я задавался вопросом, почему мои модели (дерево решений, SVM, случайный лес) ведут себя таким образом, с “высокой” точностью на небольшом обучающем наборе данных. Это признак переобучения? График представляет собой точность
Data Science
Вопрос или проблема Когда у нас есть набор данных, который нужно предварительно обработать, прежде чем передать его модели, мы преобразуем категориальные значения в числовые, для чего мы обычно используем такие методы, как Label Encoding, One Hot Encoding и т.
Data Science
Вопрос или проблема У меня есть небольшой набор данных (2000 образцов) заголовков газет и их забавных аналогов, где изменено только одно слово, чтобы звучало глупо, например: Оригинальный заголовок: Полицейский <офицер> арестован за злоупотребление
Data Science
Вопрос или проблема Все мы знаем, что PCA (Анализ главных компонент) – это популярный статистический инструмент для уменьшения размерности в наборе данных. SMOTE (Метод синтетического увеличения выборки для меньшинства) позволяет генерировать данные
Data Science
Вопрос или проблема Я спорил с моим коллегой по этому поводу. Мы знаем, что утечка данных становится проблемой, когда обучающие данные имеют возможность заглянуть в тестовые данные перед фазой тестирования. Но является ли это действительно проблемой
Data Science
Вопрос или проблема Я создаю нейронную сеть для распознавания написанных кириллических букв, и я выяснил, что, когда я использую активационную функцию tanh, это работает значительно лучше с PyTorch, чем с Keras. Код Keras: import tensorflow as tf from tensorflow.
Data Science
Вопрос или проблема Я создаю нечто очень похожее на этот пример проекта BigQuery ML. Моя система отличается в двух направлениях: Во-первых, ей потребуется несколько тысяч временных рядов, поэтому я предпочел бы использовать функцию множественных рядов
Data Science
Вопрос или проблема Я попробовал всё, и не уверен, как решить следующую ошибку: ValueError: плохая форма входных данных (5634, 2) Это мой первый пример машинного обучения, так что прошу вас проявить терпение. Вот код на Python: import numpy as np import
Data Science
Вопрос или проблема Я хочу классифицировать набор данных обращений в службу поддержки, которые в основном содержат текст в поле описания и иногда серверные логи в отдельном поле. Поле логов не всегда присутствует, но когда оно есть, это хороший индикатор