feature-engineering
Data Science
Вопрос или проблема В настоящее время я работаю над проектом, в котором использую LSTM для обучения и предсказания последовательностей категориальных данных. Мой набор данных состоит из последовательностей переменной длины элементов $s_i = [x_{i_0}, x_{i_1}, …
Data Science
Вопрос или проблема Я работаю над практической задачей по машинному обучению с https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/#ProblemStatement Я хочу заменить нулевые значения в столбце ‘
Data Science
Вопрос или проблема У меня есть набор данных из N столбцов. Теперь я могу предобрабатывать данные и находить подмножество признаков, которые могу использовать для обучения модели и выполнения предсказаний. В случае, если в обучающих данных отсутствуют
Data Science
Вопрос или проблема Мне интересно, есть ли смысл создавать комбинированные признаки из нескольких категориальных переменных, когда отдельные категориальные переменные уже закодированы методом one-hot? Простой пример: есть переменная P с категориями {X
Data Science
Вопрос или проблема Я работаю над классификатором документов, который может выполнять классификацию на основе структуры документа. Мой план состоит в том, чтобы получить векторное представление слов, а также координаты слов и как-то комбинировать эти
Data Science
Вопрос или проблема Я разрабатываю систему рекомендаций, в которой есть несколько категорий. Я хотел бы узнать, насколько популярен продукт в каждой категории. Для этого я рассматриваю вероятность как один из факторов. Например, у меня есть 3 категории
Data Science
Вопрос или проблема У меня есть список из примерно 700 переменных, которые мне нужно очистить. Ситуацию усложняет то, что существуют разные числовые коды, которые сигнализируют о недопустимых значениях, и они различаются в зависимости от типа переменной.
Data Science
Вопрос или проблема Учитывая набор данных с 100 наблюдениями и 3 признаками плюс одна метка (регрессия), мы обучаем модель на данных 100 * 4 (3 признака + 1 метка). Теперь можем ли мы предсказать признаки, когда метка задана в качестве входных данных.
Data Science
Вопрос или проблема Я приведу крайне упрощенный пример, чтобы проиллюстрировать вопрос, но я думаю, что ответ должен быть актуален и для более обобщенных случаев. Предположим, я хочу создать регрессионную модель временного ряда (сама модель не имеет значения
Data Science
Вопрос или проблема Я хочу преобразовать некоторые значения признаков в своей модели, используя кубический корень, чтобы уменьшить некоторую асимметрию в своих данных. Однако я заметил, что после того, как я применяю кубический корень к определенным признакам
Data Science
Вопрос или проблема Я пытаюсь найти общепринятые техники для работы с многоценностными категориальными переменными с высокой кардинальностью. В данный момент я использую набор данных с признаком CATEGORY, который имеет кардинальность около 20,000.
Data Science
Вопрос или проблема Я работал над задачей идентификации именованных сущностей (а не распознавания). В этой задаче обработки естественного языка (NLP) модели дано предложение, и она должна предсказать, является ли каждое слово (или токен) именованной сущностью или нет.
Data Science
Вопрос или проблема У меня есть проект по созданию компьютерной музыки, и я хотел бы классифицировать короткие фрагменты музыки как “хорошие” или “плохие” с помощью машинного обучения. У меня не будет большого набора для обучения.
Data Science
Вопрос или проблема При использовании библиотеки tsfresh для извлечения признаков возможно ли запустить калькулятор признаков , который принимает результаты другого калькулятора признаков в качестве своих параметров? Например, я хочу рассчитать (или аппроксимировать) частоту моего сигнала.
Data Science
Вопрос или проблема Я искал статью, в которой впервые была предложена важность Джини, но не уверен, действительно ли так это и произошло. Вот формула, с которой я знаком и которую ищу в статье: $$\frac{N_s}{N_t} * \left(i –
Data Science
Вопрос или проблема У меня есть проблема с оценкой клиентов, над которой я работаю, в частности, с прогнозированием конверсии и подсчетом вероятностного балла конверсии (в данный момент используется классификатор xgboost). Есть один признак, который я
Data Science
Как обрабатывать один столбец с непрерывными и категориальными данными для модели машинного обучения
Вопрос или проблема Я работаю с финансовыми данными, где у меня есть признак (столбец) с 90% значений в диапазоне от 0 до 1000 (непрерывные) и 10% значений как -1, -2 и -9. (значения по умолчанию) Определение значений по умолчанию: -1: данные недоступны
Data Science
Вопрос или проблема В чем различия между Взаимодействиями признаков и Важностью признаков? Моя точка зрения: Важность признака: Как признак способствовал предсказанию? Это будет коэффициент, если это линейная регрессия с IID данными.
Data Science
Вопрос или проблема Я пытаюсь улучшить точность. Я создал несколько новых признаков на основе старых признаков. Поэтому мне нужно заполнить пустые ячейки новых признаков одинаковыми значениями, чтобы уравнять формы. Затем я попробовал это с медианой
Data Science
Вопрос или проблема У меня есть проблема регрессии, которая заключается в прогнозировании артериального давления пациента по ряду показателей жизненно важных функций, включая PTT, PPG и ЧСС. Каждая из этих входных характеристик была собрана с одинаковой