feature-selection
Data Science
Вопрос или проблема У меня есть набор данных, содержащий ЭКГ-сигналы с 5 различными классами, описывающими качество конкретного окна ЭКГ-сигнала. Мне нужно создать модель машинного обучения для предсказания качества сигнала на основе признаков, извлеченных из каждого окна.
Data Science
Вопрос или проблема У меня есть набор данных из N столбцов. Теперь я могу предобрабатывать данные и находить подмножество признаков, которые могу использовать для обучения модели и выполнения предсказаний. В случае, если в обучающих данных отсутствуют
Data Science
Вопрос или проблема Я знаю точно, что сложные признаки проецируют данные в более высокие измерения, что делает ранее несепарируемые данные линейно сепарируемыми. Но разве не правда, что эти сложные признаки будут сильно коррелировать с признаками, из которых они происходят?
Data Science
Вопрос или проблема Учитывая следующий датафрейм age job salary 0 1 Doctor 100 1 2 Engineer 200 2 3 Lawyer 300 ... с age как числовым, job как категориальным, я хочу протестировать корреляцию со зарплатой, с целью выбора признаков (возраст и/или работа)
Data Science
Вопрос или проблема Я работаю над случаем использования страхования, чтобы построить классификатор логистической регрессии для прогнозирования, истечет ли полис или нет. Набор данных содержит более 20 категориальных признаков для полиса.
Data Science
Вопрос или проблема Каковы предпосылки, которые необходимо выполнить перед проведением критерия хи-квадрат (бивариантный анализ)? Например, перед тем как получить корреляционную матрицу, мы должны сначала удостовериться в линейности. Что насчет критерия хи-квадрат?
Data Science
Вопрос или проблема Я хочу получить взаимную информацию в наборе данных Iris, чтобы выбрать лучшие признаки, но я запутался во взаимной информации. Что такое концепция взаимной информации для выбора признаков? Может кто-то объяснить это просто?
Data Science
Вопрос или проблема Я хотел бы проанализировать данные о вращении головы в пространстве. Для этого я измерял вращение вокруг углов X, Y и Z с частотой 15 Гц в течение чуть больше десяти минут. Я хотел бы использовать эти движения, чтобы проанализировать
Data Science
Вопрос или проблема У меня есть данные, которые включают непрерывные и категориальные признаки. Задача заключается в регрессии, и я ищу способ удалить признаки, которые сильно коррелируют с другими признаками (мультиколлинеарность).
Data Science
Вопрос или проблема Я продолжаю читать, что Наивный Байес требует меньше признаков, чем многие другие алгоритмы машинного обучения. Но каково минимальное количество признаков, которое вам на самом деле нужно, чтобы получить хорошие результаты (90% точности)
Data Science
Вопрос или проблема Я работаю над задачей бинарной классификации с 1000 строками и 20 переменными. У меня есть такие переменные, как product_id, city, state, country, product family, product type, product segment и так далее. Как видно, большинство моих
Data Science
Вопрос или проблема Я работал над задачей идентификации именованных сущностей (а не распознавания). В этой задаче обработки естественного языка (NLP) модели дано предложение, и она должна предсказать, является ли каждое слово (или токен) именованной сущностью или нет.
Data Science
Вопрос или проблема У меня есть числовая переменная, называемая $x$, и категориальная переменная, называемая $y$. $y$ является порядковой переменной (A,B,C,D,E,F). Я использую кодирование меток для своей переменной $y$, и когда я смотрю на корреляцию
Data Science
Вопрос или проблема Я искал статью, в которой впервые была предложена важность Джини, но не уверен, действительно ли так это и произошло. Вот формула, с которой я знаком и которую ищу в статье: $$\frac{N_s}{N_t} * \left(i –
Data Science
Вопрос или проблема Работая с набором данных Всемирного отчета о счастье, у меня есть N стран с M признаками и баллом счастья. Это параметр, по которому я выделил 3 класса: счастливые, средние, несчастные (числовые интервалы баллов счастья).
Data Science
Как обрабатывать один столбец с непрерывными и категориальными данными для модели машинного обучения
Вопрос или проблема Я работаю с финансовыми данными, где у меня есть признак (столбец) с 90% значений в диапазоне от 0 до 1000 (непрерывные) и 10% значений как -1, -2 и -9. (значения по умолчанию) Определение значений по умолчанию: -1: данные недоступны
Data Science
Вопрос или проблема Я начинающий в scikit-learn, и у меня небольшая проблема при использовании модуля отбора признаков VarianceThreshold. Проблема в том, что когда я устанавливаю дисперсию Var[X]=.8*(1-.8) предполагается, что будут удалены все признаки
Data Science
Вопрос или проблема В Rapidminer, веса дерева решений являются мерой “важности” атрибутов в процессе разбиения? Если да, то почему полезно знать эти веса? Есть ли лучшие методы для определения наиболее дискриминантных признаков в наборе данных?
Data Science
Вопрос или проблема import pandas as pd from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2 data=pd.read_csv(‘filename.csv’) x = data.data y = data.target Преобразование в DataFrame для лучшей визуализации column_names = [f’
Data Science
Вопрос или проблема Я работаю с смешанным набором данных, который соответствует данным о потреблении ТВ, с целью сократить количество признаков до только тех, которые имеют отношение к выявлению паттернов потребления ТВ (или групп потребления) с использованием кластеризации.