feature-selection - ответы на вопросы - Page 3 of 5

Data Science

Когда мне следует делать разделение на обучающую и тестовую выборки, а также отбор признаков, если мой набор данных несбалансированный?

00

Вопрос или проблема У меня есть набор данных, содержащий ЭКГ-сигналы с 5 различными классами, описывающими качество конкретного окна ЭКГ-сигнала. Мне нужно создать модель машинного обучения для предсказания качества сигнала на основе признаков, извлеченных из каждого окна.

Data Science

Недостающие данные в обучающем наборе и тестовом наборе

00

Вопрос или проблема У меня есть набор данных из N столбцов. Теперь я могу предобрабатывать данные и находить подмножество признаков, которые могу использовать для обучения модели и выполнения предсказаний. В случае, если в обучающих данных отсутствуют

Data Science

Должен ли я избавиться от простых признаков после того, как получу более сложные признаки из них?

00

Вопрос или проблема Я знаю точно, что сложные признаки проецируют данные в более высокие измерения, что делает ранее несепарируемые данные линейно сепарируемыми. Но разве не правда, что эти сложные признаки будут сильно коррелировать с признаками, из которых они происходят?

Data Science

Корреляция с целевой переменной для регрессионной задачи

00

Вопрос или проблема Учитывая следующий датафрейм age job salary 0 1 Doctor 100 1 2 Engineer 200 2 3 Lawyer 300 ... с age как числовым, job как категориальным, я хочу протестировать корреляцию со зарплатой, с целью выбора признаков (возраст и/или работа)

Data Science

Логистическая регрессия для категориальных признаков с несколькими значениями в каждой категории

00

Вопрос или проблема Я работаю над случаем использования страхования, чтобы построить классификатор логистической регрессии для прогнозирования, истечет ли полис или нет. Набор данных содержит более 20 категориальных признаков для полиса.

Data Science

Когда имеет смысл использовать тест Хи-квадрат для выбора признаков?

02

Вопрос или проблема Каковы предпосылки, которые необходимо выполнить перед проведением критерия хи-квадрат (бивариантный анализ)? Например, перед тем как получить корреляционную матрицу, мы должны сначала удостовериться в линейности. Что насчет критерия хи-квадрат?

Data Science

Концепция взаимной информации

00

Вопрос или проблема Я хочу получить взаимную информацию в наборе данных Iris, чтобы выбрать лучшие признаки, но я запутался во взаимной информации. Что такое концепция взаимной информации для выбора признаков? Может кто-то объяснить это просто?

Data Science

Использование временных рядов для предсказания другой переменной.

00

Вопрос или проблема Я хотел бы проанализировать данные о вращении головы в пространстве. Для этого я измерял вращение вокруг углов X, Y и Z с частотой 15 Гц в течение чуть больше десяти минут. Я хотел бы использовать эти движения, чтобы проанализировать

Data Science

Мне стоит получить фиктивные переменные, а затем посмотреть на многоколлинеарность?

00

Вопрос или проблема У меня есть данные, которые включают непрерывные и категориальные признаки. Задача заключается в регрессии, и я ищу способ удалить признаки, которые сильно коррелируют с другими признаками (мультиколлинеарность).

Data Science

Минимальное количество признаков для модели наивного Байеса

00

Вопрос или проблема Я продолжаю читать, что Наивный Байес требует меньше признаков, чем многие другие алгоритмы машинного обучения. Но каково минимальное количество признаков, которое вам на самом деле нужно, чтобы получить хорошие результаты (90% точности)

Data Science

Как использовать иерархическую переменную в модели машинного обучения

00

Вопрос или проблема Я работаю над задачей бинарной классификации с 1000 строками и 20 переменными. У меня есть такие переменные, как product_id, city, state, country, product family, product type, product segment и так далее. Как видно, большинство моих

Data Science

Как мне разработать функции для задачи идентификации именованных сущностей?

00

Вопрос или проблема Я работал над задачей идентификации именованных сущностей (а не распознавания). В этой задаче обработки естественного языка (NLP) модели дано предложение, и она должна предсказать, является ли каждое слово (или токен) именованной сущностью или нет.

Data Science

Избыточная функция после кодирования с одним горячим (one hot encoding)

00

Вопрос или проблема У меня есть числовая переменная, называемая $x$, и категориальная переменная, называемая $y$. $y$ является порядковой переменной (A,B,C,D,E,F). Я использую кодирование меток для своей переменной $y$, и когда я смотрю на корреляцию

Data Science

Кто написал формулу важности Джини/оценки важности признаков в sklearn?

00

Вопрос или проблема Я искал статью, в которой впервые была предложена важность Джини, но не уверен, действительно ли так это и произошло. Вот формула, с которой я знаком и которую ищу в статье: $$\frac{N_s}{N_t} * \left(i –

Data Science

Значимость признаков в алгоритме PCA + k-means

00

Вопрос или проблема Работая с набором данных Всемирного отчета о счастье, у меня есть N стран с M признаками и баллом счастья. Это параметр, по которому я выделил 3 класса: счастливые, средние, несчастные (числовые интервалы баллов счастья).

Data Science

Как обрабатывать один столбец с непрерывными и категориальными данными для модели машинного обучения

00

Вопрос или проблема Я работаю с финансовыми данными, где у меня есть признак (столбец) с 90% значений в диапазоне от 0 до 1000 (непрерывные) и 10% значений как -1, -2 и -9. (значения по умолчанию) Определение значений по умолчанию: -1: данные недоступны

Data Science

Порог дисперсии с проблемой на Python

00

Вопрос или проблема Я начинающий в scikit-learn, и у меня небольшая проблема при использовании модуля отбора признаков VarianceThreshold. Проблема в том, что когда я устанавливаю дисперсию Var[X]=.8*(1-.8) предполагается, что будут удалены все признаки

Data Science

Rapidminer и веса деревьев решений

00

Вопрос или проблема В Rapidminer, веса дерева решений являются мерой “важности” атрибутов в процессе разбиения? Если да, то почему полезно знать эти веса? Есть ли лучшие методы для определения наиболее дискриминантных признаков в наборе данных?

Data Science

Я получаю ошибку AttributeError: у объекта ‘DataFrame’ нет атрибута ‘data’

00

Вопрос или проблема import pandas as pd from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2 data=pd.read_csv(‘filename.csv’) x = data.data y = data.target Преобразование в DataFrame для лучшей визуализации column_names = [f’

Data Science

Как я могу уменьшить количество измерений, используя алгоритм кластеризации в смешанном наборе данных?

00

Вопрос или проблема Я работаю с смешанным набором данных, который соответствует данным о потреблении ТВ, с целью сократить количество признаков до только тех, которые имеют отношение к выявлению паттернов потребления ТВ (или групп потребления) с использованием кластеризации.