feature-selection - ответы на вопросы

Data Science

Разделение данных для оценки регрессии методом наименьших квадратов (МНК)

00

Вопрос или проблема Вот что я сделал: разделил свой набор данных на обучающие и тестовые наборы -> получил значительные признаки с помощью выбора признаков, используя последовательный селектор признаков (MLxtend) на обучающем наборе -> использовал значительные

Data Science

Методы корректного отбора признаков для классификации сигнала на две категории.

00

Вопрос или проблема Я испытываю затруднения в выборе метода отбора признаков, который я должен использовать в моем исследовании, цель которого — проанализировать, какие признаки являются значимыми для представления определенного состояния человеческого

Data Science

Выбор количества признаков с помощью перекрестной проверки

00

Вопрос или проблема У меня есть алгоритм, который обучает бинарную предиктивную модель для заданного количества признаков из набора данных (признаки все одного типа, но не все важные). Таким образом, количество признаков является гиперпараметром, который

Data Science

тест статистической значимости между бинарными метками-функциями

00

Вопрос или проблема У меня есть 667 признаков, и я хочу найти признаки, которые имеют значительную границу между бинарными классами, перед применением модели классификации (например, Naive Bayes/SVM), чтобы улучшить скорость обучения модели классификации.

Data Science

Фаза выбора признаков

00

Вопрос или проблема Я пытаюсь предсказать общую продолжительность существования возможности (дата создания – дата закрытия), это моя зависимая переменная. Предположим, возможность проходит через 3 этапа до закрытия. Например: Opp x находился на

Data Science

Выявление мультиколлинеарности в реальных данных, не имеющих нормального распределения.

00

Вопрос или проблема В настоящее время я пытаюсь разобраться, есть ли в моих данных (состоящих из тысяч строк, некоторые из которых числовые, некоторые категориальные, а некоторые порядковые) мультиколлинеарности или нет. Одно, что я заметил, это то, что

Data Science

Фичевая инженерия для классификации возраста на основе интересов

00

Вопрос или проблема У меня есть набор данных, который содержит пользователей (строки) со списком их интересов (IABs), который выглядит следующим образом: user_id | gender | list of interests --------+--------+-------------------------------- user 1 |

Data Science

Алгоритм/библиотека выбора признаков для CRF

00

Вопрос или проблема Я использую алгоритм-обертку Conditional Random Fields CRF suite scikit-learn. Я читал в литературе о различных подходах к выбору признаков, но не могу найти никаких для этого пакета или, в общем, доступных для CRF.

Data Science

Корреляция между непрерывными и категориальными переменными и отбор признаков

00

Вопрос или проблема Я хочу создать модель классификации, и для этого в конце моего предобработки и создания признаков я получаю 167 непрерывных признаков и дискретную цель (5 модальностей). Я хотел бы уменьшить количество признаков, так как оно кажется слишком большим.

Data Science

Почему моя ошибка на стадии валидации может перестать снижаться, в то время как ошибка на стадии обучения продолжает уменьшаться?

00

Вопрос или проблема В своем стремлении узнать немного больше о науке о данных, я извлек из интернета некоторые размеченные данные и пытаюсь классифицировать примеры на один из трех классов. Я сталкиваюсь с проблемой, что независимо от того, какую модель

Data Science

Должны ли отбор признаков и отбор модели иметь одинаковое соотношение между набором для разработки и тестовым набором?

00

Вопрос или проблема Как указано в заголовке, после того как я провел отбор признаков, обязательно ли соблюдать то же самое соотношение (между набором для разработки и тестовым набором) в отборе модели? Если я правильно понимаю, вы отобрали определенный

Data Science

Рассчитываем важность признаков по методу перестановки. Два метода дают два разных результата, почему так?

00

Вопрос или проблема 1º метод выводов: Away Attack = 0.152322 и Home Attack = 0.0 2º метод выводов: Away Attack = 0.928571 и Home Attack = 0.071429 Почему так? Точность 69%. У меня много признаков, и я выбрал только эти 2. # Рассчитать важность путем перестановки

Data Science

Нахождение наиболее статистически значимой переменной(ых) в наборе данных – логистическая регрессия/выбор признаков.

00

Вопрос или проблема В настоящее время я работаю над проектом, в котором у меня есть набор данных, состоящий из ряда образцов крови и количества различных биологических соединений в каждом образце. Образцы разделены на три группы — тяжелое заболевание

Data Science

Важность признаков в CNN

00

Вопрос или проблема Я могу использовать shap для извлечения важных признаков для Dense NN. Однако для CNN я столкнулся с двумя проблемами: порядок признаков может быть изменен или объединен после фильтрации и пуллинга. Могу ли я все еще использовать shap

Data Science

Для отбора признаков используем ли мы критерий хи-квадрат вместе с взаимной информацией?

00

Вопрос или проблема Или мы выбираем только один из двух для категориальных данных. Обычно отбор признаков осуществляется с использованием взаимной информации, корреляции или условной энтропии. Мне не известны статистические тесты, такие как хи-квадрат

Data Science

Алгоритмы для случайного выбора признаков для непрерывной Y

00

Вопрос или проблема В настоящее время я пытаюсь найти хорошие алгоритмы для выбора признаков. Использование корреляции или других неконструктивных методов не является правильным способом выбора признаков. Я ищу алгоритмы на Python или библиотеки, которые

Data Science

Программное обеспечение для пересчитанной минимизации L1?

00

Вопрос или проблема Я пытаюсь решить задачу оптимизации, способствующую разреженности. Хорошо известно, что L1-норма является хорошей заменой для L0-нормы, и в статье (Candes et al, 2008: Enhancing sparsity by reweighted L1 minimization https://arxiv.

Data Science

Как подготовить данные для LSTM

00

Вопрос или проблема Мне сложно понять, как я могу подготовить свой набор данных для обучения LSTM. Ниже приведен скриншот подмножества моего набора данных. Существует несколько других признаков, не включенных в этот скриншот. Последний столбец –

Data Science

Как выполнять отбор признаков на разреженной матрице?

00

Вопрос или проблема Предположим, я хочу выполнить отбор признаков на разреженной матрице, например, 10,000 строк x 1500 признаков, но матрица в основном разреженная. Предположим, что все признаки числовые, а целевая переменная бинарная и дискретная.

Data Science

Выбор признаков, полученных из целевой переменной.

00

Вопрос или проблема Я начинающий в области машинного обучения, хотя у меня обширный опыт в вычислительной технике. Я собираюсь начать проект по машинному обучению, и есть что-то, что я не совсем понимаю. Например, если я пытаюсь предсказать смертность