feature-selection
Data Science
Вопрос или проблема Вот что я сделал: разделил свой набор данных на обучающие и тестовые наборы -> получил значительные признаки с помощью выбора признаков, используя последовательный селектор признаков (MLxtend) на обучающем наборе -> использовал значительные
Data Science
Вопрос или проблема Я испытываю затруднения в выборе метода отбора признаков, который я должен использовать в моем исследовании, цель которого — проанализировать, какие признаки являются значимыми для представления определенного состояния человеческого
Data Science
Вопрос или проблема У меня есть алгоритм, который обучает бинарную предиктивную модель для заданного количества признаков из набора данных (признаки все одного типа, но не все важные). Таким образом, количество признаков является гиперпараметром, который
Data Science
Вопрос или проблема У меня есть 667 признаков, и я хочу найти признаки, которые имеют значительную границу между бинарными классами, перед применением модели классификации (например, Naive Bayes/SVM), чтобы улучшить скорость обучения модели классификации.
Data Science
Вопрос или проблема Я пытаюсь предсказать общую продолжительность существования возможности (дата создания – дата закрытия), это моя зависимая переменная. Предположим, возможность проходит через 3 этапа до закрытия. Например: Opp x находился на
Data Science
Вопрос или проблема В настоящее время я пытаюсь разобраться, есть ли в моих данных (состоящих из тысяч строк, некоторые из которых числовые, некоторые категориальные, а некоторые порядковые) мультиколлинеарности или нет. Одно, что я заметил, это то, что
Data Science
Вопрос или проблема У меня есть набор данных, который содержит пользователей (строки) со списком их интересов (IABs), который выглядит следующим образом: user_id | gender | list of interests --------+--------+-------------------------------- user 1 |
Data Science
Вопрос или проблема Я использую алгоритм-обертку Conditional Random Fields CRF suite scikit-learn. Я читал в литературе о различных подходах к выбору признаков, но не могу найти никаких для этого пакета или, в общем, доступных для CRF.
Data Science
Вопрос или проблема Я хочу создать модель классификации, и для этого в конце моего предобработки и создания признаков я получаю 167 непрерывных признаков и дискретную цель (5 модальностей). Я хотел бы уменьшить количество признаков, так как оно кажется слишком большим.
Data Science
Вопрос или проблема В своем стремлении узнать немного больше о науке о данных, я извлек из интернета некоторые размеченные данные и пытаюсь классифицировать примеры на один из трех классов. Я сталкиваюсь с проблемой, что независимо от того, какую модель
Data Science
Вопрос или проблема Как указано в заголовке, после того как я провел отбор признаков, обязательно ли соблюдать то же самое соотношение (между набором для разработки и тестовым набором) в отборе модели? Если я правильно понимаю, вы отобрали определенный
Data Science
Вопрос или проблема 1º метод выводов: Away Attack = 0.152322 и Home Attack = 0.0 2º метод выводов: Away Attack = 0.928571 и Home Attack = 0.071429 Почему так? Точность 69%. У меня много признаков, и я выбрал только эти 2. # Рассчитать важность путем перестановки
Data Science
Вопрос или проблема В настоящее время я работаю над проектом, в котором у меня есть набор данных, состоящий из ряда образцов крови и количества различных биологических соединений в каждом образце. Образцы разделены на три группы — тяжелое заболевание
Data Science
Вопрос или проблема Я могу использовать shap для извлечения важных признаков для Dense NN. Однако для CNN я столкнулся с двумя проблемами: порядок признаков может быть изменен или объединен после фильтрации и пуллинга. Могу ли я все еще использовать shap
Data Science
Вопрос или проблема Или мы выбираем только один из двух для категориальных данных. Обычно отбор признаков осуществляется с использованием взаимной информации, корреляции или условной энтропии. Мне не известны статистические тесты, такие как хи-квадрат
Data Science
Вопрос или проблема В настоящее время я пытаюсь найти хорошие алгоритмы для выбора признаков. Использование корреляции или других неконструктивных методов не является правильным способом выбора признаков. Я ищу алгоритмы на Python или библиотеки, которые
Data Science
Вопрос или проблема Я пытаюсь решить задачу оптимизации, способствующую разреженности. Хорошо известно, что L1-норма является хорошей заменой для L0-нормы, и в статье (Candes et al, 2008: Enhancing sparsity by reweighted L1 minimization https://arxiv.
Data Science
Вопрос или проблема Мне сложно понять, как я могу подготовить свой набор данных для обучения LSTM. Ниже приведен скриншот подмножества моего набора данных. Существует несколько других признаков, не включенных в этот скриншот. Последний столбец –
Data Science
Вопрос или проблема Предположим, я хочу выполнить отбор признаков на разреженной матрице, например, 10,000 строк x 1500 признаков, но матрица в основном разреженная. Предположим, что все признаки числовые, а целевая переменная бинарная и дискретная.
Data Science
Вопрос или проблема Я начинающий в области машинного обучения, хотя у меня обширный опыт в вычислительной технике. Я собираюсь начать проект по машинному обучению, и есть что-то, что я не совсем понимаю. Например, если я пытаюсь предсказать смертность