Data Science
Разделение данных для оценки регрессии методом наименьших квадратов (МНК)
00
Вопрос или проблема Вот что я сделал: разделил свой набор данных на обучающие и тестовые наборы -> получил значительные признаки с помощью выбора признаков, используя последовательный селектор признаков (MLxtend) на обучающем наборе -> использовал значительные
Data Science
Методы корректного отбора признаков для классификации сигнала на две категории.
00
Вопрос или проблема Я испытываю затруднения в выборе метода отбора признаков, который я должен использовать в моем исследовании, цель которого — проанализировать, какие признаки являются значимыми для представления определенного состояния человеческого
Data Science
Выбор количества признаков с помощью перекрестной проверки
00
Вопрос или проблема У меня есть алгоритм, который обучает бинарную предиктивную модель для заданного количества признаков из набора данных (признаки все одного типа, но не все важные). Таким образом, количество признаков является гиперпараметром, который
Data Science
тест статистической значимости между бинарными метками-функциями
00
Вопрос или проблема У меня есть 667 признаков, и я хочу найти признаки, которые имеют значительную границу между бинарными классами, перед применением модели классификации (например, Naive Bayes/SVM), чтобы улучшить скорость обучения модели классификации.
Data Science
Фаза выбора признаков
00
Вопрос или проблема Я пытаюсь предсказать общую продолжительность существования возможности (дата создания – дата закрытия), это моя зависимая переменная. Предположим, возможность проходит через 3 этапа до закрытия. Например: Opp x находился на
Data Science
Выявление мультиколлинеарности в реальных данных, не имеющих нормального распределения.
00
Вопрос или проблема В настоящее время я пытаюсь разобраться, есть ли в моих данных (состоящих из тысяч строк, некоторые из которых числовые, некоторые категориальные, а некоторые порядковые) мультиколлинеарности или нет. Одно, что я заметил, это то, что
Data Science
Фичевая инженерия для классификации возраста на основе интересов
00
Вопрос или проблема У меня есть набор данных, который содержит пользователей (строки) со списком их интересов (IABs), который выглядит следующим образом: user_id | gender | list of interests --------+--------+-------------------------------- user 1 |
Data Science
Алгоритм/библиотека выбора признаков для CRF
00
Вопрос или проблема Я использую алгоритм-обертку Conditional Random Fields CRF suite scikit-learn. Я читал в литературе о различных подходах к выбору признаков, но не могу найти никаких для этого пакета или, в общем, доступных для CRF.
Data Science
Корреляция между непрерывными и категориальными переменными и отбор признаков
00
Вопрос или проблема Я хочу создать модель классификации, и для этого в конце моего предобработки и создания признаков я получаю 167 непрерывных признаков и дискретную цель (5 модальностей). Я хотел бы уменьшить количество признаков, так как оно кажется слишком большим.
Data Science
Почему моя ошибка на стадии валидации может перестать снижаться, в то время как ошибка на стадии обучения продолжает уменьшаться?
00
Вопрос или проблема В своем стремлении узнать немного больше о науке о данных, я извлек из интернета некоторые размеченные данные и пытаюсь классифицировать примеры на один из трех классов. Я сталкиваюсь с проблемой, что независимо от того, какую модель
Data Science
Должны ли отбор признаков и отбор модели иметь одинаковое соотношение между набором для разработки и тестовым набором?
00
Вопрос или проблема Как указано в заголовке, после того как я провел отбор признаков, обязательно ли соблюдать то же самое соотношение (между набором для разработки и тестовым набором) в отборе модели? Если я правильно понимаю, вы отобрали определенный
Data Science
Рассчитываем важность признаков по методу перестановки. Два метода дают два разных результата, почему так?
00
Вопрос или проблема 1º метод выводов: Away Attack = 0.152322 и Home Attack = 0.0 2º метод выводов: Away Attack = 0.928571 и Home Attack = 0.071429 Почему так? Точность 69%. У меня много признаков, и я выбрал только эти 2. # Рассчитать важность путем перестановки
Data Science
Нахождение наиболее статистически значимой переменной(ых) в наборе данных – логистическая регрессия/выбор признаков.
00
Вопрос или проблема В настоящее время я работаю над проектом, в котором у меня есть набор данных, состоящий из ряда образцов крови и количества различных биологических соединений в каждом образце. Образцы разделены на три группы — тяжелое заболевание
Data Science
Важность признаков в CNN
00
Вопрос или проблема Я могу использовать shap для извлечения важных признаков для Dense NN. Однако для CNN я столкнулся с двумя проблемами: порядок признаков может быть изменен или объединен после фильтрации и пуллинга. Могу ли я все еще использовать shap
Data Science
Для отбора признаков используем ли мы критерий хи-квадрат вместе с взаимной информацией?
00
Вопрос или проблема Или мы выбираем только один из двух для категориальных данных. Обычно отбор признаков осуществляется с использованием взаимной информации, корреляции или условной энтропии. Мне не известны статистические тесты, такие как хи-квадрат
Data Science
Алгоритмы для случайного выбора признаков для непрерывной Y
00
Вопрос или проблема В настоящее время я пытаюсь найти хорошие алгоритмы для выбора признаков. Использование корреляции или других неконструктивных методов не является правильным способом выбора признаков. Я ищу алгоритмы на Python или библиотеки, которые
Data Science
Программное обеспечение для пересчитанной минимизации L1?
00
Вопрос или проблема Я пытаюсь решить задачу оптимизации, способствующую разреженности. Хорошо известно, что L1-норма является хорошей заменой для L0-нормы, и в статье (Candes et al, 2008: Enhancing sparsity by reweighted L1 minimization https://arxiv.
Data Science
Как подготовить данные для LSTM
00
Вопрос или проблема Мне сложно понять, как я могу подготовить свой набор данных для обучения LSTM. Ниже приведен скриншот подмножества моего набора данных. Существует несколько других признаков, не включенных в этот скриншот. Последний столбец –
Data Science
Как выполнять отбор признаков на разреженной матрице?
00
Вопрос или проблема Предположим, я хочу выполнить отбор признаков на разреженной матрице, например, 10,000 строк x 1500 признаков, но матрица в основном разреженная. Предположим, что все признаки числовые, а целевая переменная бинарная и дискретная.
Data Science
Выбор признаков, полученных из целевой переменной.
00
Вопрос или проблема Я начинающий в области машинного обучения, хотя у меня обширный опыт в вычислительной технике. Я собираюсь начать проект по машинному обучению, и есть что-то, что я не совсем понимаю. Например, если я пытаюсь предсказать смертность