Data Science
Алгоритм/библиотека выбора признаков для CRF
00
Вопрос или проблема Я использую алгоритм-обертку Conditional Random Fields CRF suite scikit-learn. Я читал в литературе о различных подходах к выбору признаков, но не могу найти никаких для этого пакета или, в общем, доступных для CRF.
Data Science
Корреляция между непрерывными и категориальными переменными и отбор признаков
00
Вопрос или проблема Я хочу создать модель классификации, и для этого в конце моего предобработки и создания признаков я получаю 167 непрерывных признаков и дискретную цель (5 модальностей). Я хотел бы уменьшить количество признаков, так как оно кажется слишком большим.
Data Science
Почему моя ошибка на стадии валидации может перестать снижаться, в то время как ошибка на стадии обучения продолжает уменьшаться?
00
Вопрос или проблема В своем стремлении узнать немного больше о науке о данных, я извлек из интернета некоторые размеченные данные и пытаюсь классифицировать примеры на один из трех классов. Я сталкиваюсь с проблемой, что независимо от того, какую модель
Data Science
Должны ли отбор признаков и отбор модели иметь одинаковое соотношение между набором для разработки и тестовым набором?
00
Вопрос или проблема Как указано в заголовке, после того как я провел отбор признаков, обязательно ли соблюдать то же самое соотношение (между набором для разработки и тестовым набором) в отборе модели? Если я правильно понимаю, вы отобрали определенный
Data Science
Рассчитываем важность признаков по методу перестановки. Два метода дают два разных результата, почему так?
00
Вопрос или проблема 1º метод выводов: Away Attack = 0.152322 и Home Attack = 0.0 2º метод выводов: Away Attack = 0.928571 и Home Attack = 0.071429 Почему так? Точность 69%. У меня много признаков, и я выбрал только эти 2. # Рассчитать важность путем перестановки
Data Science
Нахождение наиболее статистически значимой переменной(ых) в наборе данных – логистическая регрессия/выбор признаков.
00
Вопрос или проблема В настоящее время я работаю над проектом, в котором у меня есть набор данных, состоящий из ряда образцов крови и количества различных биологических соединений в каждом образце. Образцы разделены на три группы — тяжелое заболевание
Data Science
Важность признаков в CNN
00
Вопрос или проблема Я могу использовать shap для извлечения важных признаков для Dense NN. Однако для CNN я столкнулся с двумя проблемами: порядок признаков может быть изменен или объединен после фильтрации и пуллинга. Могу ли я все еще использовать shap
Data Science
Для отбора признаков используем ли мы критерий хи-квадрат вместе с взаимной информацией?
00
Вопрос или проблема Или мы выбираем только один из двух для категориальных данных. Обычно отбор признаков осуществляется с использованием взаимной информации, корреляции или условной энтропии. Мне не известны статистические тесты, такие как хи-квадрат
Data Science
Алгоритмы для случайного выбора признаков для непрерывной Y
00
Вопрос или проблема В настоящее время я пытаюсь найти хорошие алгоритмы для выбора признаков. Использование корреляции или других неконструктивных методов не является правильным способом выбора признаков. Я ищу алгоритмы на Python или библиотеки, которые
Data Science
Программное обеспечение для пересчитанной минимизации L1?
00
Вопрос или проблема Я пытаюсь решить задачу оптимизации, способствующую разреженности. Хорошо известно, что L1-норма является хорошей заменой для L0-нормы, и в статье (Candes et al, 2008: Enhancing sparsity by reweighted L1 minimization https://arxiv.
Data Science
Как подготовить данные для LSTM
00
Вопрос или проблема Мне сложно понять, как я могу подготовить свой набор данных для обучения LSTM. Ниже приведен скриншот подмножества моего набора данных. Существует несколько других признаков, не включенных в этот скриншот. Последний столбец –
Data Science
Как выполнять отбор признаков на разреженной матрице?
00
Вопрос или проблема Предположим, я хочу выполнить отбор признаков на разреженной матрице, например, 10,000 строк x 1500 признаков, но матрица в основном разреженная. Предположим, что все признаки числовые, а целевая переменная бинарная и дискретная.
Data Science
Выбор признаков, полученных из целевой переменной.
00
Вопрос или проблема Я начинающий в области машинного обучения, хотя у меня обширный опыт в вычислительной технике. Я собираюсь начать проект по машинному обучению, и есть что-то, что я не совсем понимаю. Например, если я пытаюсь предсказать смертность
Data Science
Важный выбор признаков с использованием алгоритмов уменьшения размерности.
00
Вопрос или проблема У меня есть набор данных с более чем 25000 признаков. Я выполнил удаление шума с использованием гистограммного подхода, и этот набор данных сократился до более чем 5000 признаков. Есть два класса: здоровые и инфицированные.
Data Science
Выбор признаков для прогнозирования временных рядов
00
Вопрос или проблема Я работаю над задачей прогнозирования фондового рынка на основе LSTM и пытаюсь найти способ выбора входных переменных. При расчете корреляции между переменными (например, цена закрытия акций Tesla против цены закрытия акций Microsoft)
Data Science
Сколько признаков мне выбрать при выполнении отбора признаков для регрессионных алгоритмов? Являются ли R2 и RMSE хорошими мерами успеха для проверки на переобучение?
00
Вопрос или проблема Контекст: В настоящее время я разрабатываю и сравниваю модели машинного обучения для прогнозирования данных о жилье. У меня около 32000 точек данных, 42 признака, и я предсказываю цену жилья. Я сравниваю регрессор случайного леса
Data Science
Как я могу вычислить идеальное пороговое значение дисперсии для моих данных?
00
Вопрос или проблема У меня есть набор данных, который содержит n признаков, масштабируемых в диапазоне [0,1]. Я хотел бы использовать алгоритм неуправляемого выбора признаков (пороговая дисперсия). Как я могу вычислить пороговое значение?
Data Science
Неявный выбор признаков
00
Вопрос или проблема Я слышал, что метод случайного леса и другие деревянистые машины применяют какой-то вид неявного отбора признаков. Мой вопрос: относится ли это также к таким методам, как SVM? Насколько я понимаю, выбор опорных векторов также является
Data Science
смешивание признаков против конкатенации слоев
00
Вопрос или проблема Я пытаюсь понять логическую интуицию различий между объединением нескольких признаков и передачей их через финальный блок (который может состоять из нескольких слоев и, скажем, финального слоя классификации) по сравнению с передачей
Data Science
Метод выбора признаков для улучшения кластеризации?
00
Вопрос или проблема Я работаю над проектом, в котором мне нужно кластеризовать данные. После выполнения всех обычных шагов (в любом порядке: одна горячая кодировка/кодирование категории BaseN, применение квантильного преобразования из-за отсутствия у