feature-selection
Data Science
Вопрос или проблема Я использую алгоритм-обертку Conditional Random Fields CRF suite scikit-learn. Я читал в литературе о различных подходах к выбору признаков, но не могу найти никаких для этого пакета или, в общем, доступных для CRF.
Data Science
Вопрос или проблема Я хочу создать модель классификации, и для этого в конце моего предобработки и создания признаков я получаю 167 непрерывных признаков и дискретную цель (5 модальностей). Я хотел бы уменьшить количество признаков, так как оно кажется слишком большим.
Data Science
Вопрос или проблема В своем стремлении узнать немного больше о науке о данных, я извлек из интернета некоторые размеченные данные и пытаюсь классифицировать примеры на один из трех классов. Я сталкиваюсь с проблемой, что независимо от того, какую модель
Data Science
Вопрос или проблема Как указано в заголовке, после того как я провел отбор признаков, обязательно ли соблюдать то же самое соотношение (между набором для разработки и тестовым набором) в отборе модели? Если я правильно понимаю, вы отобрали определенный
Data Science
Вопрос или проблема 1º метод выводов: Away Attack = 0.152322 и Home Attack = 0.0 2º метод выводов: Away Attack = 0.928571 и Home Attack = 0.071429 Почему так? Точность 69%. У меня много признаков, и я выбрал только эти 2. # Рассчитать важность путем перестановки
Data Science
Вопрос или проблема В настоящее время я работаю над проектом, в котором у меня есть набор данных, состоящий из ряда образцов крови и количества различных биологических соединений в каждом образце. Образцы разделены на три группы — тяжелое заболевание
Data Science
Вопрос или проблема Я могу использовать shap для извлечения важных признаков для Dense NN. Однако для CNN я столкнулся с двумя проблемами: порядок признаков может быть изменен или объединен после фильтрации и пуллинга. Могу ли я все еще использовать shap
Data Science
Вопрос или проблема Или мы выбираем только один из двух для категориальных данных. Обычно отбор признаков осуществляется с использованием взаимной информации, корреляции или условной энтропии. Мне не известны статистические тесты, такие как хи-квадрат
Data Science
Вопрос или проблема В настоящее время я пытаюсь найти хорошие алгоритмы для выбора признаков. Использование корреляции или других неконструктивных методов не является правильным способом выбора признаков. Я ищу алгоритмы на Python или библиотеки, которые
Data Science
Вопрос или проблема Я пытаюсь решить задачу оптимизации, способствующую разреженности. Хорошо известно, что L1-норма является хорошей заменой для L0-нормы, и в статье (Candes et al, 2008: Enhancing sparsity by reweighted L1 minimization https://arxiv.
Data Science
Вопрос или проблема Мне сложно понять, как я могу подготовить свой набор данных для обучения LSTM. Ниже приведен скриншот подмножества моего набора данных. Существует несколько других признаков, не включенных в этот скриншот. Последний столбец –
Data Science
Вопрос или проблема Предположим, я хочу выполнить отбор признаков на разреженной матрице, например, 10,000 строк x 1500 признаков, но матрица в основном разреженная. Предположим, что все признаки числовые, а целевая переменная бинарная и дискретная.
Data Science
Вопрос или проблема Я начинающий в области машинного обучения, хотя у меня обширный опыт в вычислительной технике. Я собираюсь начать проект по машинному обучению, и есть что-то, что я не совсем понимаю. Например, если я пытаюсь предсказать смертность
Data Science
Вопрос или проблема У меня есть набор данных с более чем 25000 признаков. Я выполнил удаление шума с использованием гистограммного подхода, и этот набор данных сократился до более чем 5000 признаков. Есть два класса: здоровые и инфицированные.
Data Science
Вопрос или проблема Я работаю над задачей прогнозирования фондового рынка на основе LSTM и пытаюсь найти способ выбора входных переменных. При расчете корреляции между переменными (например, цена закрытия акций Tesla против цены закрытия акций Microsoft)
Data Science
Вопрос или проблема Контекст: В настоящее время я разрабатываю и сравниваю модели машинного обучения для прогнозирования данных о жилье. У меня около 32000 точек данных, 42 признака, и я предсказываю цену жилья. Я сравниваю регрессор случайного леса
Data Science
Вопрос или проблема У меня есть набор данных, который содержит n признаков, масштабируемых в диапазоне [0,1]. Я хотел бы использовать алгоритм неуправляемого выбора признаков (пороговая дисперсия). Как я могу вычислить пороговое значение?
Data Science
Вопрос или проблема Я слышал, что метод случайного леса и другие деревянистые машины применяют какой-то вид неявного отбора признаков. Мой вопрос: относится ли это также к таким методам, как SVM? Насколько я понимаю, выбор опорных векторов также является
Data Science
Вопрос или проблема Я пытаюсь понять логическую интуицию различий между объединением нескольких признаков и передачей их через финальный блок (который может состоять из нескольких слоев и, скажем, финального слоя классификации) по сравнению с передачей
Data Science
Вопрос или проблема Я работаю над проектом, в котором мне нужно кластеризовать данные. После выполнения всех обычных шагов (в любом порядке: одна горячая кодировка/кодирование категории BaseN, применение квантильного преобразования из-за отсутствия у