feature-selection - ответы на вопросы - Page 2 of 5

Data Science

Важный выбор признаков с использованием алгоритмов уменьшения размерности.

00

Вопрос или проблема У меня есть набор данных с более чем 25000 признаков. Я выполнил удаление шума с использованием гистограммного подхода, и этот набор данных сократился до более чем 5000 признаков. Есть два класса: здоровые и инфицированные.

Data Science

Выбор признаков для прогнозирования временных рядов

00

Вопрос или проблема Я работаю над задачей прогнозирования фондового рынка на основе LSTM и пытаюсь найти способ выбора входных переменных. При расчете корреляции между переменными (например, цена закрытия акций Tesla против цены закрытия акций Microsoft)

Data Science

Сколько признаков мне выбрать при выполнении отбора признаков для регрессионных алгоритмов? Являются ли R2 и RMSE хорошими мерами успеха для проверки на переобучение?

00

Вопрос или проблема Контекст: В настоящее время я разрабатываю и сравниваю модели машинного обучения для прогнозирования данных о жилье. У меня около 32000 точек данных, 42 признака, и я предсказываю цену жилья. Я сравниваю регрессор случайного леса

Data Science

Как я могу вычислить идеальное пороговое значение дисперсии для моих данных?

00

Вопрос или проблема У меня есть набор данных, который содержит n признаков, масштабируемых в диапазоне [0,1]. Я хотел бы использовать алгоритм неуправляемого выбора признаков (пороговая дисперсия). Как я могу вычислить пороговое значение?

Data Science

Неявный выбор признаков

00

Вопрос или проблема Я слышал, что метод случайного леса и другие деревянистые машины применяют какой-то вид неявного отбора признаков. Мой вопрос: относится ли это также к таким методам, как SVM? Насколько я понимаю, выбор опорных векторов также является

Data Science

смешивание признаков против конкатенации слоев

00

Вопрос или проблема Я пытаюсь понять логическую интуицию различий между объединением нескольких признаков и передачей их через финальный блок (который может состоять из нескольких слоев и, скажем, финального слоя классификации) по сравнению с передачей

Data Science

Метод выбора признаков для улучшения кластеризации?

00

Вопрос или проблема Я работаю над проектом, в котором мне нужно кластеризовать данные. После выполнения всех обычных шагов (в любом порядке: одна горячая кодировка/кодирование категории BaseN, применение квантильного преобразования из-за отсутствия у

Data Science

Как сгруппировать категориальные столбцы по подобным типам?

00

Вопрос или проблема (Простите, если вопрос сформулирован неудачно. Я новичок в области Data Science. Пожалуйста, прокомментируйте или отредактируйте, чтобы улучшить вопрос) У меня есть набор данных, где необходимо предсказать будущую продажу магазина. “

Data Science

Объединение двух наборов данных с различными признаками для предсказания в машинном обучении.

00

Вопрос или проблема Я пытаюсь создать модель, которая предсказывает цены на недвижимость с помощью xgboost в машинном обучении, мой вопрос: могу ли я объединить два набора данных для этого? Первый набор данных: 13 характеристик Второй набор данных: 100

Data Science

Как выполнить отбор признаков с категориальными переменными и непрерывной целевой переменной, если данные не распределены нормально?

00

Вопрос или проблема Я пытаюсь использовать модель множественной линейной регрессии для прогноза зарплат сотрудников. У меня есть всего 88 зависимых характеристик, из которых 19 категориальные, а остальные – непрерывные. Я смог уменьшить количество

Data Science

Метрики для оценки важности признаков в задаче классификации (с использованием случайного леса)

00

Вопрос или проблема Я хочу оценить важность каждой из признаков в наборе данных 2000×60 в задаче классификации с использованием случайного леса. Самыми широко используемыми, по всей видимости, являются: Кросс-энтропия –

Data Science

Определите самые важные документы для контролируемого обучения.

00

Вопрос или проблема У меня есть общий вопрос. Предположим, я занимаюсь контролируемым обучением на текстовых данных (например, твитах) и классифицирую документы по определённой таксономии (мультиклассовая классификация). Моя контролируемая модель показывает

Data Science

Реализация BorutaShap

01

Вопрос или проблема Я хочу использовать BorutaShap для выбора признаков в моей модели. У меня есть train_x в виде numpy.ndarray, и я хочу передать его в экземпляр BorutaShap. Когда я пытаюсь обучить модель, я получаю ошибку: AttributeError: 'numpy.

Data Science

Литература по выбору конкретных измерений в векторе встраивания слов

00

Вопрос или проблема Я понимаю, что разные размеры в векторном представлении слов представляют собой различную информацию, и между двумя векторами можно выполнять алгебраические операции, например. Может кто-нибудь указать мне на литературу по выбору конкретных

Data Science

Оптимизированные алгоритмы для устранения признаков на основе корреляции

00

Вопрос или проблема У меня есть большой датафрейм с почти миллионом строк и 2000 столбцов. Я пытаюсь сделать отбор признаков, используя корреляцию между переменными. Проблема в том, что для набора из n признаков нам нужна корреляция между nC2 или n*(n-1)/2

Data Science

функции, помогающие различать изображения документов

00

Вопрос или проблема Мы пытаемся создать модель для классификации различных типов документов в качестве первого шага в нашем процессе (финальная цель – прочитать весь текст). В настоящее время мы используем ImageNet для извлечения признаков, а затем

Data Science

Как интерпретировать бScores Лапласа для ранжирования важности признаков в неконтролируемой кластеризации признаков?

00

Вопрос или проблема В настоящее время я работаю над ранжированием важности признаков без учителя с использованием методов кластеризации графов, сосредоточив внимание на лапласиановском счете в качестве метрики. Тем не менее, я испытываю трудности с интерпретацией

Data Science

Когда я использую линейную регрессию в машинном обучении, выбор переменных аналогичен выбору параметров настройки?

00

Вопрос или проблема Я новичок в машинном обучении. После нескольких дней изучения идей машинного обучения я пришел к некоторым выводам, которые приведены ниже (я рассматриваю только контролируемое обучение). Шаг 1: Разделение данных Перед обработкой данных

Data Science

Есть ли способ выполнить отбор признаков в наборе данных, в котором только случаи?

00

Вопрос или проблема У меня есть датасет, который содержит только случаи и не имеет контролей. Возможно ли сделать выбор характеристик в таких датасетах? В конечном итоге я хочу создать предсказательную модель, которая предсказывает случай.

Data Science

SelectKBest и корреляция возвращают мне абсолютно одинаковый выбор признаков. Как?

00

Вопрос или проблема Я работаю над выбором наиболее эффективных признаков из набора данных с более чем 2000 признаками. Я использую для этого разные алгоритмы (selectKBest с хи-квадратом, Extra Trees, Корреляция и т.д.). Но когда я смотрю на рейтинг признаков