Data Science
Важный выбор признаков с использованием алгоритмов уменьшения размерности.
00
Вопрос или проблема У меня есть набор данных с более чем 25000 признаков. Я выполнил удаление шума с использованием гистограммного подхода, и этот набор данных сократился до более чем 5000 признаков. Есть два класса: здоровые и инфицированные.
Data Science
Выбор признаков для прогнозирования временных рядов
00
Вопрос или проблема Я работаю над задачей прогнозирования фондового рынка на основе LSTM и пытаюсь найти способ выбора входных переменных. При расчете корреляции между переменными (например, цена закрытия акций Tesla против цены закрытия акций Microsoft)
Data Science
Сколько признаков мне выбрать при выполнении отбора признаков для регрессионных алгоритмов? Являются ли R2 и RMSE хорошими мерами успеха для проверки на переобучение?
00
Вопрос или проблема Контекст: В настоящее время я разрабатываю и сравниваю модели машинного обучения для прогнозирования данных о жилье. У меня около 32000 точек данных, 42 признака, и я предсказываю цену жилья. Я сравниваю регрессор случайного леса
Data Science
Как я могу вычислить идеальное пороговое значение дисперсии для моих данных?
00
Вопрос или проблема У меня есть набор данных, который содержит n признаков, масштабируемых в диапазоне [0,1]. Я хотел бы использовать алгоритм неуправляемого выбора признаков (пороговая дисперсия). Как я могу вычислить пороговое значение?
Data Science
Неявный выбор признаков
00
Вопрос или проблема Я слышал, что метод случайного леса и другие деревянистые машины применяют какой-то вид неявного отбора признаков. Мой вопрос: относится ли это также к таким методам, как SVM? Насколько я понимаю, выбор опорных векторов также является
Data Science
смешивание признаков против конкатенации слоев
00
Вопрос или проблема Я пытаюсь понять логическую интуицию различий между объединением нескольких признаков и передачей их через финальный блок (который может состоять из нескольких слоев и, скажем, финального слоя классификации) по сравнению с передачей
Data Science
Метод выбора признаков для улучшения кластеризации?
00
Вопрос или проблема Я работаю над проектом, в котором мне нужно кластеризовать данные. После выполнения всех обычных шагов (в любом порядке: одна горячая кодировка/кодирование категории BaseN, применение квантильного преобразования из-за отсутствия у
Data Science
Как сгруппировать категориальные столбцы по подобным типам?
00
Вопрос или проблема (Простите, если вопрос сформулирован неудачно. Я новичок в области Data Science. Пожалуйста, прокомментируйте или отредактируйте, чтобы улучшить вопрос) У меня есть набор данных, где необходимо предсказать будущую продажу магазина. “
Data Science
Объединение двух наборов данных с различными признаками для предсказания в машинном обучении.
00
Вопрос или проблема Я пытаюсь создать модель, которая предсказывает цены на недвижимость с помощью xgboost в машинном обучении, мой вопрос: могу ли я объединить два набора данных для этого? Первый набор данных: 13 характеристик Второй набор данных: 100
Data Science
Как выполнить отбор признаков с категориальными переменными и непрерывной целевой переменной, если данные не распределены нормально?
00
Вопрос или проблема Я пытаюсь использовать модель множественной линейной регрессии для прогноза зарплат сотрудников. У меня есть всего 88 зависимых характеристик, из которых 19 категориальные, а остальные – непрерывные. Я смог уменьшить количество
Data Science
Метрики для оценки важности признаков в задаче классификации (с использованием случайного леса)
00
Вопрос или проблема Я хочу оценить важность каждой из признаков в наборе данных 2000×60 в задаче классификации с использованием случайного леса. Самыми широко используемыми, по всей видимости, являются: Кросс-энтропия –
Data Science
Определите самые важные документы для контролируемого обучения.
00
Вопрос или проблема У меня есть общий вопрос. Предположим, я занимаюсь контролируемым обучением на текстовых данных (например, твитах) и классифицирую документы по определённой таксономии (мультиклассовая классификация). Моя контролируемая модель показывает
Data Science
Реализация BorutaShap
01
Вопрос или проблема Я хочу использовать BorutaShap для выбора признаков в моей модели. У меня есть train_x в виде numpy.ndarray, и я хочу передать его в экземпляр BorutaShap. Когда я пытаюсь обучить модель, я получаю ошибку: AttributeError: 'numpy.
Data Science
Литература по выбору конкретных измерений в векторе встраивания слов
00
Вопрос или проблема Я понимаю, что разные размеры в векторном представлении слов представляют собой различную информацию, и между двумя векторами можно выполнять алгебраические операции, например. Может кто-нибудь указать мне на литературу по выбору конкретных
Data Science
Оптимизированные алгоритмы для устранения признаков на основе корреляции
00
Вопрос или проблема У меня есть большой датафрейм с почти миллионом строк и 2000 столбцов. Я пытаюсь сделать отбор признаков, используя корреляцию между переменными. Проблема в том, что для набора из n признаков нам нужна корреляция между nC2 или n*(n-1)/2
Data Science
функции, помогающие различать изображения документов
00
Вопрос или проблема Мы пытаемся создать модель для классификации различных типов документов в качестве первого шага в нашем процессе (финальная цель – прочитать весь текст). В настоящее время мы используем ImageNet для извлечения признаков, а затем
Data Science
Как интерпретировать бScores Лапласа для ранжирования важности признаков в неконтролируемой кластеризации признаков?
00
Вопрос или проблема В настоящее время я работаю над ранжированием важности признаков без учителя с использованием методов кластеризации графов, сосредоточив внимание на лапласиановском счете в качестве метрики. Тем не менее, я испытываю трудности с интерпретацией
Data Science
Когда я использую линейную регрессию в машинном обучении, выбор переменных аналогичен выбору параметров настройки?
00
Вопрос или проблема Я новичок в машинном обучении. После нескольких дней изучения идей машинного обучения я пришел к некоторым выводам, которые приведены ниже (я рассматриваю только контролируемое обучение). Шаг 1: Разделение данных Перед обработкой данных
Data Science
Есть ли способ выполнить отбор признаков в наборе данных, в котором только случаи?
00
Вопрос или проблема У меня есть датасет, который содержит только случаи и не имеет контролей. Возможно ли сделать выбор характеристик в таких датасетах? В конечном итоге я хочу создать предсказательную модель, которая предсказывает случай.
Data Science
SelectKBest и корреляция возвращают мне абсолютно одинаковый выбор признаков. Как?
00
Вопрос или проблема Я работаю над выбором наиболее эффективных признаков из набора данных с более чем 2000 признаками. Я использую для этого разные алгоритмы (selectKBest с хи-квадратом, Extra Trees, Корреляция и т.д.). Но когда я смотрю на рейтинг признаков