Data Science
Как сгруппировать категориальные столбцы по подобным типам?
00
Вопрос или проблема (Простите, если вопрос сформулирован неудачно. Я новичок в области Data Science. Пожалуйста, прокомментируйте или отредактируйте, чтобы улучшить вопрос) У меня есть набор данных, где необходимо предсказать будущую продажу магазина. “
Data Science
Объединение двух наборов данных с различными признаками для предсказания в машинном обучении.
00
Вопрос или проблема Я пытаюсь создать модель, которая предсказывает цены на недвижимость с помощью xgboost в машинном обучении, мой вопрос: могу ли я объединить два набора данных для этого? Первый набор данных: 13 характеристик Второй набор данных: 100
Data Science
Как выполнить отбор признаков с категориальными переменными и непрерывной целевой переменной, если данные не распределены нормально?
00
Вопрос или проблема Я пытаюсь использовать модель множественной линейной регрессии для прогноза зарплат сотрудников. У меня есть всего 88 зависимых характеристик, из которых 19 категориальные, а остальные – непрерывные. Я смог уменьшить количество
Data Science
Метрики для оценки важности признаков в задаче классификации (с использованием случайного леса)
00
Вопрос или проблема Я хочу оценить важность каждой из признаков в наборе данных 2000×60 в задаче классификации с использованием случайного леса. Самыми широко используемыми, по всей видимости, являются: Кросс-энтропия –
Data Science
Определите самые важные документы для контролируемого обучения.
00
Вопрос или проблема У меня есть общий вопрос. Предположим, я занимаюсь контролируемым обучением на текстовых данных (например, твитах) и классифицирую документы по определённой таксономии (мультиклассовая классификация). Моя контролируемая модель показывает
Data Science
Реализация BorutaShap
00
Вопрос или проблема Я хочу использовать BorutaShap для выбора признаков в моей модели. У меня есть train_x в виде numpy.ndarray, и я хочу передать его в экземпляр BorutaShap. Когда я пытаюсь обучить модель, я получаю ошибку: AttributeError: 'numpy.
Data Science
Литература по выбору конкретных измерений в векторе встраивания слов
00
Вопрос или проблема Я понимаю, что разные размеры в векторном представлении слов представляют собой различную информацию, и между двумя векторами можно выполнять алгебраические операции, например. Может кто-нибудь указать мне на литературу по выбору конкретных
Data Science
Оптимизированные алгоритмы для устранения признаков на основе корреляции
00
Вопрос или проблема У меня есть большой датафрейм с почти миллионом строк и 2000 столбцов. Я пытаюсь сделать отбор признаков, используя корреляцию между переменными. Проблема в том, что для набора из n признаков нам нужна корреляция между nC2 или n*(n-1)/2
Data Science
функции, помогающие различать изображения документов
00
Вопрос или проблема Мы пытаемся создать модель для классификации различных типов документов в качестве первого шага в нашем процессе (финальная цель – прочитать весь текст). В настоящее время мы используем ImageNet для извлечения признаков, а затем
Data Science
Как интерпретировать бScores Лапласа для ранжирования важности признаков в неконтролируемой кластеризации признаков?
00
Вопрос или проблема В настоящее время я работаю над ранжированием важности признаков без учителя с использованием методов кластеризации графов, сосредоточив внимание на лапласиановском счете в качестве метрики. Тем не менее, я испытываю трудности с интерпретацией
Data Science
Когда я использую линейную регрессию в машинном обучении, выбор переменных аналогичен выбору параметров настройки?
00
Вопрос или проблема Я новичок в машинном обучении. После нескольких дней изучения идей машинного обучения я пришел к некоторым выводам, которые приведены ниже (я рассматриваю только контролируемое обучение). Шаг 1: Разделение данных Перед обработкой данных
Data Science
Есть ли способ выполнить отбор признаков в наборе данных, в котором только случаи?
00
Вопрос или проблема У меня есть датасет, который содержит только случаи и не имеет контролей. Возможно ли сделать выбор характеристик в таких датасетах? В конечном итоге я хочу создать предсказательную модель, которая предсказывает случай.
Data Science
SelectKBest и корреляция возвращают мне абсолютно одинаковый выбор признаков. Как?
00
Вопрос или проблема Я работаю над выбором наиболее эффективных признаков из набора данных с более чем 2000 признаками. Я использую для этого разные алгоритмы (selectKBest с хи-квадратом, Extra Trees, Корреляция и т.д.). Но когда я смотрю на рейтинг признаков
Data Science
Когда мне следует делать разделение на обучающую и тестовую выборки, а также отбор признаков, если мой набор данных несбалансированный?
00
Вопрос или проблема У меня есть набор данных, содержащий ЭКГ-сигналы с 5 различными классами, описывающими качество конкретного окна ЭКГ-сигнала. Мне нужно создать модель машинного обучения для предсказания качества сигнала на основе признаков, извлеченных из каждого окна.
Data Science
Недостающие данные в обучающем наборе и тестовом наборе
00
Вопрос или проблема У меня есть набор данных из N столбцов. Теперь я могу предобрабатывать данные и находить подмножество признаков, которые могу использовать для обучения модели и выполнения предсказаний. В случае, если в обучающих данных отсутствуют
Data Science
Должен ли я избавиться от простых признаков после того, как получу более сложные признаки из них?
00
Вопрос или проблема Я знаю точно, что сложные признаки проецируют данные в более высокие измерения, что делает ранее несепарируемые данные линейно сепарируемыми. Но разве не правда, что эти сложные признаки будут сильно коррелировать с признаками, из которых они происходят?
Data Science
Корреляция с целевой переменной для регрессионной задачи
00
Вопрос или проблема Учитывая следующий датафрейм age job salary 0 1 Doctor 100 1 2 Engineer 200 2 3 Lawyer 300 ... с age как числовым, job как категориальным, я хочу протестировать корреляцию со зарплатой, с целью выбора признаков (возраст и/или работа)
Data Science
Логистическая регрессия для категориальных признаков с несколькими значениями в каждой категории
00
Вопрос или проблема Я работаю над случаем использования страхования, чтобы построить классификатор логистической регрессии для прогнозирования, истечет ли полис или нет. Набор данных содержит более 20 категориальных признаков для полиса.
Data Science
Когда имеет смысл использовать тест Хи-квадрат для выбора признаков?
00
Вопрос или проблема Каковы предпосылки, которые необходимо выполнить перед проведением критерия хи-квадрат (бивариантный анализ)? Например, перед тем как получить корреляционную матрицу, мы должны сначала удостовериться в линейности. Что насчет критерия хи-квадрат?
Data Science
Концепция взаимной информации
00
Вопрос или проблема Я хочу получить взаимную информацию в наборе данных Iris, чтобы выбрать лучшие признаки, но я запутался во взаимной информации. Что такое концепция взаимной информации для выбора признаков? Может кто-то объяснить это просто?