Data Science
Можно ли использовать метод главных компонент (PCA) для уменьшения размерности данных, закодированных методом One-Hot-Encoding?
00
Вопрос или проблема Я читал пару раз, что метод PCA используется для сокращения размерности для данных, закодированных с помощью One-Hot-Encoding. Однако, также были комментарии, что использование PCA не является хорошей идеей, так как One-Hot-Encoded
Data Science
Как построить множественную регрессию с использованием числовых и категориальных признаков?
00
Вопрос или проблема Существует необходимость оценить среднегодовой объем суточного трафика (AADT). У нас есть много данных о скоростях автомобилей за несколько лет. Замечено, что AADT зависит от среднего количества таких выборок за некоторое время, поэтому
Data Science
Работа с несколькими категориальными переменными с разными значениями.
00
Вопрос или проблема Итак, у меня есть набор данных, в котором почти все столбцы являются категориальными переменными. Проблема в том, что большинство категориальных переменных имеют много различных значений. Например, в одном столбце более миллиона уникальных
Data Science
Фиктивные переменные для невидимых данных в R
00
Вопрос или проблема У меня возникла следующая проблема: когда я обучал свою модель, я создал фиктивные переменные (до разделения на тренировочную и тестовую выборки) следующим образом: dummy <- dummyVars(formula = CLASS_INV ~ .
Data Science
Как мне обращаться с упорядоченными признаками при наличии цензурированной зависимой переменной?
00
Вопрос или проблема У меня есть набор данных с множеством упорядоченных признаков, большинство из которых имеют 3 уровня (например, 0, 1, 2), а моя целевая переменная подвергнута цензуре. Я размышляю, следует ли рассматривать эти порядковые признаки как
Data Science
Как использовать данные описания в многоклассовой классификации (снижение размерности)
00
Вопрос или проблема В настоящее время я работаю с набором данных из 55 тысяч записей и семи столбцов (один целевой переменной), три из которых являются номинальными категориальными. Другие три – это поля ‘описания’
Data Science
Что делать, если конкретная метка категории появляется только несколько раз?
00
Вопрос или проблема Допустим, я пытаюсь предсказать, будет ли автомобиль продан на аукционе или нет (это не то, чем я на самом деле занимаюсь, но это хорошо это иллюстрирует), используя табличные данные. У меня есть год выпуска автомобиля, его цвет, модель и т.
Data Science
Кластеризация смешанных типов данных – числовых, категориальных, массивов и текста.
00
Вопрос или проблема У меня есть набор данных с 4 типами столбцов данных: числовой категориальный теги текст id 1 51585 27 [A, B, C, …] “Некоторый текст бла бла бла” 2 53596 27 [B, D, E] “Другой текст…
Data Science
Индивидуальные различия во времени реакции (ВР) эксперимент – поиск правильного теста
00
Вопрос или проблема Учитывая распределение времени реакции на различные категориальные переменные, какой лучший способ протестировать индивидуальные различия? или более конкретно: Есть 100 человек, нажимающих кнопки 10 разных цветов, всего собрано более 200 тыс.
Data Science
Как переобучить модель K-Modes на основе ежедневных данных?
00
Вопрос или проблема Я прочитал, что дообучение модели сильно зависит от того, чего вы пытаетесь достичь. Я понимаю, что, возможно, мне нужно дообучать свою модель ежедневно, а через некоторое время я должен обучить модель заново с нуля.
Data Science
Вы используете категориальные типы данных?
00
Вопрос или проблема Лично я никогда не использовал категориальный тип данных в pandas и оставляю все как объекты. Я видел, что его можно сохранять в формате parquet, сохранять данные и т.д… В чем плюсы и минусы? Почему бы мне просто не преобразовать
Data Science
Предварительная обработка категориальных данных для обучения алгоритма
00
Вопрос или проблема У меня есть учебный набор данных, где значения столбца “Выход” зависят от трех столбцов (которые являются категориальными [без упорядочивания]). Inp1 Inp2 Inp3 Выход A,B,C AI,UI,JI Яблоко,Бат,Собака Животные L,M,N LI,DO,LI
Data Science
Модель для предсказания продолжительности на основе категориальных данных
00
Вопрос или проблема Я работаю над моделью, которая позволит мне предсказать, сколько времени потребуется для завершения “работы”, основываясь на исторических данных. Каждая работа имеет несколько категориальных характеристик (все независимы)
Data Science
Как справиться с потенциально множественной категориальной переменной
00
Вопрос или проблема Я строю модель, которая имеет в качестве входных данных некоторые категориальные переменные. Я уже имел дело с такими данными раньше и применял различные техники, такие как создание фиктивных переменных и факторное оценивание.
Data Science
Как эффективно уменьшить размерности категориальных значений, закодированных методом one-hot?
00
Вопрос или проблема В настоящее время я работаю над проектом, в котором использую LSTM для обучения и предсказания последовательностей категориальных данных. Мой набор данных состоит из последовательностей переменной длины элементов $s_i = [x_{i_0}, x_{i_1}, …
Data Science
Как обрабатывать предсказания с двумя категории переменными высокой кардинальности?
00
Вопрос или проблема Заголовок: Как справиться с прогнозами с двумя категориальными переменными высокой кардинальности? Текст: Здравствуйте, всем, Я работаю над проектом в области машинного обучения и был бы признателен за советы по выбору лучших методов обработки моих данных.
Data Science
Альтернативы MultiLabelBinarizer
00
Вопрос или проблема Существует много информации о том, как обрабатывать категориальные переменные при предварительной обработке данных для классификации с использованием машинного обучения. Однако я не могу найти никаких рекомендаций о том, как обрабатывать
Data Science
Как бы я классифицировал эту переменную?
00
Вопрос или проблема Я изучаю разницу между категориальными, порядковыми и числовыми переменными. Из того, что я понял: Категориальные переменные имеют 2 и более категорий без какого-либо внутреннего порядка. Порядковые переменные имеют четкий порядок
Data Science
Логистическая регрессия для категориальных признаков с несколькими значениями в каждой категории
00
Вопрос или проблема Я работаю над случаем использования страхования, чтобы построить классификатор логистической регрессии для прогнозирования, истечет ли полис или нет. Набор данных содержит более 20 категориальных признаков для полиса.
Data Science
Когда имеет смысл использовать тест Хи-квадрат для выбора признаков?
00
Вопрос или проблема Каковы предпосылки, которые необходимо выполнить перед проведением критерия хи-квадрат (бивариантный анализ)? Например, перед тем как получить корреляционную матрицу, мы должны сначала удостовериться в линейности. Что насчет критерия хи-квадрат?