categorical-data - ответы на вопросы

Data Science

Лучшие тесты для определения корреляции между категориальными и числовыми переменными (ненормальные данные)

00

Вопрос или проблема Я все еще изучаю анализ данных и стараюсь улучшить свое понимание статистических тестов. Сейчас я работаю с набором данных, где у меня есть категориальная переменная (например, “Тип школы” с значениями, такими как государственная, частная и т.

Data Science

Обработка категориальных переменных в Isolation Forest

00

Вопрос или проблема Isolation Forest широко используется для обнаружения выбросов/аномалий, когда у нас нет меток. Теория заключается в том, что выполнение случайных разбиений в случайных точках и подсчет количества разбиений, необходимых для изоляции

Data Science

Можно ли использовать метод главных компонент (PCA) для уменьшения размерности данных, закодированных методом One-Hot-Encoding?

00

Вопрос или проблема Я читал пару раз, что метод PCA используется для сокращения размерности для данных, закодированных с помощью One-Hot-Encoding. Однако, также были комментарии, что использование PCA не является хорошей идеей, так как One-Hot-Encoded

Data Science

Как построить множественную регрессию с использованием числовых и категориальных признаков?

00

Вопрос или проблема Существует необходимость оценить среднегодовой объем суточного трафика (AADT). У нас есть много данных о скоростях автомобилей за несколько лет. Замечено, что AADT зависит от среднего количества таких выборок за некоторое время, поэтому

Data Science

Работа с несколькими категориальными переменными с разными значениями.

00

Вопрос или проблема Итак, у меня есть набор данных, в котором почти все столбцы являются категориальными переменными. Проблема в том, что большинство категориальных переменных имеют много различных значений. Например, в одном столбце более миллиона уникальных

Data Science

Фиктивные переменные для невидимых данных в R

00

Вопрос или проблема У меня возникла следующая проблема: когда я обучал свою модель, я создал фиктивные переменные (до разделения на тренировочную и тестовую выборки) следующим образом: dummy <- dummyVars(formula = CLASS_INV ~ .

Data Science

Как мне обращаться с упорядоченными признаками при наличии цензурированной зависимой переменной?

00

Вопрос или проблема У меня есть набор данных с множеством упорядоченных признаков, большинство из которых имеют 3 уровня (например, 0, 1, 2), а моя целевая переменная подвергнута цензуре. Я размышляю, следует ли рассматривать эти порядковые признаки как

Data Science

Как использовать данные описания в многоклассовой классификации (снижение размерности)

00

Вопрос или проблема В настоящее время я работаю с набором данных из 55 тысяч записей и семи столбцов (один целевой переменной), три из которых являются номинальными категориальными. Другие три – это поля ‘описания’

Data Science

Что делать, если конкретная метка категории появляется только несколько раз?

00

Вопрос или проблема Допустим, я пытаюсь предсказать, будет ли автомобиль продан на аукционе или нет (это не то, чем я на самом деле занимаюсь, но это хорошо это иллюстрирует), используя табличные данные. У меня есть год выпуска автомобиля, его цвет, модель и т.

Data Science

Кластеризация смешанных типов данных – числовых, категориальных, массивов и текста.

00

Вопрос или проблема У меня есть набор данных с 4 типами столбцов данных: числовой категориальный теги текст id 1 51585 27 [A, B, C, …] “Некоторый текст бла бла бла” 2 53596 27 [B, D, E] “Другой текст…

Data Science

Индивидуальные различия во времени реакции (ВР) эксперимент – поиск правильного теста

00

Вопрос или проблема Учитывая распределение времени реакции на различные категориальные переменные, какой лучший способ протестировать индивидуальные различия? или более конкретно: Есть 100 человек, нажимающих кнопки 10 разных цветов, всего собрано более 200 тыс.

Data Science

Как переобучить модель K-Modes на основе ежедневных данных?

00

Вопрос или проблема Я прочитал, что дообучение модели сильно зависит от того, чего вы пытаетесь достичь. Я понимаю, что, возможно, мне нужно дообучать свою модель ежедневно, а через некоторое время я должен обучить модель заново с нуля.

Data Science

Вы используете категориальные типы данных?

00

Вопрос или проблема Лично я никогда не использовал категориальный тип данных в pandas и оставляю все как объекты. Я видел, что его можно сохранять в формате parquet, сохранять данные и т.д… В чем плюсы и минусы? Почему бы мне просто не преобразовать

Data Science

Предварительная обработка категориальных данных для обучения алгоритма

00

Вопрос или проблема У меня есть учебный набор данных, где значения столбца “Выход” зависят от трех столбцов (которые являются категориальными [без упорядочивания]). Inp1 Inp2 Inp3 Выход A,B,C AI,UI,JI Яблоко,Бат,Собака Животные L,M,N LI,DO,LI

Data Science

Модель для предсказания продолжительности на основе категориальных данных

00

Вопрос или проблема Я работаю над моделью, которая позволит мне предсказать, сколько времени потребуется для завершения “работы”, основываясь на исторических данных. Каждая работа имеет несколько категориальных характеристик (все независимы)

Data Science

Как справиться с потенциально множественной категориальной переменной

00

Вопрос или проблема Я строю модель, которая имеет в качестве входных данных некоторые категориальные переменные. Я уже имел дело с такими данными раньше и применял различные техники, такие как создание фиктивных переменных и факторное оценивание.

Data Science

Как эффективно уменьшить размерности категориальных значений, закодированных методом one-hot?

00

Вопрос или проблема В настоящее время я работаю над проектом, в котором использую LSTM для обучения и предсказания последовательностей категориальных данных. Мой набор данных состоит из последовательностей переменной длины элементов $s_i = [x_{i_0}, x_{i_1}, …

Data Science

Как обрабатывать предсказания с двумя категории переменными высокой кардинальности?

00

Вопрос или проблема Заголовок: Как справиться с прогнозами с двумя категориальными переменными высокой кардинальности? Текст: Здравствуйте, всем, Я работаю над проектом в области машинного обучения и был бы признателен за советы по выбору лучших методов обработки моих данных.

Data Science

Альтернативы MultiLabelBinarizer

00

Вопрос или проблема Существует много информации о том, как обрабатывать категориальные переменные при предварительной обработке данных для классификации с использованием машинного обучения. Однако я не могу найти никаких рекомендаций о том, как обрабатывать

Data Science

Как бы я классифицировал эту переменную?

00

Вопрос или проблема Я изучаю разницу между категориальными, порядковыми и числовыми переменными. Из того, что я понял: Категориальные переменные имеют 2 и более категорий без какого-либо внутреннего порядка. Порядковые переменные имеют четкий порядок