Data Science
Лучшие тесты для определения корреляции между категориальными и числовыми переменными (ненормальные данные)
00
Вопрос или проблема Я все еще изучаю анализ данных и стараюсь улучшить свое понимание статистических тестов. Сейчас я работаю с набором данных, где у меня есть категориальная переменная (например, “Тип школы” с значениями, такими как государственная, частная и т.
Data Science
Обработка категориальных переменных в Isolation Forest
00
Вопрос или проблема Isolation Forest широко используется для обнаружения выбросов/аномалий, когда у нас нет меток. Теория заключается в том, что выполнение случайных разбиений в случайных точках и подсчет количества разбиений, необходимых для изоляции
Data Science
Можно ли использовать метод главных компонент (PCA) для уменьшения размерности данных, закодированных методом One-Hot-Encoding?
00
Вопрос или проблема Я читал пару раз, что метод PCA используется для сокращения размерности для данных, закодированных с помощью One-Hot-Encoding. Однако, также были комментарии, что использование PCA не является хорошей идеей, так как One-Hot-Encoded
Data Science
Как построить множественную регрессию с использованием числовых и категориальных признаков?
00
Вопрос или проблема Существует необходимость оценить среднегодовой объем суточного трафика (AADT). У нас есть много данных о скоростях автомобилей за несколько лет. Замечено, что AADT зависит от среднего количества таких выборок за некоторое время, поэтому
Data Science
Работа с несколькими категориальными переменными с разными значениями.
00
Вопрос или проблема Итак, у меня есть набор данных, в котором почти все столбцы являются категориальными переменными. Проблема в том, что большинство категориальных переменных имеют много различных значений. Например, в одном столбце более миллиона уникальных
Data Science
Фиктивные переменные для невидимых данных в R
00
Вопрос или проблема У меня возникла следующая проблема: когда я обучал свою модель, я создал фиктивные переменные (до разделения на тренировочную и тестовую выборки) следующим образом: dummy <- dummyVars(formula = CLASS_INV ~ .
Data Science
Как мне обращаться с упорядоченными признаками при наличии цензурированной зависимой переменной?
00
Вопрос или проблема У меня есть набор данных с множеством упорядоченных признаков, большинство из которых имеют 3 уровня (например, 0, 1, 2), а моя целевая переменная подвергнута цензуре. Я размышляю, следует ли рассматривать эти порядковые признаки как
Data Science
Как использовать данные описания в многоклассовой классификации (снижение размерности)
00
Вопрос или проблема В настоящее время я работаю с набором данных из 55 тысяч записей и семи столбцов (один целевой переменной), три из которых являются номинальными категориальными. Другие три – это поля ‘описания’
Data Science
Что делать, если конкретная метка категории появляется только несколько раз?
00
Вопрос или проблема Допустим, я пытаюсь предсказать, будет ли автомобиль продан на аукционе или нет (это не то, чем я на самом деле занимаюсь, но это хорошо это иллюстрирует), используя табличные данные. У меня есть год выпуска автомобиля, его цвет, модель и т.
Data Science
Кластеризация смешанных типов данных – числовых, категориальных, массивов и текста.
00
Вопрос или проблема У меня есть набор данных с 4 типами столбцов данных: числовой категориальный теги текст id 1 51585 27 [A, B, C, …] “Некоторый текст бла бла бла” 2 53596 27 [B, D, E] “Другой текст…
Data Science
Индивидуальные различия во времени реакции (ВР) эксперимент – поиск правильного теста
00
Вопрос или проблема Учитывая распределение времени реакции на различные категориальные переменные, какой лучший способ протестировать индивидуальные различия? или более конкретно: Есть 100 человек, нажимающих кнопки 10 разных цветов, всего собрано более 200 тыс.
Data Science
Как переобучить модель K-Modes на основе ежедневных данных?
00
Вопрос или проблема Я прочитал, что дообучение модели сильно зависит от того, чего вы пытаетесь достичь. Я понимаю, что, возможно, мне нужно дообучать свою модель ежедневно, а через некоторое время я должен обучить модель заново с нуля.
Data Science
Вы используете категориальные типы данных?
00
Вопрос или проблема Лично я никогда не использовал категориальный тип данных в pandas и оставляю все как объекты. Я видел, что его можно сохранять в формате parquet, сохранять данные и т.д… В чем плюсы и минусы? Почему бы мне просто не преобразовать
Data Science
Предварительная обработка категориальных данных для обучения алгоритма
00
Вопрос или проблема У меня есть учебный набор данных, где значения столбца “Выход” зависят от трех столбцов (которые являются категориальными [без упорядочивания]). Inp1 Inp2 Inp3 Выход A,B,C AI,UI,JI Яблоко,Бат,Собака Животные L,M,N LI,DO,LI
Data Science
Модель для предсказания продолжительности на основе категориальных данных
00
Вопрос или проблема Я работаю над моделью, которая позволит мне предсказать, сколько времени потребуется для завершения “работы”, основываясь на исторических данных. Каждая работа имеет несколько категориальных характеристик (все независимы)
Data Science
Как справиться с потенциально множественной категориальной переменной
00
Вопрос или проблема Я строю модель, которая имеет в качестве входных данных некоторые категориальные переменные. Я уже имел дело с такими данными раньше и применял различные техники, такие как создание фиктивных переменных и факторное оценивание.
Data Science
Как эффективно уменьшить размерности категориальных значений, закодированных методом one-hot?
00
Вопрос или проблема В настоящее время я работаю над проектом, в котором использую LSTM для обучения и предсказания последовательностей категориальных данных. Мой набор данных состоит из последовательностей переменной длины элементов $s_i = [x_{i_0}, x_{i_1}, …
Data Science
Как обрабатывать предсказания с двумя категории переменными высокой кардинальности?
00
Вопрос или проблема Заголовок: Как справиться с прогнозами с двумя категориальными переменными высокой кардинальности? Текст: Здравствуйте, всем, Я работаю над проектом в области машинного обучения и был бы признателен за советы по выбору лучших методов обработки моих данных.
Data Science
Альтернативы MultiLabelBinarizer
00
Вопрос или проблема Существует много информации о том, как обрабатывать категориальные переменные при предварительной обработке данных для классификации с использованием машинного обучения. Однако я не могу найти никаких рекомендаций о том, как обрабатывать
Data Science
Как бы я классифицировал эту переменную?
00
Вопрос или проблема Я изучаю разницу между категориальными, порядковыми и числовыми переменными. Из того, что я понял: Категориальные переменные имеют 2 и более категорий без какого-либо внутреннего порядка. Порядковые переменные имеют четкий порядок