categorical-data
Data Science
Вопрос или проблема Я читал пару раз, что метод PCA используется для сокращения размерности для данных, закодированных с помощью One-Hot-Encoding. Однако, также были комментарии, что использование PCA не является хорошей идеей, так как One-Hot-Encoded
Data Science
Вопрос или проблема Существует необходимость оценить среднегодовой объем суточного трафика (AADT). У нас есть много данных о скоростях автомобилей за несколько лет. Замечено, что AADT зависит от среднего количества таких выборок за некоторое время, поэтому
Data Science
Вопрос или проблема Итак, у меня есть набор данных, в котором почти все столбцы являются категориальными переменными. Проблема в том, что большинство категориальных переменных имеют много различных значений. Например, в одном столбце более миллиона уникальных
Data Science
Вопрос или проблема У меня возникла следующая проблема: когда я обучал свою модель, я создал фиктивные переменные (до разделения на тренировочную и тестовую выборки) следующим образом: dummy <- dummyVars(formula = CLASS_INV ~ .
Data Science
Вопрос или проблема У меня есть набор данных с множеством упорядоченных признаков, большинство из которых имеют 3 уровня (например, 0, 1, 2), а моя целевая переменная подвергнута цензуре. Я размышляю, следует ли рассматривать эти порядковые признаки как
Data Science
Вопрос или проблема В настоящее время я работаю с набором данных из 55 тысяч записей и семи столбцов (один целевой переменной), три из которых являются номинальными категориальными. Другие три – это поля ‘описания’
Data Science
Вопрос или проблема Допустим, я пытаюсь предсказать, будет ли автомобиль продан на аукционе или нет (это не то, чем я на самом деле занимаюсь, но это хорошо это иллюстрирует), используя табличные данные. У меня есть год выпуска автомобиля, его цвет, модель и т.
Data Science
Вопрос или проблема У меня есть набор данных с 4 типами столбцов данных: числовой категориальный теги текст id 1 51585 27 [A, B, C, …] “Некоторый текст бла бла бла” 2 53596 27 [B, D, E] “Другой текст…
Data Science
Вопрос или проблема Учитывая распределение времени реакции на различные категориальные переменные, какой лучший способ протестировать индивидуальные различия? или более конкретно: Есть 100 человек, нажимающих кнопки 10 разных цветов, всего собрано более 200 тыс.
Data Science
Вопрос или проблема Я прочитал, что дообучение модели сильно зависит от того, чего вы пытаетесь достичь. Я понимаю, что, возможно, мне нужно дообучать свою модель ежедневно, а через некоторое время я должен обучить модель заново с нуля.
Data Science
Вопрос или проблема Лично я никогда не использовал категориальный тип данных в pandas и оставляю все как объекты. Я видел, что его можно сохранять в формате parquet, сохранять данные и т.д… В чем плюсы и минусы? Почему бы мне просто не преобразовать
Data Science
Вопрос или проблема У меня есть учебный набор данных, где значения столбца “Выход” зависят от трех столбцов (которые являются категориальными [без упорядочивания]). Inp1 Inp2 Inp3 Выход A,B,C AI,UI,JI Яблоко,Бат,Собака Животные L,M,N LI,DO,LI
Data Science
Вопрос или проблема Я работаю над моделью, которая позволит мне предсказать, сколько времени потребуется для завершения “работы”, основываясь на исторических данных. Каждая работа имеет несколько категориальных характеристик (все независимы)
Data Science
Вопрос или проблема Я строю модель, которая имеет в качестве входных данных некоторые категориальные переменные. Я уже имел дело с такими данными раньше и применял различные техники, такие как создание фиктивных переменных и факторное оценивание.
Data Science
Вопрос или проблема В настоящее время я работаю над проектом, в котором использую LSTM для обучения и предсказания последовательностей категориальных данных. Мой набор данных состоит из последовательностей переменной длины элементов $s_i = [x_{i_0}, x_{i_1}, …
Data Science
Вопрос или проблема Заголовок: Как справиться с прогнозами с двумя категориальными переменными высокой кардинальности? Текст: Здравствуйте, всем, Я работаю над проектом в области машинного обучения и был бы признателен за советы по выбору лучших методов обработки моих данных.
Data Science
Вопрос или проблема Существует много информации о том, как обрабатывать категориальные переменные при предварительной обработке данных для классификации с использованием машинного обучения. Однако я не могу найти никаких рекомендаций о том, как обрабатывать
Data Science
Вопрос или проблема Я изучаю разницу между категориальными, порядковыми и числовыми переменными. Из того, что я понял: Категориальные переменные имеют 2 и более категорий без какого-либо внутреннего порядка. Порядковые переменные имеют четкий порядок
Data Science
Вопрос или проблема Я работаю над случаем использования страхования, чтобы построить классификатор логистической регрессии для прогнозирования, истечет ли полис или нет. Набор данных содержит более 20 категориальных признаков для полиса.
Data Science
Вопрос или проблема Каковы предпосылки, которые необходимо выполнить перед проведением критерия хи-квадрат (бивариантный анализ)? Например, перед тем как получить корреляционную матрицу, мы должны сначала удостовериться в линейности. Что насчет критерия хи-квадрат?