categorical-encoding
Data Science
Вопрос или проблема Допустим, я пытаюсь предсказать, будет ли автомобиль продан на аукционе или нет (это не то, чем я на самом деле занимаюсь, но это хорошо это иллюстрирует), используя табличные данные. У меня есть год выпуска автомобиля, его цвет, модель и т.
Data Science
Вопрос или проблема Как мне выполнить кодирование для категории, если данные содержат повторяющиеся строки? Могу ли я выполнить целевое кодирование? Или могу использовать другое кодирование? Я хочу выяснить, как включить категориальную переменную в модель
Data Science
Вопрос или проблема Я создаю простую архитектуру нейронной сети. Но я постоянно получаю NAN в результате и не могу понять, почему. Ниже представлен мой код. import pandas from keras.models import Sequential from keras.layers import Dense from keras.
Data Science
Вопрос или проблема Мне интересно, есть ли смысл создавать комбинированные признаки из нескольких категориальных переменных, когда отдельные категориальные переменные уже закодированы методом one-hot? Простой пример: есть переменная P с категориями {X
Data Science
Вопрос или проблема Я исследую обнаружение аномалий/выбросов/мошенничества и ищу лучшие практики предобработки синтетических данных для несбалансированных данных. Я проверил все методологии нормализации/стандартизации, которые не чувствительны к наличию
Data Science
Вопрос или проблема Моя цель – определить текстовое сходство с использованием нескольких признаков. Некоторые из признаков являются текстовыми, для чего я использую (Tfhub 2.0) универсальный энкодер предложений. Есть и другие категориальные признаки
Data Science
Вопрос или проблема Когда у нас есть набор данных, который нужно предварительно обработать, прежде чем передать его модели, мы преобразуем категориальные значения в числовые, для чего мы обычно используем такие методы, как Label Encoding, One Hot Encoding и т.
Data Science
Вопрос или проблема Я пытаюсь преобразовать категориальные значения (почтовые индексы) с помощью Cat2Vec в матрицу, которая может быть использована в качестве входной формы для категориального прогнозирования целевой переменной с бинарными значениями.
Data Science
Вопрос или проблема У меня есть множество категориальных данных, относящихся к частям речи, которые я хочу свести к меньшему числу категорий. np.where() не подойдет, потому что я хочу в итоге получить 6 категорий: существительное, глагол, прилагательное