Вопрос или проблема
Я пытаюсь преобразовать категориальные значения (почтовые индексы) с помощью Cat2Vec в матрицу, которая может быть использована в качестве входной формы для категориального прогнозирования целевой переменной с бинарными значениями.
После прочтения нескольких статей, среди которых: https://www.yanxishe.com/TextTranslation/1656?from=csdn
У меня возникли трудности с пониманием двух вещей:
1) В отношении какой y в кодировании Cat2Vec вы создаете эмбеддинги. Это относительно фактической цели в наборе данных, которую вы пытаетесь предсказать, или вы можете произвольно выбрать любую колонку y в качестве цели? Что было бы разумно?
2) Относительно целевой переменной y, должна ли она быть фактической целью, которую вы пытаетесь предсказать с помощью модели. В моем случае я пытаюсь предсказать бинарную цель (0/1). Сработает ли это? Поскольку размерность целевой переменной очень ограничена.
Спасибо за вашу помощь!
Cat2Vec кодирует только категориальные признаки / значения X, cat2Vec не использует целевое значение / Y.
Ответ или решение
Cat2Vec: Имплементация для Классификации Кроме Проблемы с Классификацией Целевых Переменных
Введение в технологии обработки категориальных переменных становится актуальным в свете усложнения данных и роста необходимостей бизнес-анализа. Одной из наиболее интересных методик для работы с категориальными переменными является Cat2Vec, которая позволяет преобразовывать категориальные признаки в векторы для дальнейшего использования в моделях машинного обучения. В данной статье мы разобрали ключевые вопросы, касающиеся имплементации Cat2Vec в контексте вашей задачи.
Вопрос 1: Выбор переменной y в Cat2Vec
Для начала важно понимать, что Cat2Vec в своей сути фокусируется на кодировании категориальных признаков (в вашем случае, это «zipcodes»), и не использует целевую переменную (y) в процессе создания векторов. Таким образом, декодирование происходит независимо от y.
Что выбрать в качестве y? Исходя из задач, Cat2Vec создаёт векторы, которые могут быть использованы для дальнейшего обучения модели и не зависят от конкретной целевой переменной. Однако, выбрать переменную необходимо тихо, исходя из ваших бизнес-задач. Наиболее предпочтительно, когда y является целевой переменной, которую вы собираетесь предсказать, так как это позволит использовать Cat2Vec эффективно — выходные векторы будут отражать наиболее важные аспекты ваших оригинальных категориальных данных, которые влияют на целевое значение модели.
Вопрос 2: Прогнозирование с бинарной целевой переменной
Ваше намерение использовать Cat2Vec для предсказания бинарной целевой переменной (0 или 1) вполне разумно. Cat2Vec может быть использован в данной ситуации, хотя и стоит упомянуть некоторые моменты.
Первое, бинарная классификация требует от вас, чтобы модель могла различать эти два класса. При этом, важно отметить, что Cat2Vec преобразует категориальные переменные в более высокую размерность векторов, что позволяет усреднять информацию для каждого класса. Размерность целевой переменной (в данном случае 2 — 0 и 1) может казаться ограниченной, но результатом будет векторное представление, которое отобразит различные характеристики категорий.
Заключение
В завершение, воспользоваться Cat2Vec имеет смысл, если вы хотите более эффективно и полно использовать категориальные данные для прогнозирования. Не забудьте, что важно правильно выбрать целевую переменную y, которая, как правило, должна быть актуальной для вашего предсказания. Подход к обработке бинарных целевых переменных с использованием Cat2Vec окажется эффективным, если вы учтёте, что векторы, создаваемые из категориальных признаков, будут отражать статистические зависимости между zipcodes и целевым классом. Удачи в ваших экспериментах!