Обработка кодирования набора данных, который содержит более 2000 столбцов.

Question 1

Когда у нас есть набор данных, который нужно предварительно обработать, прежде чем передать его модели, мы преобразуем категориальные значения в числовые, для чего мы обычно используем такие методы, как Label Encoding, One Hot Encoding и т. д., но все это делается вручную, просматривая каждый столбец.

Но что, если наш набор данных огромен по количеству столбцов (например, 2000 столбцов)? В таком случае невозможно просмотреть каждый столбец вручную, как мы можем справиться с кодированием в таких случаях?

Существуют ли специфические библиотеки, которые занимаются автоматическим кодированием переменных? Я знаю о category_encoders, которая предоставляет различные методы кодирования, но как мы можем сделать это в вышеупомянутых условиях.

Question 2

Для правильного кодирования вашей переменной вы должны понимать, о чем эти переменные. Алгоритму необходимо каким-то образом понять тип вашей переменной для автоматического кодирования. В таком случае у вас должен быть словарь переменных с указанием типа переменной (иногда справочные документы, файлы readme или некоторые текстовые файлы содержат это). Или вы должны знать, что все переменные однотипные, чтобы применить одно и то же кодирование. Если у вас нет этих или аналогичных источников информации о данных, автоматически кодировать их невозможно (если только у вас нет идеальной модели для классификации переменных по их типу :)) ).

Хотя вы не можете автоматически классифицировать типы категориальных переменных, можно различать непрерывные (а также дискретные) и категориальные переменные. Когда я сталкиваюсь с подобной ситуацией, когда много переменных, одной из первых вещей, которые я делаю, является подсчет и процент уникальных значений для каждой переменной. Таким образом, например, если переменная с 200000 образцами имеет ~154000 (если только нет переменной с 154000 категориями, что почти невозможно) уникальных значений, то это непрерывная (или дискретная) переменная. Если переменная с 200000 образцами имеет 13 уникальных значений, то это определенно категориальная переменная. Используя подобные уловки, вы можете идентифицировать категориальные переменные. Однако после этого неизбежно необходимо анализировать категориальные переменные одну за другой. Когда вы классифицируете их внутри самих себя, например, ранжированные переменные, номинальные переменные и т. д., вы сможете одновременно закодировать каждый тип переменной.

Question 3

Существуют разные типы категориальных данных, такие как ординальные, номинальные, и даже среди них есть подкатегории, такие как переменные с высокой кардинальностью и низкой кардинальностью. Поэтому вы должны знать, какие видов категориальных переменных присутствуют в ваших данных, поскольку разные типы переменных требуют различных методов кодирования. Вы не можете применить One Hot Encoding (или любой другой метод кодирования) ко всем вашим переменным.

Теперь, как только вы знаете, какие переменные у вас есть, вы можете напрямую применять соответствующие методы только к тем столбцам, используя библиотеку, о которой вы упомянули category_encoders. Допустим, у вас есть 5 столбцов, которым необходимо применить One Hot Encoding, вы не применяете One Hot Encoding ко всем 5 из них по отдельности. Просто укажите названия столбцов при применении кодировщика, и он будет применен автоматически.

Обработка кодирования набора данных, который содержит более 2000 столбцов.

Вопрос или проблема

Ответ или решение

Эффективная обработка кодирования больших наборов данных с более чем 2000 столбцами

Понимание типов переменных

Инструменты автоматизации кодирования

Пример использования библиотеки category_encoders

Заключение