Вопрос или проблема
У меня есть быстрый вопрос о том, нужно ли стандартизировать признаки после логарифмического преобразования.
У меня есть один признак, который сильно скошен и требует логарифмического преобразования, для остальных признаков я применяю стандартное масштабирование.
Мой вопрос: должен ли я включать этот логарифмически преобразованный признак в этап стандартного масштабирования после его преобразования? Я не уверен.
Он используется в линейной функции, поэтому вес отличается от остальных признаков (т.е. финальная функция выглядит как y = x0 + x1f1 + x2f2 …).
Но я подумал, что было бы полезно масштабировать после преобразования, просто чтобы убедиться, что признаки с разными масштабами сопоставимы и не доминируют в анализе только на основе их масштаба. Но я не уверен, необходимо ли это.
Не могли бы вы указать мне на материалы для чтения по этому вопросу и дать какую-то логику относительно того, необходим ли этап масштабирования.
должен ли я включать этот логарифмически преобразованный признак в этап стандартного масштабирования
Да.
Логарифмическое преобразование изменяет форму распределения признаков, сжимая хвост.
Нахождение Z-оценок со средним нулем и единичной дисперсией является аффинным преобразованием, которое выравнивает все признаки.
Для вашего преобразованного признака $f_1 = ln(\text{raw})$ представьте, что мы также подали модели $f_2 = 3 + f_1$ и $f_3 = 6 + f_1$, что соответствует масштабированию на тысячу и миллион, возможно, из-за обозначения продукта “мг” против “кг”.
Новой информации нет, но мы смогли предложить модели линейно независимые входные данные, поэтому это не может быть хорошим знаком. Необходимо масштабировать после преобразования, убирая эти постоянные смещения. Это быстро выявит избыточность $f_1$ и $f_2$.
Ответ или решение
Да, стандартное масштабирование после логарифмического преобразования имеет смысл, и его следует включить в процесс подготовки данных.
Когда вы применяете логарифмическое преобразование к переменной, вы изменяете ее распределение, уменьшая влияние выбросов и сжимая хвост. Это делает данные более нормальными, что является решающим моментом для многих моделей, особенно для линейной регрессии. Тем не менее, просто применение логарифмического преобразования не гарантирует, что все ваши признаки будут находиться в одном масштабе.
Стандартное масштабирование (приведение к нулевому среднему значению и единичной дисперсии) — это аффинное преобразование, которое позволяет всем признакам сравниваться по одной шкале. Если у вас есть логарифмически преобразованная переменная, ее масштаб может значительно отличаться от масштабов других переменных. Это может привести к ситуациям, когда различия в величине признаков могут оказывать ненадлежащее влияние на результаты модели.
Рассмотрим пример: если у вас есть переменная \( f_1 = \ln(\text{raw}) \), и вы добавляете переменные \( f_2 = 3 + f_1 \) и \( f_3 = 6 + f_1 \), то несмотря на то, что вся информация остается одинаковой, ваша модель может воспринимать эти переменные как линейно независимые. Это может привести к потере точности и проблемам с интерпретацией.
Применяя стандартное масштабирование после логарифмического преобразования, вы устраняете такие смещения и гарантируете, что признаки находятся на одном уровне, что также позволяет избежать проблемы коллинеарности.
Рекомендуется использовать стандартное масштабирование как на логарифмически преобразованной переменной, так и на остальных признаках. Это обеспечит, что все переменные будут(“равняться”) и их влияние на модель будет соответствовать их истинной информации.
Для дальнейшего изучения темы рекомендую ознакомиться с материалами по предобработке данных и методам машинного обучения, такими как:
– “The Elements of Statistical Learning” (Hastie, Tibshirani, Friedman)
– “Pattern Recognition and Machine Learning” (Bishop)
– курсы по машинному обучению на платформах вроде Coursera или edX, которые охватывают предобработку данных и стандартизацию.
Эти источники помогут углубить ваши знания и понимание важности и методов подготовки данных для успешного моделирования.