Почему использовать Scaler.fit только на x_train, а не на x_test для нормализации значений с помощью MinMaxScaler?

Question 1

При нормализации данных все говорят, что необходимо использовать fit только на x_train и не на x_test? Почему мы не должны использовать fit на x_test?

Если мы не должны использовать fit на x_test, то почему нужно применять только трансформацию на x_test?

from sklearn.preprocessing import MinMaxScaler
Scaler=MinMaxScaler()
Scaler.fit(X_train)
x_train=Scaler.transform(x_train)
x_test=Scaler.transform(x_test)

Question 2

Если вы используете fit на x_test, вы используете информацию из тестового набора и происходит утечка данных. Это информация, которой у вас бы не было, если бы ваша модель была в производственной среде, и ее нельзя использовать при обучении вашей модели.

Question 3

В дополнение к комментарию Oxbowerce, можно рассуждать следующим образом: в реальном случае вы бы ожидали, что распределение данных X_train похоже на данные X_test, поэтому применение MinMaxScaler к данным X_test, обученным “только” на X_train, означает (или должно означать), что нет фактической разницы по сравнению с обучением вместе с X_test; в конце концов, этот скейлер находит минимальные и максимальные значения такого распределения и масштабирует их с помощью этих значений.

Тем не менее, вы могли бы переразобрать ваш трансформатор время от времени в производственной среде, если вы получите все больше данных с доступными новыми данными…

Question 4

Работа sklearn MinMaxScaler осуществляется следующим образом:

операция fit: находит минимальные и максимальные значения вашего столбца признаков (обратите внимание, что это масштабирование применяется отдельно для каждого из ваших атрибутов/столбцов фрейма данных)
трансформация: применяет операцию масштабирования с минимальными и максимальными значениями, найдеными на этапе ‘fit’

Пример:

предположим, у нас есть один признак со следующими значениями:
[285, 543, 511, 359, 338, 678, 519, 760, 792, 395, 320, 952, 653, 129, 306, 91, 284, 359, 595, 167, 112, 802, 740, 977, 753, 74, 908, 353, 168, 622, 613, 602, 786, 396, 957, 600, 457, 74, 825, 547, 983, 825, 978, 823, 503, 782, 41, 574, 42, 851, 532, 225, 71, 827, 215, 25, 857, 682, 93, 218, 526, 776, 425, 688, 557, 61, 218, 984, 339, 92, 623, 762, 147, 634, 159, 24, 634, 365, 772, 283, 954, 805, 736, 678, 445, 677, 175, 484, 508, 341, 719, 599, 118, 401, 405, 349, 268, 133, 902, 804]

Нам нужно пересчитать масштаб каждого значения, применяя следующее определение:

rescaled_X_value = (X_value – feature_values_min) / (feature_values_max – feature_values_min)

Вопрос в том, каковы наши минимальные и максимальные значения? Вот что операция ‘fit’ из scikit-learn MinMaxScaler делает с вашими обучающими данными; суть в том, что после использования этой операции ‘fit’ на обучающей выборке для нахождения минимальных и максимальных значений, вам не нужно повторять это на тестовых данных, вы просто применяете операцию ‘transform’, чтобы лишь пересчитать масштаб тестовый данных.
Давайте посмотрим, как это работает:

Если применить это вручную:

min_max_scaled_train_data = (train_feature_data - train_feature_data.min())/(train_feature_data.max()-train_feature_data.min())
min_max_scaled_train_data[:10]

Результат для первых 10 элементов:

array([0.27111575, 0.54014599, 0.50677789, 0.34827946, 0.32638165,
0.68091762, 0.51511992, 0.76642336, 0.79979145, 0.38581856])

И с использованием scikit-learn scaler:

from sklearn.preprocessing import MinMaxScaler

min_max_scaler = MinMaxScaler()
min_max_scaler.fit(train_feature_data.reshape(-1, 1))

min_max_scaler уже содержит информацию (т.е. минимальные и максимальные значения), которую можно применить к вашим новым данным (например, вашим тестовым данным), без повторного fit. Мы также можем видеть, что результат такой же, как и при выполнении вручную, как описано выше:

min_max_scaler.transform(train_feature_data.reshape(-1, 1))[:10]
array([[0.27111575],
[0.54014599],
[0.50677789],
[0.34827946],
[0.32638165],
[0.68091762],
[0.51511992],
[0.76642336],
[0.79979145],
[0.38581856]])

Для дополнительной проверки вы можете увидеть, что разница между train_data и всеми вашими данными (т.е. train + test) при нахождении минимальных и максимальных значений не так велика, потому что они обе происходят из одного распределения.
Вы можете найти полный код примера здесь

Question 5

Утечка данных происходит, когда информация из тестового набора используется в процессе обучения модели, прямо или косвенно, что может привести к излишне оптимистичным оценкам производительности. Если вы вызываете scaler.fit(X_test), вы позволяете модели “заглядывать” в тестовые данные во время предобработки, поскольку статистика масштабирования (среднее, стандартное отклонение) будет получена из тестовых данных.

Почему использовать Scaler.fit только на x_train, а не на x_test для нормализации значений с помощью MinMaxScaler?

Вопрос или проблема

Ответ или решение