Насколько “нормальными” должны быть мои входные данные?

Question 1

Когда я обучаю нейронную сеть, я понимаю ценность нормализации входных данных до значения средней = 0 и стандартного отклонения = 1 (стандартизации данных). Но я часто вижу, что люди делают данные еще более “нормальными”, трансформируя их так, чтобы их форма лучше соответствовала нормальному распределению, а не только метрикам средней и стандартного отклонения.

Я надеюсь, кто-то сможет помочь мне понять это, я попробовал ниже проиллюстрировать, где возникает недопонимание.

Если у меня есть признак, который я знаю следует распределению Вейбулла, его функция плотности может выглядеть примерно так (лямбда = 1, k = 1.5):

(Я просто разбил данные, чтобы показать форму плотности).

Затем я стандартизирую данные так, чтобы средняя = 0 и стандартное отклонение = 1, и мы получаем плотность, которая выглядит так:

Здесь я бы остановился с предобработкой и тут я становлюсь озадаченным. Почему часто рекомендуется идти еще дальше и трансформировать распределение, чтобы его форма соответствовала нормальному распределению. Это приводит к плотности, которая выглядит так:

Интуитивно мне кажется, что мы теряем некоторую информацию, изменяя распределение, если кто-то может объяснить, где моя интуиция неверна, я был бы очень признателен.

Также, мне кажется, что есть большой недостаток в изменении распределения признака, что, вероятно, является просто еще одним моим недопониманием. Недостаток, который я вижу, заключается в том, что если мы знаем, что данные склоняются к низким значениям (как распределение Вейбулла с лямбда = 1, k = 1.5), то, конечно же, мы хотим обучить модель больше на этих низких значениях, которые модель, как только будет обучена и работать в реальном времени, будет чаще видеть. Разве нас не интересует больше то, как модель работает на этих низких значениях, чем на высоких?

Question 2

Цель стандартизации заключается в том, чтобы значения признаков были сопоставимы. Например, в предсказании стоимости жилья количество комнат и размер дома очень различаются, и нам необходимо нормализовать их перед тем, как они будут поданы в сеть. Если вы не нормализуете, влияние размера дома будет значительно больше, чем количество комнат. Вы правы, что нам нужно привести диапазон значений в сопоставимый вид, однако совершенно не обязательно приводить его к нормальному распределению. Вы также правы, что это приведет к потере информации, надеюсь, это поможет.

Насколько “нормальными” должны быть мои входные данные?

Вопрос или проблема

Ответ или решение

Контекст

Зачем стандартные методы нормализации?

Преимущества и недостатки приведения распределения к нормальному

Преимущества:

Недостатки:

Заключение