normalization - ответы на вопросы

Data Science

Использование стандартизации и нормализации в одном пайплайне.

00

Вопрос или проблема У меня есть конвейер ML в pyspark, который использует сокращение размерности PCA и нейронную сеть. Насколько я понимаю, PCA работает лучше всего, когда ему дают стандартизированные значения, а нейронная сеть — когда нормализованные.

Data Science

Насколько “нормальными” должны быть мои входные данные?

00

Вопрос или проблема Когда я обучаю нейронную сеть, я понимаю ценность нормализации входных данных до значения средней = 0 и стандартного отклонения = 1 (стандартизации данных). Но я часто вижу, что люди делают данные еще более “

Data Science

Используйте как дифференцирование, так и нормализацию в моделировании временных рядов, чтобы сделать его стационарным.

00

Вопрос или проблема Я работаю с временным рядом. Следует ли использовать и разностное преобразование, и нормализацию, или только одно из них, чтобы сделать ряд стационарным? Нормализация не делает временной ряд стационарным, поскольку, по определению

Data Science

PCA и программное обеспечение Orange

00

Вопрос или проблема Я анализирую, могут ли 15 книг быть сгруппированы по 6 переменным (из 15 книг 2 написаны одним автором, 6 другим и 7 – другим). Я посчитал количество вхождений переменных и вычислил процент. Затем я использовал программное обеспечение

Data Science

Почему использовать Scaler.fit только на x_train, а не на x_test для нормализации значений с помощью MinMaxScaler?

00

Вопрос или проблема При нормализации данных все говорят, что необходимо использовать fit только на x_train и не на x_test? Почему мы не должны использовать fit на x_test? Если мы не должны использовать fit на x_test, то почему нужно применять только трансформацию на x_test?

Data Science

Комбинирование стандартизации и нормализации моих входных данных для машинного обучения дает лучшие результаты, почему?

00

Вопрос или проблема Когда я комбинирую стандартизацию и нормализацию входных данных для моей гибридной модели нейросети, это дает наилучшие результаты. Но я нигде не могу найти, почему. Я основывался на подходе из статьи, но там тоже не обосновывают свою практику.

Data Science

Помощь в преобразовании данных

00

Вопрос или проблема У меня время реакции как зависимая переменная и возраст как независимая переменная. Я хочу провести анализ с использованием линейной смешанной модели. Мои данные не имеют нормального распределения. Должен ли я преобразовать данные?

Data Science

Как мне вводить и выводить временные ряды признаков и целевых величин в трансформер временных рядов?

00

Вопрос или проблема Я испытываю трансформер временных рядов PatchTST (статья, код) на имеющихся у меня данных временных рядов. Способ обработки данных в PatchTST следующий: Обратите внимание, что на строке 78-79 репозиторий делает следующее: self.

Data Science

Преобразование вектора из float в int

00

Вопрос или проблема У меня есть вектор с типом данных float, в основном float32. Нулевое значение является базовой линией, то есть средним/центром данных. Он имеет форму (размер_пакета, длина_последовательности). Я хочу уменьшить использование памяти

Data Science

Детали нормализации по слоям в GPT-2

02

Вопрос или проблема Я прочитал, что GPT-2 и другие трансформеры используют нормализацию по слоям перед блоками самовнимания и полносвязными слоями, но я все еще не уверен, как именно работает нормализация. Предположим, что наш размер контекста составляет

Data Science

Как преобразовать аббревиатуры префиксов названий городов?

00

Вопрос или проблема Существует ли какой-либо стандартный инструмент, библиотека или список для расширения сокращений названий городов? Например, “MT HOLLY” -> “MOUNT HOLLY” или “ST MICHAELS”

Data Science

Каков пример нормализации (приведения единичной нормы строки)?

00

Вопрос или проблема Я изучаю концепции стандартизации и нормализации для инженерии признаков. Стандартизация, например, осуществляется с помощью z-оценки, где на основе среднего значения и стандартного отклонения мы пересчитываем значения так, чтобы среднее

Data Science

Следует ли применять нормализацию к признаку взаимодействия

00

Вопрос или проблема Я работаю с взаимодействиями в своей модели машинного обучения, где я создаю новые признаки, умножая числовую переменную на закодированный категориальный признак. Мой вопрос: Следует ли применять нормализацию к этим термам взаимодействия?

Data Science

Какова лучшая практика нормализации/стандартизации несбалансированных данных для обнаружения выбросов или задачи бинарной классификации?

00

Вопрос или проблема Я исследую обнаружение аномалий/выбросов/мошенничества и ищу лучшие практики предобработки синтетических данных для несбалансированных данных. Я проверил все методологии нормализации/стандартизации, которые не чувствительны к наличию

Data Science

Коррекция одного из нескольких сильных батч-эффектов в наборе данных.

01

Вопрос или проблема Мне интересно, какие статистические инструменты использовать при анализе данных, имеющих несколько сильных эффектов партии (распределения варьируются от одной партии к другой). Я хотел бы скорректировать эффект партии, когда он возникает

Data Science

Должен ли масштаб выходных данных соответствовать выходу функции активации?

00

Вопрос или проблема Я создаю LSTM с keras, который имеет параметр activation в слое. Я читал, что масштабирование выходных данных должно соответствовать выходным значениям функции активации. Например, функция активации tanh выдает значения в диапазоне

Data Science

Масштабирование временных рядов данных – по отдельности илиCombined?

00

Вопрос или проблема У меня есть данные о многих автомобилях за время (несколько лет на каждый автомобиль) Я планирую создать модель для всех автомобилей вместе (не одну модель на каждый автомобиль). Хочу ли я нормализовать (привести к стандартному виду)

Data Science

Что значит нормализовать временной ряд по отношению к другому?

00

Вопрос или проблема Я рассматриваю способы уменьшения размерностей многомерного набора данных до одномерных сигналов. Но сначала нужно провести некоторую предобработку. Кто-то упомянул, что мне следует объединить сигналы, сначала нормализовав временные

Data Science

Нормализация изображений и обратная нормализация: цвета, потерянные при генерации изображений (GAN)

00

Вопрос или проблема Я работаю над GAN. Основываясь на различных статьях, я использую функцию активации Tanh на последнем слое генератора, которая производит выходные данные в диапазоне [-1,1]. Чтобы это было согласованно, я использую нормализацию изображения с помощью cv2: cv2.

Data Science

Подготовка игрового датасета – one-hot-кодирование против min-max-нормализации для идентификаторов карт

00

Вопрос или проблема У меня есть набор данных для игры. 5 карт игроков с идентификаторами для игрока 1, 5 карт игроков с идентификаторами для игрока 2. Имена столбцов выглядят как player1_card1_id, …, player1_card5_id, player2_card1_id, …