feature-scaling - ответы на вопросы

Data Science

Почему использовать Scaler.fit только на x_train, а не на x_test для нормализации значений с помощью MinMaxScaler?

00

Вопрос или проблема При нормализации данных все говорят, что необходимо использовать fit только на x_train и не на x_test? Почему мы не должны использовать fit на x_test? Если мы не должны использовать fit на x_test, то почему нужно применять только трансформацию на x_test?

Data Science

Как правильно выполнять нормализацию данных в автоэнкодере?

00

Вопрос или проблема Работаю над задачей обнаружения аномалий. Я использую автоэнкодер для устранения шума из заданного ввода. Я обучал сеть на нормальных данных (свободных от аномалий), поэтому модель предсказывает нормальное состояние заданного ввода.

Data Science

Обратное масштабирование разделённых данных

00

Вопрос или проблема Я масштабировал исходную матрицу A с помощью sklearn‘s StandardScaler, в результате чего получилась матрица S. Затем я разделил результат на важную и неважную часть B и C таким образом, что B + C = S Теперь я хочу обратным образом

Data Science

Является ли хорошей практикой оценивать эффективность модели, сравнивая метрики пересчитанных (обратным образом преобразованных) предсказаний и истинных целевых значений?

00

Вопрос или проблема Я сейчас работаю с линейной регрессией для задачи регрессии временных рядов (извините, но я не могу рассказать слишком много о проблеме и векторе признаков из-за соглашения о неразглашении). Я масштабировал как входные значения, так

Data Science

Как кодировать и масштабировать IP-адреса в качестве входных данных для моделей машинного обучения

00

Вопрос или проблема В настоящее время я работаю над обнаружением аномалий при проведении транзакций. В качестве части данных, которые я извлек, у меня есть IP-адреса лиц, совершивших транзакцию. Поскольку IP-адрес не имеет связного смысла и является произвольным

Data Science

Масштабирование многовходного LSTM

00

Вопрос или проблема У меня есть модель LSTM с одним слоем и 300 временными рядами, которая пытается предсказать следующее значение для одного временного ряда, основываясь на прошлых 12 значениях из 300 временных рядов. 56 –

Data Science

Масштабирование и обратное масштабирование данных для предсказания с помощью SVR

00

Вопрос или проблема Я пытаюсь использовать SVR для предсказания определенной характеристики. Я создаю модель с помощью следующего кода: from sklearn.svm import SVR from sklearn.preprocessing import StandardScaler X = data # это переменная результата y = data.

Data Science

Масштабирование признаков на пустых значениях

00

Вопрос или проблема Как обработать нулевые значения в наборе данных для выполнения масштабирования признаков в конкретном столбце? То есть, должны ли мы оставить нулевое значение как есть или вставить другое значение? Существует ли какое-либо руководство

Data Science

Комбинирование различных признаков в качестве входных данных для нейронной сети

00

Вопрос или проблема Я использую два разных источника информации как входные данные для своей нейронной модели. Модель принимает слово в качестве ввода и производит бинарный [1/0] выход. Я представляю каждое слово, используя его векторное представление

Data Science

Нужно ли масштабировать категориальные признаки с однозначным кодированием при использовании их вместе с текстовыми признаками для определения семантического сходства?

00

Вопрос или проблема Моя цель – определить текстовое сходство с использованием нескольких признаков. Некоторые из признаков являются текстовыми, для чего я использую (Tfhub 2.0) универсальный энкодер предложений. Есть и другие категориальные признаки

Data Science

Коррекция одного из нескольких сильных батч-эффектов в наборе данных.

00

Вопрос или проблема Мне интересно, какие статистические инструменты использовать при анализе данных, имеющих несколько сильных эффектов партии (распределения варьируются от одной партии к другой). Я хотел бы скорректировать эффект партии, когда он возникает

Data Science

Как работать с категориальными переменными при масштабировании

00

Вопрос или проблема У меня есть классификатор MLP, который используется для решения задачи бинарной классификации (например, категория A против B). Моя цель – минимизировать логарифмическую потерю, однако один из тестов, который я провожу, –

Data Science

Масштабирование и нессимметричные преобразования признаков для классификации

00

Вопрос или проблема Я хочу преобразовать некоторые значения признаков в своей модели, используя кубический корень, чтобы уменьшить некоторую асимметрию в своих данных. Однако я заметил, что после того, как я применяю кубический корень к определенным признакам

Data Science

Должен ли масштаб выходных данных соответствовать выходу функции активации?

00

Вопрос или проблема Я создаю LSTM с keras, который имеет параметр activation в слое. Я читал, что масштабирование выходных данных должно соответствовать выходным значениям функции активации. Например, функция активации tanh выдает значения в диапазоне

Data Science

Правильный порядок подготовки данных в машинном обучении

00

Вопрос или проблема Для упомянутых ниже шагов подготовки данных Обнаружение/обработка выбросов Импутация данных Масштабирование/стандартизация данных Балансировка классов Есть два под Questions Должны ли каждый из этих шагов выполняться после разделения

Data Science

Масштабирование временных рядов данных – по отдельности илиCombined?

00

Вопрос или проблема У меня есть данные о многих автомобилях за время (несколько лет на каждый автомобиль) Я планирую создать модель для всех автомобилей вместе (не одну модель на каждый автомобиль). Хочу ли я нормализовать (привести к стандартному виду)

Data Science

Разные методы масштабирования различных признаков приводят к ложной зависимости между ними.

01

Вопрос или проблема Мой набор данных содержит следующие две характеристики: “длительность фильма” (минуты) и “длительность телешоу” (сезоны). Если определенный пример имеет тип “фильм”, его длительность будет отображаться в характеристике “

Data Science

Как лучше всего использовать год сделок перепродажи для прогнозирования цен на жилье?

00

Вопрос или проблема Я изучаю классическую задачу предсказания цен на квартиры (вторичный рынок) в зависимости от их типа, размера, местоположения и т. д. Довольно просто, и линейная регрессия или регрессионные деревья дают первые приличные результаты

Data Science

Почему Standard Scaler рекомендуется для нормально распределенных данных?

00

Вопрос или проблема Я часто читаю рекомендации использовать StandardScaler для нормально распределенных данных, в противном случае – MinMax Scaling. Например, ответы здесь. Интересно узнать причины/математику, стоящую за этим.

Data Science

Стандартизация ввода для глубокого обучения – правильное масштабирование

00

Вопрос или проблема Как правило, входные данные для нейронной сети (НС) преобразуются так, чтобы иметь нулевое среднее значение и стандартное отклонение 1. Мне интересно, почему стандартное отклонение должно быть 1? Как насчет других масштабов?