Data Science
Почему использовать Scaler.fit только на x_train, а не на x_test для нормализации значений с помощью MinMaxScaler?
00
Вопрос или проблема При нормализации данных все говорят, что необходимо использовать fit только на x_train и не на x_test? Почему мы не должны использовать fit на x_test? Если мы не должны использовать fit на x_test, то почему нужно применять только трансформацию на x_test?
Data Science
Как правильно выполнять нормализацию данных в автоэнкодере?
00
Вопрос или проблема Работаю над задачей обнаружения аномалий. Я использую автоэнкодер для устранения шума из заданного ввода. Я обучал сеть на нормальных данных (свободных от аномалий), поэтому модель предсказывает нормальное состояние заданного ввода.
Data Science
Обратное масштабирование разделённых данных
00
Вопрос или проблема Я масштабировал исходную матрицу A с помощью sklearn‘s StandardScaler, в результате чего получилась матрица S. Затем я разделил результат на важную и неважную часть B и C таким образом, что B + C = S Теперь я хочу обратным образом
Data Science
Является ли хорошей практикой оценивать эффективность модели, сравнивая метрики пересчитанных (обратным образом преобразованных) предсказаний и истинных целевых значений?
00
Вопрос или проблема Я сейчас работаю с линейной регрессией для задачи регрессии временных рядов (извините, но я не могу рассказать слишком много о проблеме и векторе признаков из-за соглашения о неразглашении). Я масштабировал как входные значения, так
Data Science
Как кодировать и масштабировать IP-адреса в качестве входных данных для моделей машинного обучения
00
Вопрос или проблема В настоящее время я работаю над обнаружением аномалий при проведении транзакций. В качестве части данных, которые я извлек, у меня есть IP-адреса лиц, совершивших транзакцию. Поскольку IP-адрес не имеет связного смысла и является произвольным
Data Science
Масштабирование многовходного LSTM
00
Вопрос или проблема У меня есть модель LSTM с одним слоем и 300 временными рядами, которая пытается предсказать следующее значение для одного временного ряда, основываясь на прошлых 12 значениях из 300 временных рядов. 56 –
Data Science
Масштабирование и обратное масштабирование данных для предсказания с помощью SVR
00
Вопрос или проблема Я пытаюсь использовать SVR для предсказания определенной характеристики. Я создаю модель с помощью следующего кода: from sklearn.svm import SVR from sklearn.preprocessing import StandardScaler X = data # это переменная результата y = data.
Data Science
Масштабирование признаков на пустых значениях
00
Вопрос или проблема Как обработать нулевые значения в наборе данных для выполнения масштабирования признаков в конкретном столбце? То есть, должны ли мы оставить нулевое значение как есть или вставить другое значение? Существует ли какое-либо руководство
Data Science
Комбинирование различных признаков в качестве входных данных для нейронной сети
00
Вопрос или проблема Я использую два разных источника информации как входные данные для своей нейронной модели. Модель принимает слово в качестве ввода и производит бинарный [1/0] выход. Я представляю каждое слово, используя его векторное представление
Data Science
Нужно ли масштабировать категориальные признаки с однозначным кодированием при использовании их вместе с текстовыми признаками для определения семантического сходства?
00
Вопрос или проблема Моя цель – определить текстовое сходство с использованием нескольких признаков. Некоторые из признаков являются текстовыми, для чего я использую (Tfhub 2.0) универсальный энкодер предложений. Есть и другие категориальные признаки
Data Science
Коррекция одного из нескольких сильных батч-эффектов в наборе данных.
00
Вопрос или проблема Мне интересно, какие статистические инструменты использовать при анализе данных, имеющих несколько сильных эффектов партии (распределения варьируются от одной партии к другой). Я хотел бы скорректировать эффект партии, когда он возникает
Data Science
Как работать с категориальными переменными при масштабировании
00
Вопрос или проблема У меня есть классификатор MLP, который используется для решения задачи бинарной классификации (например, категория A против B). Моя цель – минимизировать логарифмическую потерю, однако один из тестов, который я провожу, –
Data Science
Масштабирование и нессимметричные преобразования признаков для классификации
00
Вопрос или проблема Я хочу преобразовать некоторые значения признаков в своей модели, используя кубический корень, чтобы уменьшить некоторую асимметрию в своих данных. Однако я заметил, что после того, как я применяю кубический корень к определенным признакам
Data Science
Должен ли масштаб выходных данных соответствовать выходу функции активации?
00
Вопрос или проблема Я создаю LSTM с keras, который имеет параметр activation в слое. Я читал, что масштабирование выходных данных должно соответствовать выходным значениям функции активации. Например, функция активации tanh выдает значения в диапазоне
Data Science
Правильный порядок подготовки данных в машинном обучении
00
Вопрос или проблема Для упомянутых ниже шагов подготовки данных Обнаружение/обработка выбросов Импутация данных Масштабирование/стандартизация данных Балансировка классов Есть два под Questions Должны ли каждый из этих шагов выполняться после разделения
Data Science
Масштабирование временных рядов данных – по отдельности илиCombined?
00
Вопрос или проблема У меня есть данные о многих автомобилях за время (несколько лет на каждый автомобиль) Я планирую создать модель для всех автомобилей вместе (не одну модель на каждый автомобиль). Хочу ли я нормализовать (привести к стандартному виду)
Data Science
Разные методы масштабирования различных признаков приводят к ложной зависимости между ними.
01
Вопрос или проблема Мой набор данных содержит следующие две характеристики: “длительность фильма” (минуты) и “длительность телешоу” (сезоны). Если определенный пример имеет тип “фильм”, его длительность будет отображаться в характеристике “
Data Science
Как лучше всего использовать год сделок перепродажи для прогнозирования цен на жилье?
00
Вопрос или проблема Я изучаю классическую задачу предсказания цен на квартиры (вторичный рынок) в зависимости от их типа, размера, местоположения и т. д. Довольно просто, и линейная регрессия или регрессионные деревья дают первые приличные результаты
Data Science
Почему Standard Scaler рекомендуется для нормально распределенных данных?
00
Вопрос или проблема Я часто читаю рекомендации использовать StandardScaler для нормально распределенных данных, в противном случае – MinMax Scaling. Например, ответы здесь. Интересно узнать причины/математику, стоящую за этим.
Data Science
Стандартизация ввода для глубокого обучения – правильное масштабирование
00
Вопрос или проблема Как правило, входные данные для нейронной сети (НС) преобразуются так, чтобы иметь нулевое среднее значение и стандартное отклонение 1. Мне интересно, почему стандартное отклонение должно быть 1? Как насчет других масштабов?