Data Science
Как кодировать и масштабировать IP-адреса в качестве входных данных для моделей машинного обучения
00
Вопрос или проблема В настоящее время я работаю над обнаружением аномалий при проведении транзакций. В качестве части данных, которые я извлек, у меня есть IP-адреса лиц, совершивших транзакцию. Поскольку IP-адрес не имеет связного смысла и является произвольным
Data Science
Масштабирование многовходного LSTM
00
Вопрос или проблема У меня есть модель LSTM с одним слоем и 300 временными рядами, которая пытается предсказать следующее значение для одного временного ряда, основываясь на прошлых 12 значениях из 300 временных рядов. 56 –
Data Science
Масштабирование и обратное масштабирование данных для предсказания с помощью SVR
00
Вопрос или проблема Я пытаюсь использовать SVR для предсказания определенной характеристики. Я создаю модель с помощью следующего кода: from sklearn.svm import SVR from sklearn.preprocessing import StandardScaler X = data # это переменная результата y = data.
Data Science
Масштабирование признаков на пустых значениях
00
Вопрос или проблема Как обработать нулевые значения в наборе данных для выполнения масштабирования признаков в конкретном столбце? То есть, должны ли мы оставить нулевое значение как есть или вставить другое значение? Существует ли какое-либо руководство
Data Science
Комбинирование различных признаков в качестве входных данных для нейронной сети
00
Вопрос или проблема Я использую два разных источника информации как входные данные для своей нейронной модели. Модель принимает слово в качестве ввода и производит бинарный [1/0] выход. Я представляю каждое слово, используя его векторное представление
Data Science
Нужно ли масштабировать категориальные признаки с однозначным кодированием при использовании их вместе с текстовыми признаками для определения семантического сходства?
00
Вопрос или проблема Моя цель – определить текстовое сходство с использованием нескольких признаков. Некоторые из признаков являются текстовыми, для чего я использую (Tfhub 2.0) универсальный энкодер предложений. Есть и другие категориальные признаки
Data Science
Коррекция одного из нескольких сильных батч-эффектов в наборе данных.
00
Вопрос или проблема Мне интересно, какие статистические инструменты использовать при анализе данных, имеющих несколько сильных эффектов партии (распределения варьируются от одной партии к другой). Я хотел бы скорректировать эффект партии, когда он возникает
Data Science
Как работать с категориальными переменными при масштабировании
00
Вопрос или проблема У меня есть классификатор MLP, который используется для решения задачи бинарной классификации (например, категория A против B). Моя цель – минимизировать логарифмическую потерю, однако один из тестов, который я провожу, –
Data Science
Масштабирование и нессимметричные преобразования признаков для классификации
00
Вопрос или проблема Я хочу преобразовать некоторые значения признаков в своей модели, используя кубический корень, чтобы уменьшить некоторую асимметрию в своих данных. Однако я заметил, что после того, как я применяю кубический корень к определенным признакам
Data Science
Должен ли масштаб выходных данных соответствовать выходу функции активации?
00
Вопрос или проблема Я создаю LSTM с keras, который имеет параметр activation в слое. Я читал, что масштабирование выходных данных должно соответствовать выходным значениям функции активации. Например, функция активации tanh выдает значения в диапазоне
Data Science
Правильный порядок подготовки данных в машинном обучении
00
Вопрос или проблема Для упомянутых ниже шагов подготовки данных Обнаружение/обработка выбросов Импутация данных Масштабирование/стандартизация данных Балансировка классов Есть два под Questions Должны ли каждый из этих шагов выполняться после разделения
Data Science
Масштабирование временных рядов данных – по отдельности илиCombined?
00
Вопрос или проблема У меня есть данные о многих автомобилях за время (несколько лет на каждый автомобиль) Я планирую создать модель для всех автомобилей вместе (не одну модель на каждый автомобиль). Хочу ли я нормализовать (привести к стандартному виду)
Data Science
Разные методы масштабирования различных признаков приводят к ложной зависимости между ними.
01
Вопрос или проблема Мой набор данных содержит следующие две характеристики: “длительность фильма” (минуты) и “длительность телешоу” (сезоны). Если определенный пример имеет тип “фильм”, его длительность будет отображаться в характеристике “
Data Science
Как лучше всего использовать год сделок перепродажи для прогнозирования цен на жилье?
00
Вопрос или проблема Я изучаю классическую задачу предсказания цен на квартиры (вторичный рынок) в зависимости от их типа, размера, местоположения и т. д. Довольно просто, и линейная регрессия или регрессионные деревья дают первые приличные результаты
Data Science
Почему Standard Scaler рекомендуется для нормально распределенных данных?
00
Вопрос или проблема Я часто читаю рекомендации использовать StandardScaler для нормально распределенных данных, в противном случае – MinMax Scaling. Например, ответы здесь. Интересно узнать причины/математику, стоящую за этим.
Data Science
Стандартизация ввода для глубокого обучения – правильное масштабирование
00
Вопрос или проблема Как правило, входные данные для нейронной сети (НС) преобразуются так, чтобы иметь нулевое среднее значение и стандартное отклонение 1. Мне интересно, почему стандартное отклонение должно быть 1? Как насчет других масштабов?
Data Science
Предобработка многогрупповых временных рядов: кодировать каждую выборку отдельно или в агрегированном виде?
00
Вопрос или проблема Допустим, у меня есть 3 плотные последовательности одинаковой длины. Должен ли я подгонять масштабировщик по ним отдельно или вместе? import numpy as np from sklearn.preprocessing import StandardScaler arr = np.
Data Science
Модели машинного обучения с обучением на масштабированных входах
00
Вопрос или проблема У меня есть входные данные, величины которых значительно варьируются между признаками. Я масштабировал их с помощью StandardScaler() из sklearn, а затем использовал keras для обучения нейронной сети на этих данных для предсказания моей целевой переменной.
Data Science
Нормализация данных с неравными группами?
00
Вопрос или проблема У меня есть набор данных с тремя независимыми переменными [город, отрасль, сумма], и я хотел бы нормализовать сумму. Но я хочу сделать это с учетом отрасли и города. Простая группировка по городу и отрасли дает мне множество очень