Data Science
Что делать, если конкретная метка категории появляется только несколько раз?
00
Вопрос или проблема Допустим, я пытаюсь предсказать, будет ли автомобиль продан на аукционе или нет (это не то, чем я на самом деле занимаюсь, но это хорошо это иллюстрирует), используя табличные данные. У меня есть год выпуска автомобиля, его цвет, модель и т.
Data Science
Как выполнить целевое кодирование, когда данные содержат повторяющиеся строки?
00
Вопрос или проблема Как мне выполнить кодирование для категории, если данные содержат повторяющиеся строки? Могу ли я выполнить целевое кодирование? Или могу использовать другое кодирование? Я хочу выяснить, как включить категориальную переменную в модель
Data Science
NAN в результатах нейронной сети Keras
00
Вопрос или проблема Я создаю простую архитектуру нейронной сети. Но я постоянно получаю NAN в результате и не могу понять, почему. Ниже представлен мой код. import pandas from keras.models import Sequential from keras.layers import Dense from keras.
Data Science
Один хот и взаимодействие один хот на нескольких категориальных.
00
Вопрос или проблема Мне интересно, есть ли смысл создавать комбинированные признаки из нескольких категориальных переменных, когда отдельные категориальные переменные уже закодированы методом one-hot? Простой пример: есть переменная P с категориями {X
Data Science
Какова лучшая практика нормализации/стандартизации несбалансированных данных для обнаружения выбросов или задачи бинарной классификации?
00
Вопрос или проблема Я исследую обнаружение аномалий/выбросов/мошенничества и ищу лучшие практики предобработки синтетических данных для несбалансированных данных. Я проверил все методологии нормализации/стандартизации, которые не чувствительны к наличию
Data Science
Нужно ли масштабировать категориальные признаки с однозначным кодированием при использовании их вместе с текстовыми признаками для определения семантического сходства?
00
Вопрос или проблема Моя цель – определить текстовое сходство с использованием нескольких признаков. Некоторые из признаков являются текстовыми, для чего я использую (Tfhub 2.0) универсальный энкодер предложений. Есть и другие категориальные признаки
Data Science
Обработка кодирования набора данных, который содержит более 2000 столбцов.
00
Вопрос или проблема Когда у нас есть набор данных, который нужно предварительно обработать, прежде чем передать его модели, мы преобразуем категориальные значения в числовые, для чего мы обычно используем такие методы, как Label Encoding, One Hot Encoding и т.
Data Science
Реализация Cat2Vec X = категориальный, y = категориальный
00
Вопрос или проблема Я пытаюсь преобразовать категориальные значения (почтовые индексы) с помощью Cat2Vec в матрицу, которая может быть использована в качестве входной формы для категориального прогнозирования целевой переменной с бинарными значениями.
Data Science
Сжатие категориальных данных в более чем 3 категории
00
Вопрос или проблема У меня есть множество категориальных данных, относящихся к частям речи, которые я хочу свести к меньшему числу категорий. np.where() не подойдет, потому что я хочу в итоге получить 6 категорий: существительное, глагол, прилагательное