feature-engineering - ответы на вопросы - Page 2 of 4

Data Science

Циклическая зависимость между классом признака и классом предсказателя

00

Вопрос или проблема У меня есть признак, который имеет определенные категориальные значения, например (Технологии, Оборудование, Программное обеспечение, Маркетинг, События и т.д.). На основе этого и некоторых других признаков я пытаюсь классифицировать

Data Science

Как сгруппировать категориальные столбцы по подобным типам?

00

Вопрос или проблема (Простите, если вопрос сформулирован неудачно. Я новичок в области Data Science. Пожалуйста, прокомментируйте или отредактируйте, чтобы улучшить вопрос) У меня есть набор данных, где необходимо предсказать будущую продажу магазина. “

Data Science

Почему мне не следует использовать Id как поле в инженерии признаков для машинного обучения?

01

Вопрос или проблема Почему при создании признаков и извлечении признаков я не должен использовать Ид в таких задачах, как регрессия Ид, как имя человека, обычно является уникальным идентификатором, не имеющим значимого отношения к целевой переменной.

Data Science

Как выполнить целевое кодирование, когда данные содержат повторяющиеся строки?

00

Вопрос или проблема Как мне выполнить кодирование для категории, если данные содержат повторяющиеся строки? Могу ли я выполнить целевое кодирование? Или могу использовать другое кодирование? Я хочу выяснить, как включить категориальную переменную в модель

Data Science

Как вводить множества в качестве признаков

00

Вопрос или проблема Нужен совет по лучшему способу представления представленных ниже данных для подачи в алгоритм машинного обучения (который еще предстоит выбрать). Это связано с процессом онлайн-заказов. Заказ состоит из набора переменного количества товаров.

Data Science

Метрики для оценки важности признаков в задаче классификации (с использованием случайного леса)

00

Вопрос или проблема Я хочу оценить важность каждой из признаков в наборе данных 2000×60 в задаче классификации с использованием случайного леса. Самыми широко используемыми, по всей видимости, являются: Кросс-энтропия –

Data Science

Снижение признаков путем удаления определенных столбцов в датафрейме

00

Вопрос или проблема Я работаю с моделью распознавания эмоций на датасете IEMOCAP. Для извлечения признаков я беру мел-спектрограмму, затем преобразую её в массив NumPy и преобразую массив в датафрейм признаков спектрограммы. Сгенерированный датафрейм

Data Science

Как справиться с потенциально множественной категориальной переменной

00

Вопрос или проблема Я строю модель, которая имеет в качестве входных данных некоторые категориальные переменные. Я уже имел дело с такими данными раньше и применял различные техники, такие как создание фиктивных переменных и факторное оценивание.

Data Science

Как эффективно уменьшить размерности категориальных значений, закодированных методом one-hot?

00

Вопрос или проблема В настоящее время я работаю над проектом, в котором использую LSTM для обучения и предсказания последовательностей категориальных данных. Мой набор данных состоит из последовательностей переменной длины элементов $s_i = [x_{i_0}, x_{i_1}, …

Data Science

Как заменить значения NaN с помощью группировки pivot_table в DataFrame pandas?

00

Вопрос или проблема Я работаю над практической задачей по машинному обучению с https://datahack.analyticsvidhya.com/contest/practice-problem-big-mart-sales-iii/#ProblemStatement Я хочу заменить нулевые значения в столбце ‘

Data Science

Недостающие данные в обучающем наборе и тестовом наборе

00

Вопрос или проблема У меня есть набор данных из N столбцов. Теперь я могу предобрабатывать данные и находить подмножество признаков, которые могу использовать для обучения модели и выполнения предсказаний. В случае, если в обучающих данных отсутствуют

Data Science

Один хот и взаимодействие один хот на нескольких категориальных.

00

Вопрос или проблема Мне интересно, есть ли смысл создавать комбинированные признаки из нескольких категориальных переменных, когда отдельные категориальные переменные уже закодированы методом one-hot? Простой пример: есть переменная P с категориями {X

Data Science

Каков хороший подход для объединения текстовых и пространственных признаков для классификации документов?

00

Вопрос или проблема Я работаю над классификатором документов, который может выполнять классификацию на основе структуры документа. Мой план состоит в том, чтобы получить векторное представление слов, а также координаты слов и как-то комбинировать эти

Data Science

Создание функции для определения популярности

00

Вопрос или проблема Я разрабатываю систему рекомендаций, в которой есть несколько категорий. Я хотел бы узнать, насколько популярен продукт в каждой категории. Для этого я рассматриваю вероятность как один из факторов. Например, у меня есть 3 категории

Data Science

Классификация типов переменных в списке переменных

00

Вопрос или проблема У меня есть список из примерно 700 переменных, которые мне нужно очистить. Ситуацию усложняет то, что существуют разные числовые коды, которые сигнализируют о недопустимых значениях, и они различаются в зависимости от типа переменной.

Data Science

Можем ли мы предсказать признаки из меток в машинном обучении?

00

Вопрос или проблема Учитывая набор данных с 100 наблюдениями и 3 признаками плюс одна метка (регрессия), мы обучаем модель на данных 100 * 4 (3 признака + 1 метка). Теперь можем ли мы предсказать признаки, когда метка задана в качестве входных данных.

Data Science

Как включить предикторную переменную без информации о будущем в модель?

00

Вопрос или проблема Я приведу крайне упрощенный пример, чтобы проиллюстрировать вопрос, но я думаю, что ответ должен быть актуален и для более обобщенных случаев. Предположим, я хочу создать регрессионную модель временного ряда (сама модель не имеет значения

Data Science

Масштабирование и нессимметричные преобразования признаков для классификации

00

Вопрос или проблема Я хочу преобразовать некоторые значения признаков в своей модели, используя кубический корень, чтобы уменьшить некоторую асимметрию в своих данных. Однако я заметил, что после того, как я применяю кубический корень к определенным признакам

Data Science

Агрегация нескольких закодированных категориальных значений

00

Вопрос или проблема Я пытаюсь найти общепринятые техники для работы с многоценностными категориальными переменными с высокой кардинальностью. В данный момент я использую набор данных с признаком CATEGORY, который имеет кардинальность около 20,000.

Data Science

Как мне разработать функции для задачи идентификации именованных сущностей?

00

Вопрос или проблема Я работал над задачей идентификации именованных сущностей (а не распознавания). В этой задаче обработки естественного языка (NLP) модели дано предложение, и она должна предсказать, является ли каждое слово (или токен) именованной сущностью или нет.