feature-extraction - ответы на вопросы

Data Science

Должны ли отбор признаков и отбор модели иметь одинаковое соотношение между набором для разработки и тестовым набором?

00

Вопрос или проблема Как указано в заголовке, после того как я провел отбор признаков, обязательно ли соблюдать то же самое соотношение (между набором для разработки и тестовым набором) в отборе модели? Если я правильно понимаю, вы отобрали определенный

Data Science

Вычисление значимости признаков временных рядов

00

Вопрос или проблема Я новичок в моделировании временных рядов, и мне интересно, какой стандартный способ количественной оценки значимости признаков в контексте временных рядов? Какие типы моделей позволяют наилучшую интерпретацию пространства признаков?

Data Science

Векторизатор текста, который захватывает смещение признаков в тексте.

00

Вопрос или проблема Я использую sklearn Tfifdfvectorizer для извлечения признаков из текста для классификации текста. Я считаю, что нужная мне информация, как правило, находится в начале документа, поэтому я хотел бы каким-то образом зафиксировать смещение

Data Science

Для отбора признаков используем ли мы критерий хи-квадрат вместе с взаимной информацией?

00

Вопрос или проблема Или мы выбираем только один из двух для категориальных данных. Обычно отбор признаков осуществляется с использованием взаимной информации, корреляции или условной энтропии. Мне не известны статистические тесты, такие как хи-квадрат

Data Science

Автоэнкодер против предварительно обученной сети для извлечения признаков

00

Вопрос или проблема Я хотел узнать, есть ли у кого-то какие-либо рекомендации по поводу того, что лучше для классификации изображений с большим количеством классов (около 400) с небольшим количеством образцов на класс (около 20) для относительно больших

Data Science

Имеет ли это смысл или есть какие-либо другие исследования на эту тему? TextCNN извлеченные признаки + другие признаки (категориальные и числовые) > прогнозирование XGBoost.

00

Вопрос или проблема У меня есть набор данных для характеристик ресторанов. Я использовал CNN для извлечения текстов обзоров, затем объединил извлеченные признаки с другими категориальными и числовыми признаками. Затем я использую XGBoost для прогнозирования оценок ресторанов.

Data Science

Контекстный захват в структурированном PDF?

00

Вопрос или проблема Я пытаюсь извлечь данные из резюме (PDF). Резюме всегда имеет определенную структуру, поэтому, если вы видите какие-то числа в резюме, то в зависимости от контекста можно понять, телефонный это номер, дата рождения или период.

Data Science

Алгоритмы для случайного выбора признаков для непрерывной Y

00

Вопрос или проблема В настоящее время я пытаюсь найти хорошие алгоритмы для выбора признаков. Использование корреляции или других неконструктивных методов не является правильным способом выбора признаков. Я ищу алгоритмы на Python или библиотеки, которые

Data Science

Как сделать, чтобы нейронная сеть игнорировала определенные значения?

00

Вопрос или проблема Я хотел узнать, есть ли способ заставить мой нейронную сеть типа CNN encoder-decoder полностью игнорировать определенные значения в моих данных (2D изображения). Есть некоторые значения пикселей, равные 0, которые никогда не изменяются

Data Science

Как мне работать с колонками, основанными на временной длительности, в классификации?

00

Вопрос или проблема Например, скажем, я пытаюсь предсказать, выиграю ли я свою следующую игру в пинг-понг. Некоторые характеристики, которые я имею, это количество ударов, сколько воды я выпил и т. д., а также продолжительность матча.

Data Science

Присвоение точек подогнанным плоскостям

00

Вопрос или проблема Я работаю над проектом, связанным с подгонкой плоскостей к 3D облакам точек. Часть, отвечающая за подгонку плоскостей, работает хорошо, но я пытаюсь определить лучший способ ограничить подогнанные плоскости данными точками, к которым они подходят.

Data Science

Как сгруппировать категориальные столбцы по подобным типам?

00

Вопрос или проблема (Простите, если вопрос сформулирован неудачно. Я новичок в области Data Science. Пожалуйста, прокомментируйте или отредактируйте, чтобы улучшить вопрос) У меня есть набор данных, где необходимо предсказать будущую продажу магазина. “

Data Science

Я ищу общие методы кластеризации на основе изображений.

00

Вопрос или проблема Моя задача состоит в том, чтобы кластеризовать некоторые изображения, я решил использовать модель VGG для извлечения признаков, а затем использовать метод K-средних для кластеризации этих признаков. Но у меня вопрос: когда я использую

Data Science

извлекать признаки из низкого разрешения

00

Вопрос или проблема У меня есть медицинские изображения, и мне нужно извлечь признаки из слоя, предшествующего слою классификации, используя VGG, например, но разрешение изображений неэффективно… Будут ли признаки без улучшения этого разрешения

Data Science

функции, помогающие различать изображения документов

00

Вопрос или проблема Мы пытаемся создать модель для классификации различных типов документов в качестве первого шага в нашем процессе (финальная цель – прочитать весь текст). В настоящее время мы используем ImageNet для извлечения признаков, а затем

Data Science

Что мы можем узнать, визуализируя карты признаков

00

Вопрос или проблема У меня есть следующая классификационная модель (собаки против кошек): def GetModel(): oModel = nn.Sequential( nn.Identity(), #-- ничего не делает nn.Conv2d(3, 16, 3, bias=False, stride=2), nn.BatchNorm2d(16), nn.

Data Science

Количество слоев извлечения признаков в СКСН

00

Вопрос или проблема На курсе, который я проходил по машинному обучению, мы обычно использовали около 2 слоев извлечения признаков для задач классификации изображений, используя, например, наборы данных MNIST или CIFAR. Однако, когда я проверял пример

Data Science

Как мне разработать функции для задачи идентификации именованных сущностей?

00

Вопрос или проблема Я работал над задачей идентификации именованных сущностей (а не распознавания). В этой задаче обработки естественного языка (NLP) модели дано предложение, и она должна предсказать, является ли каждое слово (или токен) именованной сущностью или нет.

Data Science

Как использовать калькулятор признаков tsfresh с результатами от другого калькулятора признаков

00

Вопрос или проблема При использовании библиотеки tsfresh для извлечения признаков возможно ли запустить калькулятор признаков , который принимает результаты другого калькулятора признаков в качестве своих параметров? Например, я хочу рассчитать (или аппроксимировать) частоту моего сигнала.

Data Science

Разные методы масштабирования различных признаков приводят к ложной зависимости между ними.

01

Вопрос или проблема Мой набор данных содержит следующие две характеристики: “длительность фильма” (минуты) и “длительность телешоу” (сезоны). Если определенный пример имеет тип “фильм”, его длительность будет отображаться в характеристике “