Data Science
Должны ли отбор признаков и отбор модели иметь одинаковое соотношение между набором для разработки и тестовым набором?
00
Вопрос или проблема Как указано в заголовке, после того как я провел отбор признаков, обязательно ли соблюдать то же самое соотношение (между набором для разработки и тестовым набором) в отборе модели? Если я правильно понимаю, вы отобрали определенный
Data Science
Вычисление значимости признаков временных рядов
00
Вопрос или проблема Я новичок в моделировании временных рядов, и мне интересно, какой стандартный способ количественной оценки значимости признаков в контексте временных рядов? Какие типы моделей позволяют наилучшую интерпретацию пространства признаков?
Data Science
Векторизатор текста, который захватывает смещение признаков в тексте.
00
Вопрос или проблема Я использую sklearn Tfifdfvectorizer для извлечения признаков из текста для классификации текста. Я считаю, что нужная мне информация, как правило, находится в начале документа, поэтому я хотел бы каким-то образом зафиксировать смещение
Data Science
Для отбора признаков используем ли мы критерий хи-квадрат вместе с взаимной информацией?
00
Вопрос или проблема Или мы выбираем только один из двух для категориальных данных. Обычно отбор признаков осуществляется с использованием взаимной информации, корреляции или условной энтропии. Мне не известны статистические тесты, такие как хи-квадрат
Data Science
Автоэнкодер против предварительно обученной сети для извлечения признаков
00
Вопрос или проблема Я хотел узнать, есть ли у кого-то какие-либо рекомендации по поводу того, что лучше для классификации изображений с большим количеством классов (около 400) с небольшим количеством образцов на класс (около 20) для относительно больших
Data Science
Имеет ли это смысл или есть какие-либо другие исследования на эту тему? TextCNN извлеченные признаки + другие признаки (категориальные и числовые) > прогнозирование XGBoost.
00
Вопрос или проблема У меня есть набор данных для характеристик ресторанов. Я использовал CNN для извлечения текстов обзоров, затем объединил извлеченные признаки с другими категориальными и числовыми признаками. Затем я использую XGBoost для прогнозирования оценок ресторанов.
Data Science
Контекстный захват в структурированном PDF?
00
Вопрос или проблема Я пытаюсь извлечь данные из резюме (PDF). Резюме всегда имеет определенную структуру, поэтому, если вы видите какие-то числа в резюме, то в зависимости от контекста можно понять, телефонный это номер, дата рождения или период.
Data Science
Алгоритмы для случайного выбора признаков для непрерывной Y
00
Вопрос или проблема В настоящее время я пытаюсь найти хорошие алгоритмы для выбора признаков. Использование корреляции или других неконструктивных методов не является правильным способом выбора признаков. Я ищу алгоритмы на Python или библиотеки, которые
Data Science
Как сделать, чтобы нейронная сеть игнорировала определенные значения?
00
Вопрос или проблема Я хотел узнать, есть ли способ заставить мой нейронную сеть типа CNN encoder-decoder полностью игнорировать определенные значения в моих данных (2D изображения). Есть некоторые значения пикселей, равные 0, которые никогда не изменяются
Data Science
Как мне работать с колонками, основанными на временной длительности, в классификации?
00
Вопрос или проблема Например, скажем, я пытаюсь предсказать, выиграю ли я свою следующую игру в пинг-понг. Некоторые характеристики, которые я имею, это количество ударов, сколько воды я выпил и т. д., а также продолжительность матча.
Data Science
Присвоение точек подогнанным плоскостям
00
Вопрос или проблема Я работаю над проектом, связанным с подгонкой плоскостей к 3D облакам точек. Часть, отвечающая за подгонку плоскостей, работает хорошо, но я пытаюсь определить лучший способ ограничить подогнанные плоскости данными точками, к которым они подходят.
Data Science
Как сгруппировать категориальные столбцы по подобным типам?
00
Вопрос или проблема (Простите, если вопрос сформулирован неудачно. Я новичок в области Data Science. Пожалуйста, прокомментируйте или отредактируйте, чтобы улучшить вопрос) У меня есть набор данных, где необходимо предсказать будущую продажу магазина. “
Data Science
Я ищу общие методы кластеризации на основе изображений.
00
Вопрос или проблема Моя задача состоит в том, чтобы кластеризовать некоторые изображения, я решил использовать модель VGG для извлечения признаков, а затем использовать метод K-средних для кластеризации этих признаков. Но у меня вопрос: когда я использую
Data Science
извлекать признаки из низкого разрешения
00
Вопрос или проблема У меня есть медицинские изображения, и мне нужно извлечь признаки из слоя, предшествующего слою классификации, используя VGG, например, но разрешение изображений неэффективно… Будут ли признаки без улучшения этого разрешения
Data Science
функции, помогающие различать изображения документов
00
Вопрос или проблема Мы пытаемся создать модель для классификации различных типов документов в качестве первого шага в нашем процессе (финальная цель – прочитать весь текст). В настоящее время мы используем ImageNet для извлечения признаков, а затем
Data Science
Что мы можем узнать, визуализируя карты признаков
00
Вопрос или проблема У меня есть следующая классификационная модель (собаки против кошек): def GetModel(): oModel = nn.Sequential( nn.Identity(), #-- ничего не делает nn.Conv2d(3, 16, 3, bias=False, stride=2), nn.BatchNorm2d(16), nn.
Data Science
Количество слоев извлечения признаков в СКСН
00
Вопрос или проблема На курсе, который я проходил по машинному обучению, мы обычно использовали около 2 слоев извлечения признаков для задач классификации изображений, используя, например, наборы данных MNIST или CIFAR. Однако, когда я проверял пример
Data Science
Как мне разработать функции для задачи идентификации именованных сущностей?
00
Вопрос или проблема Я работал над задачей идентификации именованных сущностей (а не распознавания). В этой задаче обработки естественного языка (NLP) модели дано предложение, и она должна предсказать, является ли каждое слово (или токен) именованной сущностью или нет.
Data Science
Как использовать калькулятор признаков tsfresh с результатами от другого калькулятора признаков
00
Вопрос или проблема При использовании библиотеки tsfresh для извлечения признаков возможно ли запустить калькулятор признаков , который принимает результаты другого калькулятора признаков в качестве своих параметров? Например, я хочу рассчитать (или аппроксимировать) частоту моего сигнала.
Data Science
Разные методы масштабирования различных признаков приводят к ложной зависимости между ними.
01
Вопрос или проблема Мой набор данных содержит следующие две характеристики: “длительность фильма” (минуты) и “длительность телешоу” (сезоны). Если определенный пример имеет тип “фильм”, его длительность будет отображаться в характеристике “