Data Science
Когда мне следует делать разделение на обучающую и тестовую выборки, а также отбор признаков, если мой набор данных несбалансированный?
00
Вопрос или проблема У меня есть набор данных, содержащий ЭКГ-сигналы с 5 различными классами, описывающими качество конкретного окна ЭКГ-сигнала. Мне нужно создать модель машинного обучения для предсказания качества сигнала на основе признаков, извлеченных из каждого окна.
Data Science
Как сгруппировать метки (в задаче многометочной классификации), которые в основном появляются вместе в классе
00
Вопрос или проблема Как сгруппировать метки (в задаче многоклассовой классификации), которые чаще всего встречаются вместе в датафрейме? Например, у меня есть следующий датафрейм: text | жанр =========================== текст 1 | [экшн, детектив, ужас
Data Science
Моделирование запутанных классов
00
Вопрос или проблема Я тренирую двухнаправленную LSTM с вниманием на наборе данных с текстовыми данными и шестью целевыми классами. F1-меры на тестовом наборе по классам составляют около 0,7 для четырех классов и около 0,35 для других двух.
Data Science
Недостаточная/избыточная выборка учит модель неправильному распределению?
00
Вопрос или проблема Суть: Обучение модели с использованием недо/пересемплирования в процессе обучения приведет к неправильному распределению и негативно скажется на точности? Предположим, вы хотите обучить классификатор для различения класса A и класса B.
Data Science
Каков хороший подход для объединения текстовых и пространственных признаков для классификации документов?
00
Вопрос или проблема Я работаю над классификатором документов, который может выполнять классификацию на основе структуры документа. Мой план состоит в том, чтобы получить векторное представление слов, а также координаты слов и как-то комбинировать эти
Data Science
ROC_AUC значение выше до настройки n_neighbors для KNN.
00
Вопрос или проблема Это для многоклассовой классификации. Перед настройкой n_neighbors для KNN результаты были следующие: Точность на обучающей выборке: 99.54% Точность на тестовой выборке: 99.58% ROC AUC: 99.86% После поиска оптимального n_neighbors
Data Science
Проблема: Производительность логистической регрессии и моделей на основе деревьев на малом несбалансированном наборе данных
00
Вопрос или проблема У меня есть небольшой набор данных с 300 строками и несбалансированным распределением классов (35% положительных). Когда я обучаю модель логистической регрессии, она постоянно показывает результаты хуже случайного выбора.
Data Science
Как найти векторное представление для каждого дескриптора?
00
Вопрос или проблема Данные кубов хорошо известны в области экстремальной классификации. Каждое изображение имеет набор дескрипторов. В общей сложности набор данных содержит 312 дескрипторов. Вы можете найти список дескрипторов в этом файле.
Data Science
Целевой и выходной формат/тип для бинарной классификации с использованием PyTorch
00
Вопрос или проблема У меня есть несколько аннотированных изображений, которые я хочу использовать для обучения бинарного классификатора изображений, но у меня возникли проблемы с созданием набора данных и фактическим обучением модели.
Программное обеспечение
Приложение для заметок для веб-фрагментов с одновременным сохранением
00
Вопрос или проблема Две основные функции: 1) получение веб-фрагментов: – сохранение этого фрагмента (возможность полного текста) с форматированием и включенными изображениями – сохранение мета-информации (URL, позиция фрагмента на веб-странице
Data Science
Размер и детали калибровочного набора
00
Вопрос или проблема Я знаю, что на практике мы часто используем традиционное разделение 80-20 для разделения на обучающую и тестовую выборки. Однако для калибровки вероятности нам часто нужен дополнительный набор для калибровки.
Data Science
Используя BERT в первый раз, какие два столбца в моем test_results.tsv?
00
Вопрос или проблема Я следовал шагам, чтобы ввести в модель dev, test, train.tsv, обучил ее, затем попытался классифицировать тестовые данные, и у меня только 1 признак, классификация бинарная, 1 или 0. Я предположил, что в моем test_results.
Data Science
Подходящий алгоритм машинного обучения для моделирования кластеризованного временно изменяющегося бинарного результата
00
Вопрос или проблема Я сразу перейду к делу. У меня есть довольно большой набор данных (100K наблюдений) с непрерывными и категориальными предикторами, которые меняются со временем. Категориальные предикторы, на самом деле, обычно не меняются, однако непрерывные меняются каждый день.
Data Science
Странные результаты от CNN в Keras
00
Вопрос или проблема У меня есть задача бинарной классификации. Я разработал модель с свёрточными ядрами на первых слоях, а затем плотными слоями. В качестве выходного слоя я использовал softmax слой размером 2, а затем применил one-hot кодирование к своим меткам.
Data Science
Как работать с категориальными переменными при масштабировании
00
Вопрос или проблема У меня есть классификатор MLP, который используется для решения задачи бинарной классификации (например, категория A против B). Моя цель – минимизировать логарифмическую потерю, однако один из тестов, который я провожу, –
Data Science
Извлечение ключевых слов для классификации текстов бизнес-правил
00
Вопрос или проблема Я хотел бы классифицировать тексты без использования каких-либо моделей машинного обучения. Моя идея состоит в том, чтобы составить список ключевых слов, которые я назначу каждой категории. Затем, когда мне нужно будет классифицировать
Data Science
Классификация временных рядов с несколькими строками на дату
00
Вопрос или проблема У меня есть набор временных рядов данных с жизненным циклом 9000 различных B2B продажных лидов. То, что я называю жизненным циклом, представляет собой набор данных с одной записью на день для каждого различного идентификатора лидов
Data Science
Какую предсказательную модель выбрать?
00
Вопрос или проблема Я полностью потерялся, пытаясь выбрать тип предсказательной модели для своей задачи. Это авторегрессионная модель, нелинейная временная серия, марковская цепь или что-то другое? Может кто-то дать мне совет?
Data Science
Как использовать онтологии для классификации текста?
00
Вопрос или проблема Я новичок в машинном обучении и хочу классифицировать предложения, используя онтологии (таксономии/графы знаний) и методы контролируемого обучения (у меня есть аннотированный обучающий набор данных). Мой вопрос: как использовать онтологию для этой задачи?
Data Science
Как передавать входные данные в модели глубокого обучения для задачи ответа на множественный выбор?
00
Вопрос или проблема В настоящее время я работаю над системой ответов на вопросы с множественным выбором. Обучающая выборка состоит из вопроса, ответа и 4 вариантов, и мне нужно предсказать правильный ответ среди 4 вариантов. Иногда есть и один абзац, например: 1.