Data Science
Кластеризация картезианских координат, связанных с одной категориальной характеристикой
00
Вопрос или проблема У меня есть серия 2D координат X = {x, y}. Каждая из них связана с одной категориальной переменной W, которая может принимать 7 различных значений. Например: coord W X1 3 X2 5 X3 7 X4 3 X5 2 X6 3 X7 2 ... X2000 5 ... Я хотел бы получить все кластеры, […
Data Science
Как правильно использовать вейвлет-преобразование для извлечения признаков?
00
Вопрос или проблема Я пытаюсь классифицировать слова на основе сигналов ЭМГ, используя машину опорных векторов в качестве модели. Мой набор данных включает 15 классов (слов) с 230 повторами и 1000 признаками каждое. Я уже объединил все файлы вместе, чтобы упростить задачу.
Data Science
Мультистикерная классификация пользователей на основе нескольких сообщений
00
Вопрос или проблема В настоящее время я выполняю курсовой проект для учебного курса в университете, и моя задача заключается в классификации многометочных пользовательских профилей на основе их публикаций в социальных сетях. Для каждого пользователя есть
Data Science
Решения для маркировки обучающих данных для задач бинарной классификации
00
Вопрос или проблема У меня есть огромный набор данных, для которого я пытаюсь использовать метод 80-20 (метод отложенной выборки) для обучения и тестирования моей модели. Однако набор данных, который мне был предоставлен, содержит 6 миллионов строк.
Data Science
Как работает кросс-энтропия с функцией активации Softmax?
00
Вопрос или проблема Я нашел в интернете, что производная функции активации кросс-энтропии с активацией softmax равна (выход – ожидаемое), что очень меня запутало. Если, например, ожидаемое значение равно 1, и так как выход всегда меньше 1 (softmax)
Data Science
Как продвигаться с токенизированным текстовым контентом, который представлен в числовом виде?
00
Вопрос или проблема У меня есть один набор данных с отзывами клиентов, но текстовые данные представлены в виде токенизированных чисел. Я не знаю, как дальше поступить, подскажите, пожалуйста, как действовать? Так как я сталкиваюсь с таким набором данных
Data Science
Какие алгоритмы могут обрабатывать вероятностные цели?
00
Вопрос или проблема У меня есть задача классификации, в которой я хочу использовать вероятности вместо классов, чтобы обучить свою модель выдавать вероятности. В моем наборе данных есть случаи, когда вероятности двух классов почти равны, и я хотел бы
Data Science
Когда мне следует делать разделение на обучающую и тестовую выборки, а также отбор признаков, если мой набор данных несбалансированный?
00
Вопрос или проблема У меня есть набор данных, содержащий ЭКГ-сигналы с 5 различными классами, описывающими качество конкретного окна ЭКГ-сигнала. Мне нужно создать модель машинного обучения для предсказания качества сигнала на основе признаков, извлеченных из каждого окна.
Data Science
Как сгруппировать метки (в задаче многометочной классификации), которые в основном появляются вместе в классе
00
Вопрос или проблема Как сгруппировать метки (в задаче многоклассовой классификации), которые чаще всего встречаются вместе в датафрейме? Например, у меня есть следующий датафрейм: text | жанр =========================== текст 1 | [экшн, детектив, ужас
Data Science
Моделирование запутанных классов
00
Вопрос или проблема Я тренирую двухнаправленную LSTM с вниманием на наборе данных с текстовыми данными и шестью целевыми классами. F1-меры на тестовом наборе по классам составляют около 0,7 для четырех классов и около 0,35 для других двух.
Data Science
Недостаточная/избыточная выборка учит модель неправильному распределению?
00
Вопрос или проблема Суть: Обучение модели с использованием недо/пересемплирования в процессе обучения приведет к неправильному распределению и негативно скажется на точности? Предположим, вы хотите обучить классификатор для различения класса A и класса B.
Data Science
Каков хороший подход для объединения текстовых и пространственных признаков для классификации документов?
00
Вопрос или проблема Я работаю над классификатором документов, который может выполнять классификацию на основе структуры документа. Мой план состоит в том, чтобы получить векторное представление слов, а также координаты слов и как-то комбинировать эти
Data Science
ROC_AUC значение выше до настройки n_neighbors для KNN.
00
Вопрос или проблема Это для многоклассовой классификации. Перед настройкой n_neighbors для KNN результаты были следующие: Точность на обучающей выборке: 99.54% Точность на тестовой выборке: 99.58% ROC AUC: 99.86% После поиска оптимального n_neighbors
Data Science
Проблема: Производительность логистической регрессии и моделей на основе деревьев на малом несбалансированном наборе данных
00
Вопрос или проблема У меня есть небольшой набор данных с 300 строками и несбалансированным распределением классов (35% положительных). Когда я обучаю модель логистической регрессии, она постоянно показывает результаты хуже случайного выбора.
Data Science
Как найти векторное представление для каждого дескриптора?
00
Вопрос или проблема Данные кубов хорошо известны в области экстремальной классификации. Каждое изображение имеет набор дескрипторов. В общей сложности набор данных содержит 312 дескрипторов. Вы можете найти список дескрипторов в этом файле.
Data Science
Целевой и выходной формат/тип для бинарной классификации с использованием PyTorch
00
Вопрос или проблема У меня есть несколько аннотированных изображений, которые я хочу использовать для обучения бинарного классификатора изображений, но у меня возникли проблемы с созданием набора данных и фактическим обучением модели.
Программное обеспечение
Приложение для заметок для веб-фрагментов с одновременным сохранением
00
Вопрос или проблема Две основные функции: 1) получение веб-фрагментов: – сохранение этого фрагмента (возможность полного текста) с форматированием и включенными изображениями – сохранение мета-информации (URL, позиция фрагмента на веб-странице
Data Science
Размер и детали калибровочного набора
00
Вопрос или проблема Я знаю, что на практике мы часто используем традиционное разделение 80-20 для разделения на обучающую и тестовую выборки. Однако для калибровки вероятности нам часто нужен дополнительный набор для калибровки.
Data Science
Используя BERT в первый раз, какие два столбца в моем test_results.tsv?
00
Вопрос или проблема Я следовал шагам, чтобы ввести в модель dev, test, train.tsv, обучил ее, затем попытался классифицировать тестовые данные, и у меня только 1 признак, классификация бинарная, 1 или 0. Я предположил, что в моем test_results.
Data Science
Подходящий алгоритм машинного обучения для моделирования кластеризованного временно изменяющегося бинарного результата
00
Вопрос или проблема Я сразу перейду к делу. У меня есть довольно большой набор данных (100K наблюдений) с непрерывными и категориальными предикторами, которые меняются со временем. Категориальные предикторы, на самом деле, обычно не меняются, однако непрерывные меняются каждый день.