Data Science

Агрегация низкоуровневых признаков для классификатора

00

Вопрос или проблема Цель заключается в прогнозировании отказа/неотказа маршрутизатора (1/0) в будущем временном окне с использованием всех данных, собранных за последний час (т.е. бинарная цель). Данные получаются на двух уровнях: Метрики маршрутизатора

Data Science

Как работать с «Ergänzungsstrichen» и «Bindestrichen» в немецкой обработке естественного языка?

00

Вопрос или проблема Проблема Во фразе на немецком языке “Haupt- und Nebensatz” в точности такое же значение, как и у “Hauptsatz und Nebensatz”. Однако при преобразовании обеих фраз с использованием, например, конвейера de_core_news_sm

Data Science

Одинаковые кривые валидации для обучающего и тестового набора данных

00

Вопрос или проблема Я изучаю машинное обучение самостоятельно. Я применяю логистическую регрессию к набору данных о прогнозе погоды с Kaggle Weather_data. Цель состоит в том, чтобы предсказать дождь в соответствии с заданными признаками, и набор данных

Data Science

Руководство по изучению анализа данных

00

Вопрос или проблема Я новичок в анализе данных, и мне нужно выполнить проект по анализу данных, используя методы кластеризации, для курса на R. Я понятия не имею, с чего начать и как выбрать набор данных. Я ищу какие-то ресурсы.

Data Science

Сегментация клиентов и ассоциация категорий

00

Вопрос или проблема Мне нужно решить два вопроса по следующему набору данных: 1. Разделить клиентов на взаимно исключающие группы. Объяснить кластеры. 2. Определить правила ассоциации 1-1 для каждой категории продукта в каждом кластере, то есть если клиент

Data Science

Различие в показателях производительности модели между обучающей и тестовой выборками.

00

Вопрос или проблема Я использую метод классификации CART, разделяя набор данных на обучающую и тестовую выборки. Я использовал ошибку классификации, KS по ранговой сортировке, AUC и Gini в качестве MPM (меры производительности модели).

Data Science

Патчевое обучение vs Полное сверточное обучение в семантической сегментации

00

Вопрос или проблема Как упоминается в заголовке, какими являются эти 2 метода? Я уже проверил этот вопрос: Patchwise and Full training, (и упомянутую статью), но я не могу действительно понять значение и процесс этих двух методов. В чем разница между ними?

Data Science

Классификатор BERT с API Ktrain не может предсказать новые данные.

00

Вопрос или проблема Я обучил классификатор для анализа настроений, используя архитектуру BERT. Мне удалось обучить классификатор, и я получаю точность проверки в 87%. Но всякий раз, когда я ввожу тестовые данные или простые предложения, такие как “

Data Science

Трансформации, применяемые DataLoader в PyTorch

00

Вопрос или проблема Я заметил, что DataLoader в PyTorch применяет масштабирование к входным данным с набором данных MNIST. Я предполагаю, что это какая-то нормализация или масштабирование, но как мне на самом деле узнать, какое преобразование применяется, и как его отключить?

Data Science

Как извлечь подпредложения из предложения, упоминающие конкретный субъект?

00

Вопрос или проблема Я пытаюсь решить задачу обработки естественного языка (NLP). Для данного предложения, например: “Паста была вкусной, Пицца была средней” Я хочу извлечь настроение, связанное с продуктами питания.

Data Science

Работа с несколькими категориальными переменными с разными значениями.

00

Вопрос или проблема Итак, у меня есть набор данных, в котором почти все столбцы являются категориальными переменными. Проблема в том, что большинство категориальных переменных имеют много различных значений. Например, в одном столбце более миллиона уникальных

Data Science

Интуиция использования не гиперкубических ядер в оценке плотности

00

Вопрос или проблема Предположим, что мы выполняем оценку плотности в m-мерном пространстве: мы оцениваем значение $p(a)$ для некоторой точки $a$, имея наблюдения $\{x_1, \dots, x_n \}$. Известно, что если область $A \subset \mathbb{R}^m$ “

Data Science

Построение матрицы ошибок для задачи мульти-классификации.

00

Вопрос или проблема Я использую Google Colab для решения задачи мульти-классификации. Я пытаюсь построить матрицу ошибок для этой задачи, я пробовал сделать это, используя: from sklearn.metrics import multilabel_confusion_matrix, ConfusionMatrixDisplay import matplotlib.

Data Science

Безопасно ли использовать метки, созданные с помощью модели без учителя, для обучения модели с учителем, используя те же данные?

00

Вопрос или проблема У меня есть набор данных, в котором я должен обнаружить аномалии. Сейчас я использую подмножество данных (назовем это подмножество A) и применяю алгоритм DBSCAN для обнаружения аномалий в наборе A. Как только аномалии обнаружены, используя

Data Science

Использование KNN-импутации из sklearn на большом наборе данных

00

Вопрос или проблема У меня есть большой набор данных ~ 1 миллион строк на 400 признаков, и я хочу заполнить недостающие значения с помощью sklearn KNNImputer. Попытавшись сделать это сразу, я столкнулся с проблемами памяти, но думаю, что могу решить это

Data Science

Могу ли я применять разные гиперпараметры для разных временных интервалов скользящего окна?

00

Вопрос или проблема Вопрос Могу ли я применять различные гиперпараметры для разных наборов данных для обучения? Я вижу смысл в использовании общих параметров, но не вижу смысла в использовании общих гиперпараметров. Преимущество использования общих параметров

Data Science

Как оценить отсутствующие значения при расчете NDCG

00

Вопрос или проблема Я хотел бы сравнить методы рекомендаций, используя метрику NDCG на датасете MovieLens. В задаче ранжирования цель состоит в том, чтобы ранжировать предметы на основе их релевантности для пользователя. Модели ранжирования могут изучаться

Data Science

Как извлечь разделение выборки (значения) листьев дерева решений (конечных узлов), используя библиотеку h2o

00

Вопрос или проблема Извините за длинную историю, но это длинная история. 🙂 Я использую библиотеку h2o для Python, чтобы построить дерево решений и извлечь из него правила решений. Я использую некоторые данные для обучения, где метки получают значения TRUE и FALSE.

Data Science

Снижение размерности изогнутых структурных данных

00

Вопрос или проблема Я использовал снижение размерности методом PCA на наборах данных, которые довольно линейны, и теперь мне поручили сделать то же самое на наборах данных, которые в значительной степени изогнуты в пространстве.

Data Science

Предложение алгоритма для обнаружения аномалий в многомерных временных рядах.

00

Вопрос или проблема У меня есть временные ряды данных, содержащие действия пользователей в определенные интервалы времени, например, Дата UserId Директория операция Результат 01/01/2017 99:00 user1 dir1 created_file success 01/01/2017 99:00 user3 dir10