Data Science
Агрегация низкоуровневых признаков для классификатора
00
Вопрос или проблема Цель заключается в прогнозировании отказа/неотказа маршрутизатора (1/0) в будущем временном окне с использованием всех данных, собранных за последний час (т.е. бинарная цель). Данные получаются на двух уровнях: Метрики маршрутизатора
Data Science
Как работать с «Ergänzungsstrichen» и «Bindestrichen» в немецкой обработке естественного языка?
00
Вопрос или проблема Проблема Во фразе на немецком языке “Haupt- und Nebensatz” в точности такое же значение, как и у “Hauptsatz und Nebensatz”. Однако при преобразовании обеих фраз с использованием, например, конвейера de_core_news_sm
Data Science
Одинаковые кривые валидации для обучающего и тестового набора данных
00
Вопрос или проблема Я изучаю машинное обучение самостоятельно. Я применяю логистическую регрессию к набору данных о прогнозе погоды с Kaggle Weather_data. Цель состоит в том, чтобы предсказать дождь в соответствии с заданными признаками, и набор данных
Data Science
Руководство по изучению анализа данных
00
Вопрос или проблема Я новичок в анализе данных, и мне нужно выполнить проект по анализу данных, используя методы кластеризации, для курса на R. Я понятия не имею, с чего начать и как выбрать набор данных. Я ищу какие-то ресурсы.
Data Science
Сегментация клиентов и ассоциация категорий
00
Вопрос или проблема Мне нужно решить два вопроса по следующему набору данных: 1. Разделить клиентов на взаимно исключающие группы. Объяснить кластеры. 2. Определить правила ассоциации 1-1 для каждой категории продукта в каждом кластере, то есть если клиент
Data Science
Различие в показателях производительности модели между обучающей и тестовой выборками.
00
Вопрос или проблема Я использую метод классификации CART, разделяя набор данных на обучающую и тестовую выборки. Я использовал ошибку классификации, KS по ранговой сортировке, AUC и Gini в качестве MPM (меры производительности модели).
Data Science
Патчевое обучение vs Полное сверточное обучение в семантической сегментации
00
Вопрос или проблема Как упоминается в заголовке, какими являются эти 2 метода? Я уже проверил этот вопрос: Patchwise and Full training, (и упомянутую статью), но я не могу действительно понять значение и процесс этих двух методов. В чем разница между ними?
Data Science
Классификатор BERT с API Ktrain не может предсказать новые данные.
00
Вопрос или проблема Я обучил классификатор для анализа настроений, используя архитектуру BERT. Мне удалось обучить классификатор, и я получаю точность проверки в 87%. Но всякий раз, когда я ввожу тестовые данные или простые предложения, такие как “
Data Science
Трансформации, применяемые DataLoader в PyTorch
00
Вопрос или проблема Я заметил, что DataLoader в PyTorch применяет масштабирование к входным данным с набором данных MNIST. Я предполагаю, что это какая-то нормализация или масштабирование, но как мне на самом деле узнать, какое преобразование применяется, и как его отключить?
Data Science
Как извлечь подпредложения из предложения, упоминающие конкретный субъект?
00
Вопрос или проблема Я пытаюсь решить задачу обработки естественного языка (NLP). Для данного предложения, например: “Паста была вкусной, Пицца была средней” Я хочу извлечь настроение, связанное с продуктами питания.
Data Science
Работа с несколькими категориальными переменными с разными значениями.
00
Вопрос или проблема Итак, у меня есть набор данных, в котором почти все столбцы являются категориальными переменными. Проблема в том, что большинство категориальных переменных имеют много различных значений. Например, в одном столбце более миллиона уникальных
Data Science
Интуиция использования не гиперкубических ядер в оценке плотности
00
Вопрос или проблема Предположим, что мы выполняем оценку плотности в m-мерном пространстве: мы оцениваем значение $p(a)$ для некоторой точки $a$, имея наблюдения $\{x_1, \dots, x_n \}$. Известно, что если область $A \subset \mathbb{R}^m$ “
Data Science
Построение матрицы ошибок для задачи мульти-классификации.
00
Вопрос или проблема Я использую Google Colab для решения задачи мульти-классификации. Я пытаюсь построить матрицу ошибок для этой задачи, я пробовал сделать это, используя: from sklearn.metrics import multilabel_confusion_matrix, ConfusionMatrixDisplay import matplotlib.
Data Science
Безопасно ли использовать метки, созданные с помощью модели без учителя, для обучения модели с учителем, используя те же данные?
00
Вопрос или проблема У меня есть набор данных, в котором я должен обнаружить аномалии. Сейчас я использую подмножество данных (назовем это подмножество A) и применяю алгоритм DBSCAN для обнаружения аномалий в наборе A. Как только аномалии обнаружены, используя
Data Science
Использование KNN-импутации из sklearn на большом наборе данных
00
Вопрос или проблема У меня есть большой набор данных ~ 1 миллион строк на 400 признаков, и я хочу заполнить недостающие значения с помощью sklearn KNNImputer. Попытавшись сделать это сразу, я столкнулся с проблемами памяти, но думаю, что могу решить это
Data Science
Могу ли я применять разные гиперпараметры для разных временных интервалов скользящего окна?
00
Вопрос или проблема Вопрос Могу ли я применять различные гиперпараметры для разных наборов данных для обучения? Я вижу смысл в использовании общих параметров, но не вижу смысла в использовании общих гиперпараметров. Преимущество использования общих параметров
Data Science
Как оценить отсутствующие значения при расчете NDCG
00
Вопрос или проблема Я хотел бы сравнить методы рекомендаций, используя метрику NDCG на датасете MovieLens. В задаче ранжирования цель состоит в том, чтобы ранжировать предметы на основе их релевантности для пользователя. Модели ранжирования могут изучаться
Data Science
Как извлечь разделение выборки (значения) листьев дерева решений (конечных узлов), используя библиотеку h2o
00
Вопрос или проблема Извините за длинную историю, но это длинная история. 🙂 Я использую библиотеку h2o для Python, чтобы построить дерево решений и извлечь из него правила решений. Я использую некоторые данные для обучения, где метки получают значения TRUE и FALSE.
Data Science
Снижение размерности изогнутых структурных данных
00
Вопрос или проблема Я использовал снижение размерности методом PCA на наборах данных, которые довольно линейны, и теперь мне поручили сделать то же самое на наборах данных, которые в значительной степени изогнуты в пространстве.
Data Science
Предложение алгоритма для обнаружения аномалий в многомерных временных рядах.
00
Вопрос или проблема У меня есть временные ряды данных, содержащие действия пользователей в определенные интервалы времени, например, Дата UserId Директория операция Результат 01/01/2017 99:00 user1 dir1 created_file success 01/01/2017 99:00 user3 dir10