Data Science
Data Science
Вопрос или проблема Цель заключается в прогнозировании отказа/неотказа маршрутизатора (1/0) в будущем временном окне с использованием всех данных, собранных за последний час (т.е. бинарная цель). Данные получаются на двух уровнях: Метрики маршрутизатора
Data Science
Вопрос или проблема Проблема Во фразе на немецком языке “Haupt- und Nebensatz” в точности такое же значение, как и у “Hauptsatz und Nebensatz”. Однако при преобразовании обеих фраз с использованием, например, конвейера de_core_news_sm
Data Science
Вопрос или проблема Я изучаю машинное обучение самостоятельно. Я применяю логистическую регрессию к набору данных о прогнозе погоды с Kaggle Weather_data. Цель состоит в том, чтобы предсказать дождь в соответствии с заданными признаками, и набор данных
Data Science
Вопрос или проблема Я новичок в анализе данных, и мне нужно выполнить проект по анализу данных, используя методы кластеризации, для курса на R. Я понятия не имею, с чего начать и как выбрать набор данных. Я ищу какие-то ресурсы.
Data Science
Вопрос или проблема Мне нужно решить два вопроса по следующему набору данных: 1. Разделить клиентов на взаимно исключающие группы. Объяснить кластеры. 2. Определить правила ассоциации 1-1 для каждой категории продукта в каждом кластере, то есть если клиент
Data Science
Вопрос или проблема Я использую метод классификации CART, разделяя набор данных на обучающую и тестовую выборки. Я использовал ошибку классификации, KS по ранговой сортировке, AUC и Gini в качестве MPM (меры производительности модели).
Data Science
Вопрос или проблема Как упоминается в заголовке, какими являются эти 2 метода? Я уже проверил этот вопрос: Patchwise and Full training, (и упомянутую статью), но я не могу действительно понять значение и процесс этих двух методов. В чем разница между ними?
Data Science
Вопрос или проблема Я обучил классификатор для анализа настроений, используя архитектуру BERT. Мне удалось обучить классификатор, и я получаю точность проверки в 87%. Но всякий раз, когда я ввожу тестовые данные или простые предложения, такие как “
Data Science
Вопрос или проблема Я заметил, что DataLoader в PyTorch применяет масштабирование к входным данным с набором данных MNIST. Я предполагаю, что это какая-то нормализация или масштабирование, но как мне на самом деле узнать, какое преобразование применяется, и как его отключить?
Data Science
Вопрос или проблема Я пытаюсь решить задачу обработки естественного языка (NLP). Для данного предложения, например: “Паста была вкусной, Пицца была средней” Я хочу извлечь настроение, связанное с продуктами питания.
Data Science
Вопрос или проблема Итак, у меня есть набор данных, в котором почти все столбцы являются категориальными переменными. Проблема в том, что большинство категориальных переменных имеют много различных значений. Например, в одном столбце более миллиона уникальных
Data Science
Вопрос или проблема Предположим, что мы выполняем оценку плотности в m-мерном пространстве: мы оцениваем значение $p(a)$ для некоторой точки $a$, имея наблюдения $\{x_1, \dots, x_n \}$. Известно, что если область $A \subset \mathbb{R}^m$ “
Data Science
Вопрос или проблема Я использую Google Colab для решения задачи мульти-классификации. Я пытаюсь построить матрицу ошибок для этой задачи, я пробовал сделать это, используя: from sklearn.metrics import multilabel_confusion_matrix, ConfusionMatrixDisplay import matplotlib.
Data Science
Вопрос или проблема У меня есть набор данных, в котором я должен обнаружить аномалии. Сейчас я использую подмножество данных (назовем это подмножество A) и применяю алгоритм DBSCAN для обнаружения аномалий в наборе A. Как только аномалии обнаружены, используя
Data Science
Вопрос или проблема У меня есть большой набор данных ~ 1 миллион строк на 400 признаков, и я хочу заполнить недостающие значения с помощью sklearn KNNImputer. Попытавшись сделать это сразу, я столкнулся с проблемами памяти, но думаю, что могу решить это
Data Science
Вопрос или проблема Вопрос Могу ли я применять различные гиперпараметры для разных наборов данных для обучения? Я вижу смысл в использовании общих параметров, но не вижу смысла в использовании общих гиперпараметров. Преимущество использования общих параметров
Data Science
Вопрос или проблема Я хотел бы сравнить методы рекомендаций, используя метрику NDCG на датасете MovieLens. В задаче ранжирования цель состоит в том, чтобы ранжировать предметы на основе их релевантности для пользователя. Модели ранжирования могут изучаться
Data Science
Вопрос или проблема Извините за длинную историю, но это длинная история. 🙂 Я использую библиотеку h2o для Python, чтобы построить дерево решений и извлечь из него правила решений. Я использую некоторые данные для обучения, где метки получают значения TRUE и FALSE.
Data Science
Вопрос или проблема Я использовал снижение размерности методом PCA на наборах данных, которые довольно линейны, и теперь мне поручили сделать то же самое на наборах данных, которые в значительной степени изогнуты в пространстве.
Data Science
Вопрос или проблема У меня есть временные ряды данных, содержащие действия пользователей в определенные интервалы времени, например, Дата UserId Директория операция Результат 01/01/2017 99:00 user1 dir1 created_file success 01/01/2017 99:00 user3 dir10