clustering
Программное обеспечение
Вопрос или проблема Я работаю над проектом больших данных и использую несколько старых серверов на базе различных операционных систем (Ubuntu, CentOS, Windows 2012, Windows 10). Одна из основных причин, по которой я бы хотел использовать распределенное
Data Science
Вопрос или проблема Я новичок в анализе данных, и мне нужно выполнить проект по анализу данных, используя методы кластеризации, для курса на R. Я понятия не имею, с чего начать и как выбрать набор данных. Я ищу какие-то ресурсы.
Data Science
Вопрос или проблема Мне нужно решить два вопроса по следующему набору данных: 1. Разделить клиентов на взаимно исключающие группы. Объяснить кластеры. 2. Определить правила ассоциации 1-1 для каждой категории продукта в каждом кластере, то есть если клиент
Data Science
Вопрос или проблема Как указано в заголовке, я пытаюсь кластеризовать огромный набор данных и делаю это с помощью sklearn.Birch, чтобы обучаться постепенно. Если бы это был небольшой набор данных, я мог бы просто использовать gridsearchcv.
Data Science
Вопрос или проблема Контекст Я занимаюсь задачей кластеризации 1500 временных рядов из 500 наблюдений в несколько кластеров. Временные ряды обладают одинаковыми наблюдаемыми свойствами в разных пространственных положениях, но реагируют на одни и те же экзогенные переменные.
Data Science
Вопрос или проблема У меня есть кейс, в котором я имею текстовые данные, введенные утверждающим при утверждении некоторых кредитов. Мне нужно сделать некоторые выводы о возможных причинах для утверждения, используя NLP. Как мне к этому подойти?
Data Science
Вопрос или проблема Мои данные представляют собой группу из 10 тысяч точек (каждая имеет координаты узла (x, y)), которые распределены по плоскости. Они также имеют хроматическую окраску в зависимости от их веса. Мне нужно завершить метод байесовской
Data Science
Вопрос или проблема ”’Я использовал алгоритм k-means для кластеризации набора документов, содержащих только текстовые данные. Документ содержит 2 миллиона записей. Удивительно, но результат кластеризации следующий: 90% записей хранится в одном
Data Science
Вопрос или проблема Мне нужно построить интерактивный график кластеризации. В идеале, когда пользователь увеличивает масштаб, кластеры должны разбиваться на более мелкие кластеры на определенных уровнях масштабирования. Я планирую иметь несколько дискретных
Data Science
Вопрос или проблема Я ищу решение для обнаружения ссылок и цитат в документах. Например, ссылка выглядит как “[..] относится к разделу 3.1 документа XY“. Насколько я знаю, есть два подхода к решению этой задачи: –
Data Science
Вопрос или проблема Если я создаю кластеры, используя алгоритм кластеризации KMeans в Python, есть ли способ узнать, какие атрибуты были использованы для группировки этих экземпляров в кластеры? Пример: у меня есть набор данных автомобилей с колонками 1 –
Data Science
Вопрос или проблема У меня есть набор данных розничного магазина, и я интересуюсь проведением кластеризации временных рядов на этих данных. Какие идеи вы находите интересными для этой цели? На данный момент у меня есть: Какие тренды продаж существуют во времени?
Data Science
Вопрос или проблема У меня есть около 1000 DAG (ориентированных ациклических графов) различных файлов, показывающих использование java.io.BufferedReader. Следующее является представлением одного из графов digraph G { 9 [ label="9 : ROOT:setup()#0" ];
Data Science
Вопрос или проблема У меня есть 2 набора данных с по сути одинаковыми переменными, хотя один из них представляет данные за один год, а другой – за другой год. Я применил алгоритм KModes к обоим наборам данных и теперь имею некоторые кластеризации.
Data Science
Вопрос или проблема У меня есть миллионы точек с координатами широты и долготы, которые сгруппированы в квадраты. В некоторых квадратах находятся тысячи точек, в других – пара точек. Идея заключается в том, чтобы для каждого квадрата иметь один
Data Science
Вопрос или проблема Библиотека pyspark ml не предоставляет методов кластеризации для K-Medoids. Поэтому мой вопрос: как можно применить K-Medoids в контексте pyspark? Существует кластеризация k-medoids для PySpark на spark-packages.
Data Science
Вопрос или проблема Я на своей первой (настоящей) работе в области данных и программирования. Как все могут себе представить, это может быть довольно сложно, и я много учусь, учитывая, что я студент по специальности «Наука о данных» в университете.
Data Science
Вопрос или проблема У меня есть DataFrame с несколькими идентификаторами, у каждого из которых есть свои временные ряды. Здесь я приведу только простой пример. Я хотел бы сгруппировать их на 2 класса (в реальных данных 10 классов).
Data Science
Вопрос или проблема У меня есть набор данных с 4 типами столбцов данных: числовой категориальный теги текст id 1 51585 27 [A, B, C, …] “Некоторый текст бла бла бла” 2 53596 27 [B, D, E] “Другой текст…
Data Science
Вопрос или проблема Что такое дендрограммы? Как мы их интерпретируем? Смотрев на дендрограммы, как мы можем определить количество образуемых кластеров? Дендрограммы — это деревообразные диаграммы, используемые для представления расположения кластеров