clustering
Data Science
Вопрос или проблема У меня есть база данных, которая содержит информацию, такую как широта, долгота, а также другую информацию, например, достопримечательности, рестораны и торговые центры, сельская местность это или пригород, …
Data Science
Вопрос или проблема Правка: в соответствии с комментарием от @anony-mousse, я изменяю вопрос, чтобы искать общий подход кластеризации, который соответствует этому критерию (минимальный вес на кластер). Мне нужно использовать метод кластеризации на наборе
Data Science
Вопрос или проблема Я пытаюсь создать систему, где пользователь приходит на платформу, выбирает тему (несколько заранее определенных тем), и тогда мы соединяем его с любым случайным пользователем онлайн, который выбрал ту же тему.
Программное обеспечение
Вопрос или проблема Я работаю над проектом больших данных и использую несколько старых серверов на базе различных операционных систем (Ubuntu, CentOS, Windows 2012, Windows 10). Одна из основных причин, по которой я бы хотел использовать распределенное
Data Science
Вопрос или проблема Я новичок в анализе данных, и мне нужно выполнить проект по анализу данных, используя методы кластеризации, для курса на R. Я понятия не имею, с чего начать и как выбрать набор данных. Я ищу какие-то ресурсы.
Data Science
Вопрос или проблема Мне нужно решить два вопроса по следующему набору данных: 1. Разделить клиентов на взаимно исключающие группы. Объяснить кластеры. 2. Определить правила ассоциации 1-1 для каждой категории продукта в каждом кластере, то есть если клиент
Data Science
Вопрос или проблема Как указано в заголовке, я пытаюсь кластеризовать огромный набор данных и делаю это с помощью sklearn.Birch, чтобы обучаться постепенно. Если бы это был небольшой набор данных, я мог бы просто использовать gridsearchcv.
Data Science
Вопрос или проблема Контекст Я занимаюсь задачей кластеризации 1500 временных рядов из 500 наблюдений в несколько кластеров. Временные ряды обладают одинаковыми наблюдаемыми свойствами в разных пространственных положениях, но реагируют на одни и те же экзогенные переменные.
Data Science
Вопрос или проблема У меня есть кейс, в котором я имею текстовые данные, введенные утверждающим при утверждении некоторых кредитов. Мне нужно сделать некоторые выводы о возможных причинах для утверждения, используя NLP. Как мне к этому подойти?
Data Science
Вопрос или проблема Мои данные представляют собой группу из 10 тысяч точек (каждая имеет координаты узла (x, y)), которые распределены по плоскости. Они также имеют хроматическую окраску в зависимости от их веса. Мне нужно завершить метод байесовской
Data Science
Вопрос или проблема ”’Я использовал алгоритм k-means для кластеризации набора документов, содержащих только текстовые данные. Документ содержит 2 миллиона записей. Удивительно, но результат кластеризации следующий: 90% записей хранится в одном
Data Science
Вопрос или проблема Мне нужно построить интерактивный график кластеризации. В идеале, когда пользователь увеличивает масштаб, кластеры должны разбиваться на более мелкие кластеры на определенных уровнях масштабирования. Я планирую иметь несколько дискретных
Data Science
Вопрос или проблема Я ищу решение для обнаружения ссылок и цитат в документах. Например, ссылка выглядит как “[..] относится к разделу 3.1 документа XY“. Насколько я знаю, есть два подхода к решению этой задачи: –
Data Science
Вопрос или проблема Если я создаю кластеры, используя алгоритм кластеризации KMeans в Python, есть ли способ узнать, какие атрибуты были использованы для группировки этих экземпляров в кластеры? Пример: у меня есть набор данных автомобилей с колонками 1 –
Data Science
Вопрос или проблема У меня есть набор данных розничного магазина, и я интересуюсь проведением кластеризации временных рядов на этих данных. Какие идеи вы находите интересными для этой цели? На данный момент у меня есть: Какие тренды продаж существуют во времени?
Data Science
Вопрос или проблема У меня есть около 1000 DAG (ориентированных ациклических графов) различных файлов, показывающих использование java.io.BufferedReader. Следующее является представлением одного из графов digraph G { 9 [ label="9 : ROOT:setup()#0" ];
Data Science
Вопрос или проблема У меня есть 2 набора данных с по сути одинаковыми переменными, хотя один из них представляет данные за один год, а другой – за другой год. Я применил алгоритм KModes к обоим наборам данных и теперь имею некоторые кластеризации.
Data Science
Вопрос или проблема У меня есть миллионы точек с координатами широты и долготы, которые сгруппированы в квадраты. В некоторых квадратах находятся тысячи точек, в других – пара точек. Идея заключается в том, чтобы для каждого квадрата иметь один
Data Science
Вопрос или проблема Библиотека pyspark ml не предоставляет методов кластеризации для K-Medoids. Поэтому мой вопрос: как можно применить K-Medoids в контексте pyspark? Существует кластеризация k-medoids для PySpark на spark-packages.
Data Science
Вопрос или проблема Я на своей первой (настоящей) работе в области данных и программирования. Как все могут себе представить, это может быть довольно сложно, и я много учусь, учитывая, что я студент по специальности «Наука о данных» в университете.