clustering
Data Science
Вопрос или проблема У меня есть вопрос относительно группировки схожих слов, например, у меня есть список слов, приведенный ниже: искусственныйинтеллект Искусственный Интеллект ИИ Машинное Обучение МО Аналитика Данных Данные и Аналитика Я хочу сгруппировать
Data Science
Вопрос или проблема Я работаю с смешанным набором данных, который соответствует данным о потреблении ТВ, с целью сократить количество признаков до только тех, которые имеют отношение к выявлению паттернов потребления ТВ (или групп потребления) с использованием кластеризации.
Data Science
Вопрос или проблема Я вижу, что авторы этой статьи измеряют F1 и NMI для оценки качества кластеризации. Однако я не понимаю алгоритм, как именно они это измеряют. Смотрите раздел Оценка. Хотя я посмотрел на код, я не уверен в самом алгоритме.
Data Science
Вопрос или проблема У меня есть набор данных, который содержит примерно 15 признаков. С помощью метода локтя я выяснил, что оптимальное количество кластеров, вероятно, равно четырем. Поэтому я применил алгоритм K-средних с четырьмя кластерами.
Data Science
Вопрос или проблема У меня есть набор данных из 1000 записей с 512 разреженными признаками. Я хочу сгруппировать их. Я пытался использовать алгоритм k-means, но обнаружил, что кластеризация оказалась не очень хорошей, и я смотрел на другие методы кластеризации
Data Science
Вопрос или проблема Для неконтролируемой кластеризации текста ключевым моментом является начальноеembedding для текста. Если мы хотим использовать deepcluster для текста, проблема для текста заключается в том, как получить начальноеembedding из глубокой модели.
Data Science
Вопрос или проблема У меня есть набор данных с 19 тысячами наблюдений. Каждое из них имеет примерно 448 признаков: – Текстовое описание, переведенное в векторы размером 300 – 16 категориальных переменных, представленных числовым образом –
Data Science
Вопрос или проблема Я работаю с набором данных, который имеет достаточно наблюдений и около 10 переменных, половина переменных числовые другая половина переменных категориальные с 2-3 уровнями (демографические) одна переменная идентификатора одна последняя
Data Science
Вопрос или проблема У меня есть большой набор данных со смешанными (числовыми, категориальными, текстовыми) данными, которые мне нужно классифицировать. Кластеры хорошо определены, но многомерны (т.е. имеют векторное значение) и имеют различную структуру
Data Science
Вопрос или проблема У меня есть ненаправленный взвешенный граф, где веса рёбер представляют собой расстояния между узлами. Я хочу сгруппировать узлы графа, учитывая следующие правила/цели: Только узлы, которые напрямую соединены друг с другом, могут находиться в одной кластер, т.
Data Science
Вопрос или проблема Как я могу выполнить концептуальную кластеризацию в sklearn? Мой случай использования заключается в том, что у меня есть статьи из Википедии на английском языке, над которыми я занимаюсь несупервизионным обучением (tfidf -> усеченное
Data Science
Вопрос или проблема Я работаю над проектом кластеризации, в котором мой набор данных включает как традиционные переменные (числовые и категориальные признаки), так и встраивания нескольких переменных, сгенерированных моделями OpenAI. Моя цель –
Data Science
Кластеризация DBSCAN с использованием алгоритма классификации внутри каждого образованного кластера.
Вопрос или проблема Я использую алгоритм DBSCAN на данных “диабет индийцев пима”, но не могу правильно кластеризовать данные. Также я хочу использовать алгоритм классификации в каждом кластере и сравнить точность каждого кластера и предсказать большинство.
Data Science
Вопрос или проблема Я пытаюсь провести сегментацию клиентов на основе своих транзакционных данных и у меня возникают некоторые трудности с выбором наилучшего подхода. Поскольку это несупервизированная модель, я могу использовать любой алгоритм и получить
Data Science
Вопрос или проблема Мне нужно кластеризовать этот набор данных, в котором у меня есть дома и потребление воды в следующем виде: $$ House1 = (x_{1},x_{2}… x_{n});\\ House2 = (y_{1},y_{2}… y_{n});\\ House3 = (z_{1},z_{2}…
Data Science
Вопрос или проблема Я пытаюсь построить дентрограмму для кластеризации данных, но эта ошибка мешает мне. Мои данные здесь. Сначала я выбрал столбцы для работы: df_euro = pd.read_csv('https://assets.datacamp.com/production/repositories/655/datasets/2a1f3ab7bcc76eef1b8e1eb29afbd54c4ebf86f2/eurovision-2016.
Data Science
Вопрос или проблема Какие хорошие способы расширить модель машинного обучения новой классом без повторной маркировки всех предыдущих данных? Проблема с данными, представляющими классы, которые не были представлены во время контролируемого обучения Предположим
Data Science
Вопрос или проблема Как указано в заголовке, мне интересно, существует ли работа по достижению отбора признаков на основе кластера, к которому принадлежит точка данных (например, каждый кластер имеет свой набор выбранных признаков).
Data Science
Вопрос или проблема Какие существуют хорошие способы расширить модель машинного обучения новой классом без переобучения всех предыдущих данных? Проблема с данными, представляющими классы, которые не были представлены во время supervised обучения Предположим
Data Science
Вопрос или проблема Какие наборы данных используют такие сайты, как MeetGlimpse, trends.co, explodingtopics.com, чтобы обнаружить экспоненциальные рыночные тренды? Мне они нравятся (не аффилирован) и я хотел бы лучше понять, как они работают.