Data Science
Группировка/кластеризация похожих слов на Python
00
Вопрос или проблема У меня есть вопрос относительно группировки схожих слов, например, у меня есть список слов, приведенный ниже: искусственныйинтеллект Искусственный Интеллект ИИ Машинное Обучение МО Аналитика Данных Данные и Аналитика Я хочу сгруппировать
Data Science
Как я могу уменьшить количество измерений, используя алгоритм кластеризации в смешанном наборе данных?
00
Вопрос или проблема Я работаю с смешанным набором данных, который соответствует данным о потреблении ТВ, с целью сократить количество признаков до только тех, которые имеют отношение к выявлению паттернов потребления ТВ (или групп потребления) с использованием кластеризации.
Data Science
Как измерить F1-меру и NMI для задачи кластеризации?
00
Вопрос или проблема Я вижу, что авторы этой статьи измеряют F1 и NMI для оценки качества кластеризации. Однако я не понимаю алгоритм, как именно они это измеряют. Смотрите раздел Оценка. Хотя я посмотрел на код, я не уверен в самом алгоритме.
Data Science
Найдите общие свойства кластерных образцов.
00
Вопрос или проблема У меня есть набор данных, который содержит примерно 15 признаков. С помощью метода локтя я выяснил, что оптимальное количество кластеров, вероятно, равно четырем. Поэтому я применил алгоритм K-средних с четырьмя кластерами.
Data Science
Кластеризация для разреженной матрицы данных высокой размерности
00
Вопрос или проблема У меня есть набор данных из 1000 записей с 512 разреженными признаками. Я хочу сгруппировать их. Я пытался использовать алгоритм k-means, но обнаружил, что кластеризация оказалась не очень хорошей, и я смотрел на другие методы кластеризации
Data Science
Способ инициализации векторного представления предложений для несп supervised кластеризации текста, лучше чем GloVe wordvec?
00
Вопрос или проблема Для неконтролируемой кластеризации текста ключевым моментом является начальноеembedding для текста. Если мы хотим использовать deepcluster для текста, проблема для текста заключается в том, как получить начальноеembedding из глубокой модели.
Data Science
МЛ-подход для получения списка наблюдений с похожими признаками (дискретные + непрерывные)
00
Вопрос или проблема У меня есть набор данных с 19 тысячами наблюдений. Каждое из них имеет примерно 448 признаков: – Текстовое описание, переведенное в векторы размером 300 – 16 категориальных переменных, представленных числовым образом –
Data Science
Как решить, кого продвигать? Кластеризация или дерево решений?
00
Вопрос или проблема Я работаю с набором данных, который имеет достаточно наблюдений и около 10 переменных, половина переменных числовые другая половина переменных категориальные с 2-3 уровнями (демографические) одна переменная идентификатора одна последняя
Data Science
Классификация многомерных данных в многомерные кластеры с изменяющейся структурой подкластеров.
00
Вопрос или проблема У меня есть большой набор данных со смешанными (числовыми, категориальными, текстовыми) данными, которые мне нужно классифицировать. Кластеры хорошо определены, но многомерны (т.е. имеют векторное значение) и имеют различную структуру
Data Science
Кластеризация неориентированного взвешенного графа с ограничениями на связность
00
Вопрос или проблема У меня есть ненаправленный взвешенный граф, где веса рёбер представляют собой расстояния между узлами. Я хочу сгруппировать узлы графа, учитывая следующие правила/цели: Только узлы, которые напрямую соединены друг с другом, могут находиться в одной кластер, т.
Data Science
Концептуальная кластеризация с использованием sklearn?
00
Вопрос или проблема Как я могу выполнить концептуальную кластеризацию в sklearn? Мой случай использования заключается в том, что у меня есть статьи из Википедии на английском языке, над которыми я занимаюсь несупервизионным обучением (tfidf -> усеченное
Data Science
Как выполнять кластеризацию с использованием эмбеддингов OpenAI наряду с другими переменными?
00
Вопрос или проблема Я работаю над проектом кластеризации, в котором мой набор данных включает как традиционные переменные (числовые и категориальные признаки), так и встраивания нескольких переменных, сгенерированных моделями OpenAI. Моя цель –
Data Science
Кластеризация DBSCAN с использованием алгоритма классификации внутри каждого образованного кластера.
00
Вопрос или проблема Я использую алгоритм DBSCAN на данных “диабет индийцев пима”, но не могу правильно кластеризовать данные. Также я хочу использовать алгоритм классификации в каждом кластере и сравнить точность каждого кластера и предсказать большинство.
Data Science
Сегментация клиентов с несбалансированными данными
00
Вопрос или проблема Я пытаюсь провести сегментацию клиентов на основе своих транзакционных данных и у меня возникают некоторые трудности с выбором наилучшего подхода. Поскольку это несупервизированная модель, я могу использовать любой алгоритм и получить
Data Science
Кластеризация набора элементов с элементами в виде векторов признаков
00
Вопрос или проблема Мне нужно кластеризовать этот набор данных, в котором у меня есть дома и потребление воды в следующем виде: $$ House1 = (x_{1},x_{2}… x_{n});\\ House2 = (y_{1},y_{2}… y_{n});\\ House3 = (z_{1},z_{2}…
Data Science
Дендограмма: ValueError: Истинностное значение серии неоднозначно. Используйте a.empty, a.bool(), a.item(), a.any() или a.all()
00
Вопрос или проблема Я пытаюсь построить дентрограмму для кластеризации данных, но эта ошибка мешает мне. Мои данные здесь. Сначала я выбрал столбцы для работы: df_euro = pd.read_csv('https://assets.datacamp.com/production/repositories/655/datasets/2a1f3ab7bcc76eef1b8e1eb29afbd54c4ebf86f2/eurovision-2016.
Data Science
Применение модели к невидимым данным
00
Вопрос или проблема Какие хорошие способы расширить модель машинного обучения новой классом без повторной маркировки всех предыдущих данных? Проблема с данными, представляющими классы, которые не были представлены во время контролируемого обучения Предположим
Data Science
Глубокий выбор признаков, специфичных для кластеров
00
Вопрос или проблема Как указано в заголовке, мне интересно, существует ли работа по достижению отбора признаков на основе кластера, к которому принадлежит точка данных (например, каждый кластер имеет свой набор выбранных признаков).
Data Science
Применение модели к невидимым данным (теоретический вопрос)
00
Вопрос или проблема Какие существуют хорошие способы расширить модель машинного обучения новой классом без переобучения всех предыдущих данных? Проблема с данными, представляющими классы, которые не были представлены во время supervised обучения Предположим
Data Science
Какие наборы данных помогут предсказать (экспоненциальные) рыночные тренды?
00
Вопрос или проблема Какие наборы данных используют такие сайты, как MeetGlimpse, trends.co, explodingtopics.com, чтобы обнаружить экспоненциальные рыночные тренды? Мне они нравятся (не аффилирован) и я хотел бы лучше понять, как они работают.