k-means
Data Science
Вопрос или проблема Я совсем нов в машинном обучении, недавно я реализовал сферические k-средние, но в конечном итоге нашел интересный момент в результате. Я использовал четыре набора данных: MINST, CIFAR-10, Fashion-MNST и SVHN. Я следовал статье “
Data Science
Вопрос или проблема Я работаю в компании, которая продает различные продукты клиентам. Моя задача – найти клиентов, которые, вероятно, купят продукт X, основываясь на профилях клиентов, уже купивших продукт X. Моя первая идея заключалась в следующем
Data Science
Вопрос или проблема Я хочу применить неконтролируемую кластеризацию к набору данных, где каждое наблюдение имеет смесь текстовых и нетекстовых признаков. Для каждого наблюдения я комбинирую признаки в один вектор размерностью ~1000.
Data Science
Вопрос или проблема Я ищу реализацию k-модов на pyspark. Я нашел это и это как реализации. Сначала я пытался реализовать k-моды, используя первую ссылку, и столкнулся с проблемами. Поэтому я попробовал вторую реализацию на github.
Data Science
Вопрос или проблема Я пытаюсь обдумать свой процесс, прежде чем начать какое-либо реальное программирование. Однако я легко запутался. Предположим, у меня есть 100 инструментов, и я знаю их ценовые колебания каждый день в течение года.
Data Science
Вопрос или проблема Кто-нибудь добивался успеха в построении моделей с использованием KMeans для классификации? У меня есть изображения, которые имеют только один слой, и это продолжает не удаваться. Я предполагаю, что проблема связана как с размером
Data Science
Вопрос или проблема Я вижу, что авторы этой статьи измеряют F1 и NMI для оценки качества кластеризации. Однако я не понимаю алгоритм, как именно они это измеряют. Смотрите раздел Оценка. Хотя я посмотрел на код, я не уверен в самом алгоритме.
Data Science
Вопрос или проблема У меня есть набор данных, который содержит примерно 15 признаков. С помощью метода локтя я выяснил, что оптимальное количество кластеров, вероятно, равно четырем. Поэтому я применил алгоритм K-средних с четырьмя кластерами.
Data Science
Вопрос или проблема Недавно я получил рукопись для рецензирования, в которой автор использовал ~1000 “фальшивых” данных, чтобы окончательный центроид K-средних оставался в требуемом диапазоне. Ни у меня, ни у автора, похоже, нет опыта в области
Data Science
Вопрос или проблема Я пытаюсь провести сегментацию клиентов на основе своих транзакционных данных и у меня возникают некоторые трудности с выбором наилучшего подхода. Поскольку это несупервизированная модель, я могу использовать любой алгоритм и получить
Data Science
Вопрос или проблема Мне нужно кластеризовать этот набор данных, в котором у меня есть дома и потребление воды в следующем виде: $$ House1 = (x_{1},x_{2}… x_{n});\\ House2 = (y_{1},y_{2}… y_{n});\\ House3 = (z_{1},z_{2}…
Data Science
Вопрос или проблема Я работаю над кластеризацией клиентской базы компании, занимающейся бизнесом между организациями. У меня есть данные о клиентах, которые состоят как из числовых (например, количество покупок, средние расходы за покупку), так и из категориальных
Data Science
Вопрос или проблема У меня есть несколько файлов CSV, каждый из которых содержит не менее 200 МБ данных по 12 столбцам. Каждый CSV файл, возможно, может принадлежать к 4 категориям или меткам. Я пытаюсь выяснить, в какие кластеры попадает каждый из этих файлов.
Data Science
Вопрос или проблема Я пока только знакомлюсь с основами машинного обучения и хочу сравнить результаты контролируемого алгоритма (KNN) и неконтролируемого алгоритма (k-means) в контексте выявления сетевых атак типа DOS. Я застрял на том, как мои данные
Data Science
Вопрос или проблема У меня есть список путей ко всем папкам в подпапке, и некоторые имена путей содержат слова “Chapetrs”, “Chapter”, “chapter” или даже “chaptser”. Я хочу обнаружить эти слова в путях и
Data Science
Вопрос или проблема У меня есть набор данных, содержащий как категориальные, так и числовые переменные. Мне интересно, какие алгоритмы лучше всего подходят для кластеризации клиентов? Как найти скрытые паттерны, которые сегментируют клиента?