Data Science
Использование KNN для классификации инвентаря (физических товарных позиций) – это лучший способ?
00
Вопрос или проблема Я работаю над задачей машинного обучения, связанной с инвентаризацией (то есть физическим запасом в розничной торговле), однако в процессе очистки (удаления выбросов) некоторые товары (через соответствующие транзакции) будут удалены.
Data Science
Кластеризация без информации об идентификаторе
00
Вопрос или проблема У меня есть набор данных с различными продуктами и бинарным значением, было ли оно продано в магазине или нет. Он выглядит следующим образом: product_id store_1 store_2 store_3 store_4 store_5 store_6 A 1 0 0 1 0 1 B 1 1 0 0 1 0 Существует
Data Science
Как использовать scikit-learn для извлечения признаков из текста, если у меня есть только положительные и неразмеченные данные?
00
Вопрос или проблема Я ищу что-то похожее на это https://scikit-learn.org/stable/auto_examples/text/plot_document_classification_20newsgroups.html#sphx-glr-auto-examples-text-plot-document-classification-20newsgroups-py Но вместо положительных и отрицательных
Data Science
Создание дендрограмм онлайн с импортированным файлом CSV
00
Вопрос или проблема Существует ли сайт, который выполняет иерархическую кластеризацию на импортированном файле, таком как CSV, для генерации дендрограмм или матриц сходства? Бесплатные или платные — не имеет значения. Пока я нашел heatmapper.
Data Science
Обработка данных: Кластеризация на основе клик для сравнения в анализе социальных сетей
00
Вопрос или проблема Я совсем новичок в области добычи данных. Я хочу работать над методом кластеризации на основе клик. Я хочу провести сравнение между различными наборами данных для анализа социальных сетей или выявления сообществ в анализе социальных сетей.
Data Science
Агломеративная кластеризация с ограничениями на минимальный и максимальный размер кластеров
00
Вопрос или проблема Существуют ли пакеты Python, которые содержат алгоритмы агломеративной кластеризации с встроенными ограничениями на минимальный и максимальный размер кластеров? Я нашёл отличный пакет под названием KMeansConstrained, но, к сожалению
Data Science
Я хочу автоматизировать процесс перемещения файлов с похожими именами в отдельную папку.
00
Вопрос или проблема У меня есть список путей ко всем папкам в подпапке, и некоторые имена путей содержат слова “Chapetrs”, “Chapter”, “chapter” или даже “chaptser”. Я хочу обнаружить эти слова в путях и
Data Science
Как бы вы описали кластер 2 из этого вывода работы программы EM?
00
Вопрос или проблема Мое описание: Кластер 2 состоит из 9511 экземпляров, средний возраст составляет около 42 лет (колеблется от 29.7207 до 54.5257). Учитывая возраст, Кластер 2 хорошо отделен от Кластера 1, с расстоянием 18.9513.
Data Science
Определить членов, которые, вероятно, изменят место получения лекарственной терапии.
00
Вопрос или проблема У меня есть доступ к данным по медицинским выплатам от крупной страховой компании. Как некоторые из вас уже знают, существует большая разница в цене на препарат X в зависимости от места его применения. Наша компания хочет помочь участникам
Data Science
Лучшие методы стратификации данных на 4 группы (несупервизорным способом) с использованием набора/комбинации переменных.
00
Вопрос или проблема Я пытаюсь стратифицировать группу пациентов по возможным молекулярным подтипам рака. Я понимаю, что у всех этих пациентов есть рак, но целью является (вне зависимости от обучения) кластеризовать их на 4 возможных подтипа.
Data Science
Требуется ли масштабирование для таких наборов данных?
00
Вопрос или проблема У меня есть набор данных с такими характеристиками, как количество просмотров продукта (в сотнях тысяч), количество кликов по продуктам (в тысячах), коэффициент конверсии (в десятичном формате, например, 7,6%) и продажи (в сотнях).
Data Science
Как можно пересчитать метки AgglomerativeClustering?
00
Вопрос или проблема Я использую AgglomerativeClustering из scikit-learn на большом наборе данных. Я хотел бы изменить distance_threshold после того, как модель уже была вычислена. Вычисление модели выполняется медленно (квадратичное время), но переобчисление
Data Science
Закупка (со скидкой) продуктов, которые хотят клиенты
00
Вопрос или проблема Цель: сгенерировать список из 100 товаров по каждой категории (например, мода, электроника), которые команды должны закупить, сделать скидки и разместить на сайте в течение определенного периода. Вы можете предположить, что все клиенты
Data Science
лучшие алгоритмы для кластеризации клиентов, сегментация клиентов
00
Вопрос или проблема У меня есть набор данных, содержащий как категориальные, так и числовые переменные. Мне интересно, какие алгоритмы лучше всего подходят для кластеризации клиентов? Как найти скрытые паттерны, которые сегментируют клиента?