data-mining
Data Science
Вопрос или проблема Алгоритм FP-Growth находит частые наборы предметов, т.е. он не ищет шаблоны по предметам. Если я хочу найти ВСЕ частые наборы предметов для данного элемента, я могу использовать свойство nodelink, чтобы пройти по всем путям в fp-дереве
Data Science
Вопрос или проблема Я пытаюсь понять алгоритм DHP (Прямое хеширование и отсечение), и я застрял на объяснении выбора числа для операции взятия по модулю. В статье показан пример использования хеш-функции на странице 7: h{{x y}) = ((порядок x)*10 + (порядок
Data Science
Вопрос или проблема Я начинаю проект в области машинного обучения, который требует обширного набора данных о деталях автомобилей. Цель состоит в том, чтобы обучить модель, которая сможет идентифицировать и классифицировать различные автомобильные детали
Data Science
Вопрос или проблема Существует ли стандартный способ проведения анализа данных? Например, что-то вроде этого: 1. Добыча данных 2. Очистка данных 3. xx 4. Интерпретация данных и результатов Я спрашиваю это, потому что хотел бы сделать это для статьи, которая
Data Science
Вопрос или проблема В ‘Автоматическом построении лексиконов, таксономий, онтологий и других структур знаний’ упоминается; Существует два немного разных класса измерений: лексическая связанность (иногда называемая ‘унитностью’ или ‘фразовостью’)
Data Science
Вопрос или проблема Я пытаюсь использовать minhash для генерации кластеров и определения сходств, и в основном полагаюсь на идеи из этих источников. http://www2007.org/papers/paper570.pdf https://chrisjmccormick.wordpress.com/2015/06/12/minhash-tutorial-with-python-code/
Data Science
Вопрос или проблема Как я могу сравнить данные за два квартала? Какое программное обеспечение я могу использовать, чтобы сделать это параллельно, сравнивая их бок о бок? Какие факторы я могу учесть, я прикрепляю пример изображения набора данных Я не уверен
Data Science
Вопрос или проблема В Rapidminer, веса дерева решений являются мерой “важности” атрибутов в процессе разбиения? Если да, то почему полезно знать эти веса? Есть ли лучшие методы для определения наиболее дискриминантных признаков в наборе данных?
Data Science
Вопрос или проблема У меня есть простой набор данных, к которому я хотел бы применить дискретизацию по энтропии. Программа должна дискретизировать атрибут на основе следующих критериев: Когда истинно одно из условий “a”
Data Science
Вопрос или проблема Я пытаюсь проанализировать поведение, называемое “сентиментальный переворот” пользователей в наборе данных, но не могу к этому прийти. Предположим, что у меня есть две группы пользователей: хороших и плохих пользователей.
Data Science
Вопрос или проблема У меня есть данные, собранные из компьютерной симуляции футбольных матчей, которые, похоже, имеют повторяющиеся паттерны следующего типа. если мадрид играет с арсеналом и матч заканчивается менее чем на 3 гола, то в следующем матче
Data Science
Вопрос или проблема У меня есть данные, похожие на рейтинги фильмов, и метки расположены в порядке, например, от 1 до 10. Поскольку целевая метка не является номинальной, а порядковой переменной, какие типы моделей мне следует использовать для классификации таких данных?
Data Science
Вопрос или проблема Я получил это как задание от рекрутера и успешно собрал датасет из примерно 650 фильмов с их разделами «Сюжет», «Музыка» и «Маркетинг», а также кассовыми сборами. Я попробовал tfidf и count векторизаторы и выполнил LSA/PCA для уменьшения
Data Science
Вопрос или проблема Я пытаюсь предсказать значения в столбце ёмкости, однако каждая точка данных состоит из нескольких данных. Каждая точка данных представляет данные цикла. Каждый цикл имеет емкость. Каждый цикл работает в течение некоторого времени
Data Science
Вопрос или проблема Четвёртый набор данных содержит (train_data, test_data, previous_data и information_history_data). Цель состоит в том, чтобы найти рейтинг пользователя по кредиту в банке. Я запутался с первым шагом в этом процессе, потому что существует
Data Science
Вопрос или проблема Задача состоит в том, чтобы смоделировать, влияет ли последовательность событий на вероятность бинарной целевой переменной. У нас есть, например, пять различных событий, которые происходят во времени (события: A, B, C, D, E).
Data Science
Вопрос или проблема У меня есть набор библиометрических данных (ссылок). Я хочу извлечь имена авторов, названия и названия конференции/журнала из них. Поскольку стиль ссылок, используемый в разных статьях, варьируется, меня интересует, существуют ли уже
Data Science
Вопрос или проблема Я совсем новичок в области добычи данных. Я хочу работать над методом кластеризации на основе клик. Я хочу провести сравнение между различными наборами данных для анализа социальных сетей или выявления сообществ в анализе социальных сетей.
Data Science
Вопрос или проблема Я пытаюсь построить график загрузок PCA против спектров. Пока я могу получить координаты PCA для каждого наблюдения. В инструкции я видел, что существует виджет под названием кривые для этого. Он делает именно то, что мне нужно, но
Data Science
Вопрос или проблема Я хотел бы использовать Orange для создания модели, которая позволит мне предсказать будущие скорости WiFi, используя среднюю квартальную скорость WiFi за последние несколько лет. Наборы данных, которые я использую, включают среднюю