data-mining
Data Science
Вопрос или проблема У меня есть два набора данных: один – это кросс-секционные данные переписи населения с интервалом в 10 лет, а другой – это временные ряды (ежемесячные) за несколько лет. Теперь я хочу провести статистический анализ временных
Data Science
Вопрос или проблема Если fcam=3, будет ли условное fp-дерево все равно c=4 или что-то другое? Я предполагаю, что это должно быть f=3, c=4, a=3, m=3. Я прав? Или что-то другое? Пожалуйста, подскажите. Также, на этой ниже приведенной фигуре (та же фигура
Data Science
Вопрос или проблема Закрыто. Этот вопрос не по теме. В настоящее время он не принимает ответы. Этот вопрос, похоже, не относится к науке о данных, в рамках, определенном в центре помощи. Закрыто 6 лет назад. Улучшить этот вопрос Мой вопрос: есть ли способ
Data Science
Вопрос или проблема У меня есть вопрос о моделировании данных в Python. Я занимаюсь классификацией несбалансированных данных и хочу протестировать эффективность различных методов на смоделированных данных. Я видел в различных статьях и книгах, что функция
Data Science
Вопрос или проблема Я пытаюсь использовать виджеты из Orange Data Mining в практическом мире. Когда вы используете Data Info в наборе данных Orange Data Mining? Поздравляю с тем, что вы начали работать с реальными данными в области науки о данных!
Data Science
Вопрос или проблема У меня есть файлы json, каждый из которых помечен конкретной меткой от A до C. Ниже приведен образец выходного JSON-файла. Каждый json-файл имеет: p = количество процессов metric = время выполнения (в данных это метрика) callpath представляет
Data Science
Вопрос или проблема У меня есть данные о покупках клиентов, в которых каждая строка указывает на товар, купленный клиентом. Проблема в том, что даже если клиент одновременно покупает пять товаров, то для этого будет пять разных строк, и в результате общее
Data Science
Вопрос или проблема Я подумываю о том, чтобы реализовать теггер частей речи самостоятельно. Теггер частей речи извлекает синтаксическую роль слова в предложении. Согласно моим исследованиям, сопоставление слов — это техника для анализа их совпадений
Data Science
Вопрос или проблема У меня есть данные о мешке слов в документе. Данные содержат 3 столбца: {номер документа, номер слова, количество слова в номере}. Я должен сгенерировать частые наборы элементов заданного размера. Я подумал, что сделаю список всех
Data Science
Вопрос или проблема Алгоритм FP-Growth находит частые наборы предметов, т.е. он не ищет шаблоны по предметам. Если я хочу найти ВСЕ частые наборы предметов для данного элемента, я могу использовать свойство nodelink, чтобы пройти по всем путям в fp-дереве
Data Science
Вопрос или проблема Я пытаюсь понять алгоритм DHP (Прямое хеширование и отсечение), и я застрял на объяснении выбора числа для операции взятия по модулю. В статье показан пример использования хеш-функции на странице 7: h{{x y}) = ((порядок x)*10 + (порядок
Data Science
Вопрос или проблема Я начинаю проект в области машинного обучения, который требует обширного набора данных о деталях автомобилей. Цель состоит в том, чтобы обучить модель, которая сможет идентифицировать и классифицировать различные автомобильные детали
Data Science
Вопрос или проблема Существует ли стандартный способ проведения анализа данных? Например, что-то вроде этого: 1. Добыча данных 2. Очистка данных 3. xx 4. Интерпретация данных и результатов Я спрашиваю это, потому что хотел бы сделать это для статьи, которая
Data Science
Вопрос или проблема В ‘Автоматическом построении лексиконов, таксономий, онтологий и других структур знаний’ упоминается; Существует два немного разных класса измерений: лексическая связанность (иногда называемая ‘унитностью’ или ‘фразовостью’)
Data Science
Вопрос или проблема Я пытаюсь использовать minhash для генерации кластеров и определения сходств, и в основном полагаюсь на идеи из этих источников. http://www2007.org/papers/paper570.pdf https://chrisjmccormick.wordpress.com/2015/06/12/minhash-tutorial-with-python-code/
Data Science
Вопрос или проблема Как я могу сравнить данные за два квартала? Какое программное обеспечение я могу использовать, чтобы сделать это параллельно, сравнивая их бок о бок? Какие факторы я могу учесть, я прикрепляю пример изображения набора данных Я не уверен
Data Science
Вопрос или проблема В Rapidminer, веса дерева решений являются мерой “важности” атрибутов в процессе разбиения? Если да, то почему полезно знать эти веса? Есть ли лучшие методы для определения наиболее дискриминантных признаков в наборе данных?
Data Science
Вопрос или проблема У меня есть простой набор данных, к которому я хотел бы применить дискретизацию по энтропии. Программа должна дискретизировать атрибут на основе следующих критериев: Когда истинно одно из условий “a”
Data Science
Вопрос или проблема Я пытаюсь проанализировать поведение, называемое “сентиментальный переворот” пользователей в наборе данных, но не могу к этому прийти. Предположим, что у меня есть две группы пользователей: хороших и плохих пользователей.
Data Science
Вопрос или проблема У меня есть данные, собранные из компьютерной симуляции футбольных матчей, которые, похоже, имеют повторяющиеся паттерны следующего типа. если мадрид играет с арсеналом и матч заканчивается менее чем на 3 гола, то в следующем матче