data-mining
Data Science
Вопрос или проблема Я работаю над созданием оценки риска на основе данных, где у меня есть переменные – сумма инвестиций, прибыль, возраст аккаунта в днях, общее количество торговых транзакций, прибыль на транзакцию и инвестиции на транзакцию.
Data Science
Вопрос или проблема У меня есть набор данных в формате (var1, var2, out), где упорядоченная пара <var1, var2> дает out. Большинство алгоритмов выявления частых паттернов, таких как алгоритмы Apriori и FP growth, не сохраняют порядок var1 и var2.
Data Science
Вопрос или проблема Мне нужно использовать расстояние Хеллингера для сравнения массивов, которые не одинаковой длины. Как правильно это сделать? Ставить ноль в отсутствующих полях для более короткого массива не кажется мне лучшим методом.
Data Science
Вопрос или проблема Я работаю с набором данных, который был закодирован и категоризирован, так что каждая точка данных имеет набор закодированных характеристик. Примером точки данных может быть что-то вроде следующего: Пример точки данных: Качество Обслуживание
Data Science
Вопрос или проблема Мне действительно нужно объяснение, я работаю над инструментом обнаружения кибербуллинга на основе обработки естественного языка (NLP), который я разверну в Интернете с использованием фреймворка Django, однако застрял на какой-то идее
Data Science
Вопрос или проблема Как вы передаете данные из хранилища данных в Python для ад-хок анализа? Моя повседневная работа заключается в ответах на ад-хок вопросы, и 95% необходимых мне данных находится в нашем хранилище данных. Я часто запрашиваю данные из
Data Science
Вопрос или проблема Данные наборы. Тестовый набор Место,цвет,Модель,Категория,Локация,вес,Разновидность,Материал,Объем 1,6,4,4,4,1,1,1,6 2,5,4,4,4,2,6,1,1 1,6,2,1,4,1,4,2,4 1,6,2,1,4,1,2,1,2 2,6,5,5,5,2,2,1,2 1,5,4,4,4,1,6,2,2 1,3,3,3,3,1,6,2,2 Обучающий
Data Science
Вопрос или проблема Проблема: Рассмотрите двумерные образы (2, 1), (3, 5), (4, 3), (5, 6), (6, 7), (7, 8). Вычислите главную компоненту, используя алгоритм PCA. Используйте алгоритм PCA для преобразования образа (2, 1) на собственный вектор.
Data Science
Вопрос или проблема Какой метод можно использовать для классификации данных в следующем примере? Есть таблица (сотни строк и сотни столбцов). Несколько столбцов в этой таблице уникально позволяют классифицировать каждую строку: Класс 0: …шумные биты…00…шумные
Data Science
Вопрос или проблема Я ищу корпус компьютерных наук, специфичный для домена, содержащий не менее 20 миллионов слов (предпочтительно больше 50 миллионов слов), для обучения языковой модели. Есть ли что-то готовое, что я мог бы использовать?
Data Science
Вопрос или проблема У меня есть два набора данных: один – это кросс-секционные данные переписи населения с интервалом в 10 лет, а другой – это временные ряды (ежемесячные) за несколько лет. Теперь я хочу провести статистический анализ временных
Data Science
Вопрос или проблема Если fcam=3, будет ли условное fp-дерево все равно c=4 или что-то другое? Я предполагаю, что это должно быть f=3, c=4, a=3, m=3. Я прав? Или что-то другое? Пожалуйста, подскажите. Также, на этой ниже приведенной фигуре (та же фигура
Data Science
Вопрос или проблема Закрыто. Этот вопрос не по теме. В настоящее время он не принимает ответы. Этот вопрос, похоже, не относится к науке о данных, в рамках, определенном в центре помощи. Закрыто 6 лет назад. Улучшить этот вопрос Мой вопрос: есть ли способ
Data Science
Вопрос или проблема У меня есть вопрос о моделировании данных в Python. Я занимаюсь классификацией несбалансированных данных и хочу протестировать эффективность различных методов на смоделированных данных. Я видел в различных статьях и книгах, что функция
Data Science
Вопрос или проблема Я пытаюсь использовать виджеты из Orange Data Mining в практическом мире. Когда вы используете Data Info в наборе данных Orange Data Mining? Поздравляю с тем, что вы начали работать с реальными данными в области науки о данных!
Data Science
Вопрос или проблема У меня есть файлы json, каждый из которых помечен конкретной меткой от A до C. Ниже приведен образец выходного JSON-файла. Каждый json-файл имеет: p = количество процессов metric = время выполнения (в данных это метрика) callpath представляет
Data Science
Вопрос или проблема У меня есть данные о покупках клиентов, в которых каждая строка указывает на товар, купленный клиентом. Проблема в том, что даже если клиент одновременно покупает пять товаров, то для этого будет пять разных строк, и в результате общее
Data Science
Вопрос или проблема Я подумываю о том, чтобы реализовать теггер частей речи самостоятельно. Теггер частей речи извлекает синтаксическую роль слова в предложении. Согласно моим исследованиям, сопоставление слов — это техника для анализа их совпадений
Data Science
Вопрос или проблема У меня есть данные о мешке слов в документе. Данные содержат 3 столбца: {номер документа, номер слова, количество слова в номере}. Я должен сгенерировать частые наборы элементов заданного размера. Я подумал, что сделаю список всех
Data Science
Вопрос или проблема Алгоритм FP-Growth находит частые наборы предметов, т.е. он не ищет шаблоны по предметам. Если я хочу найти ВСЕ частые наборы предметов для данного элемента, я могу использовать свойство nodelink, чтобы пройти по всем путям в fp-дереве