data-mining - ответы на вопросы - Page 2 of 4

Data Science

Извлечение ключевых слов из pdf-файла с помощью Python

02

Вопрос или проблема У меня есть pdf файл (ссылка ниже). Мне нужно извлечь из него ключевые слова, а также узнать их частоту в pdf файле. Например, 'Java':42, 'наследование':3. Мне нужно сохранить ключевые слова с их весами в excel таблице.

Data Science

Хадуп, Спарк и Облако

00

Вопрос или проблема Похоже, Hadoop, Spark и разные версии облаков предлагают возможности для хранения и анализа больших данных. Существуют статьи, сравнивающие Hadoop и Spark (например, эта статья). Также есть статьи, которые обсуждают сервисы на AWS

Data Science

Как я могу убедиться в своем значении R^2?

00

Вопрос или проблема У меня есть набор данных с 10 столбцами и 158 строками. Я пытаюсь предсказать мой тестовый набор данных, который состоит из 1 столбца и 158 строк. Я провел кросс-валидации, поиск по сетке и использовал алгоритм ElasticNet.

Data Science

Инсайты между двумя столбцами/переменными в Dataframe

00

Вопрос или проблема У меня есть данные в двух колонках: одна – диапазон старого кредитного рейтинга (диапазон входных оценок) и новая кредитная оценка (cvsc100). Как мне получить информацию из обоих? Где старый – это диапазон значений, а другая колонка –

Data Science

Может ли таблица фактов иметь отношение 1:1 с таблицей измерений?

00

Вопрос или проблема Я пытаюсь создать небольшую таблицу фактов в области здравоохранения с следующей информацией [patientid], [organid], [value] Каждый [patientid] уникален для этого пациента, но в системе доступно только 10 [organid] (сердце, левое легкое

Data Science

Использование iGraph для создания модели распределения

00

Вопрос или проблема Я хотел бы проанализировать распределение клиентов магазина, если магазин закрыт или прекращен. Рассмотрим следующие примерные данные; | ShopID | MonthlyCVisitCount | Lat | Lng | -------------------------------------------------------- | A1 | 15000 | 39.

Data Science

Создание RiskScore на числовых данных

00

Вопрос или проблема Я работаю над созданием оценки риска на основе данных, где у меня есть переменные – сумма инвестиций, прибыль, возраст аккаунта в днях, общее количество торговых транзакций, прибыль на транзакцию и инвестиции на транзакцию.

Data Science

Какой алгоритм добычи данных или машинного обучения будет подходящим для изучения упорядоченных частых паттернов?

00

Вопрос или проблема У меня есть набор данных в формате (var1, var2, out), где упорядоченная пара <var1, var2> дает out. Большинство алгоритмов выявления частых паттернов, таких как алгоритмы Apriori и FP growth, не сохраняют порядок var1 и var2.

Data Science

Как я могу использовать расстояние Хеллингера на массивах разной длины?

01

Вопрос или проблема Мне нужно использовать расстояние Хеллингера для сравнения массивов, которые не одинаковой длины. Как правильно это сделать? Ставить ноль в отсутствующих полях для более короткого массива не кажется мне лучшим методом.

Data Science

Какие алгоритмы я должен использовать для определения схожих характеристик между данными (пересечения)?

00

Вопрос или проблема Я работаю с набором данных, который был закодирован и категоризирован, так что каждая точка данных имеет набор закодированных характеристик. Примером точки данных может быть что-то вроде следующего: Пример точки данных: Качество Обслуживание

Data Science

Какова основная концепция использования лексического, лингвистического, семантического или синтаксического подхода в обработке естественного языка для борьбы с кибербуллингом?

00

Вопрос или проблема Мне действительно нужно объяснение, я работаю над инструментом обнаружения кибербуллинга на основе обработки естественного языка (NLP), который я разверну в Интернете с использованием фреймворка Django, однако застрял на какой-то идее

Data Science

Процесс анализа данных

00

Вопрос или проблема Как вы передаете данные из хранилища данных в Python для ад-хок анализа? Моя повседневная работа заключается в ответах на ад-хок вопросы, и 95% необходимых мне данных находится в нашем хранилище данных. Я часто запрашиваю данные из

Data Science

Как вычислить информацию, переданную в сообщении для данной выборки данных

00

Вопрос или проблема Данные наборы. Тестовый набор Место,цвет,Модель,Категория,Локация,вес,Разновидность,Материал,Объем 1,6,4,4,4,1,1,1,6 2,5,4,4,4,2,6,1,1 1,6,2,1,4,1,4,2,4 1,6,2,1,4,1,2,1,2 2,6,5,5,5,2,2,1,2 1,5,4,4,4,1,6,2,2 1,3,3,3,3,1,6,2,2 Обучающий

Data Science

Почему я получаю другой ответ в методе главных компонент для уменьшения размерности?

00

Вопрос или проблема Проблема: Рассмотрите двумерные образы (2, 1), (3, 5), (4, 3), (5, 6), (6, 7), (7, 8). Вычислите главную компоненту, используя алгоритм PCA. Используйте алгоритм PCA для преобразования образа (2, 1) на собственный вектор.

Data Science

Классификация шумных данных

00

Вопрос или проблема Какой метод можно использовать для классификации данных в следующем примере? Есть таблица (сотни строк и сотни столбцов). Несколько столбцов в этой таблице уникально позволяют классифицировать каждую строку: Класс 0: …шумные биты…00…шумные

Data Science

Корпус компьютерных наук для обучения языковой модели

00

Вопрос или проблема Я ищу корпус компьютерных наук, специфичный для домена, содержащий не менее 20 миллионов слов (предпочтительно больше 50 миллионов слов), для обучения языковой модели. Есть ли что-то готовое, что я мог бы использовать?

Data Science

Какой анализ временных рядов подходит для анализа совокупных временных рядов?

00

Вопрос или проблема У меня есть два набора данных: один – это кросс-секционные данные переписи населения с интервалом в 10 лет, а другой – это временные ряды (ежемесячные) за несколько лет. Теперь я хочу провести статистический анализ временных

Data Science

Недоразумения о числовом росте fp-дерева:

00

Вопрос или проблема Если fcam=3, будет ли условное fp-дерево все равно c=4 или что-то другое? Я предполагаю, что это должно быть f=3, c=4, a=3, m=3. Я прав? Или что-то другое? Пожалуйста, подскажите. Также, на этой ниже приведенной фигуре (та же фигура

Data Science

Есть ли способ использовать Orange Data Mining на удалённом сервере или в облаке? [закрыто]

01

Вопрос или проблема Закрыто. Этот вопрос не по теме. В настоящее время он не принимает ответы. Этот вопрос, похоже, не относится к науке о данных, в рамках, определенном в центре помощи. Закрыто 6 лет назад. Улучшить этот вопрос Мой вопрос: есть ли способ

Data Science

Симуляция данных с использованием make_classification в Python

00

Вопрос или проблема У меня есть вопрос о моделировании данных в Python. Я занимаюсь классификацией несбалансированных данных и хочу протестировать эффективность различных методов на смоделированных данных. Я видел в различных статьях и книгах, что функция