data-mining
Data Science
Вопрос или проблема У меня есть pdf файл (ссылка ниже). Мне нужно извлечь из него ключевые слова, а также узнать их частоту в pdf файле. Например, 'Java':42, 'наследование':3. Мне нужно сохранить ключевые слова с их весами в excel таблице.
Data Science
Вопрос или проблема Похоже, Hadoop, Spark и разные версии облаков предлагают возможности для хранения и анализа больших данных. Существуют статьи, сравнивающие Hadoop и Spark (например, эта статья). Также есть статьи, которые обсуждают сервисы на AWS
Data Science
Вопрос или проблема У меня есть набор данных с 10 столбцами и 158 строками. Я пытаюсь предсказать мой тестовый набор данных, который состоит из 1 столбца и 158 строк. Я провел кросс-валидации, поиск по сетке и использовал алгоритм ElasticNet.
Data Science
Вопрос или проблема У меня есть данные в двух колонках: одна – диапазон старого кредитного рейтинга (диапазон входных оценок) и новая кредитная оценка (cvsc100). Как мне получить информацию из обоих? Где старый – это диапазон значений, а другая колонка –
Data Science
Вопрос или проблема Я пытаюсь создать небольшую таблицу фактов в области здравоохранения с следующей информацией [patientid], [organid], [value] Каждый [patientid] уникален для этого пациента, но в системе доступно только 10 [organid] (сердце, левое легкое
Data Science
Вопрос или проблема Я хотел бы проанализировать распределение клиентов магазина, если магазин закрыт или прекращен. Рассмотрим следующие примерные данные; | ShopID | MonthlyCVisitCount | Lat | Lng | -------------------------------------------------------- | A1 | 15000 | 39.
Data Science
Вопрос или проблема Я работаю над созданием оценки риска на основе данных, где у меня есть переменные – сумма инвестиций, прибыль, возраст аккаунта в днях, общее количество торговых транзакций, прибыль на транзакцию и инвестиции на транзакцию.
Data Science
Вопрос или проблема У меня есть набор данных в формате (var1, var2, out), где упорядоченная пара <var1, var2> дает out. Большинство алгоритмов выявления частых паттернов, таких как алгоритмы Apriori и FP growth, не сохраняют порядок var1 и var2.
Data Science
Вопрос или проблема Мне нужно использовать расстояние Хеллингера для сравнения массивов, которые не одинаковой длины. Как правильно это сделать? Ставить ноль в отсутствующих полях для более короткого массива не кажется мне лучшим методом.
Data Science
Вопрос или проблема Я работаю с набором данных, который был закодирован и категоризирован, так что каждая точка данных имеет набор закодированных характеристик. Примером точки данных может быть что-то вроде следующего: Пример точки данных: Качество Обслуживание
Data Science
Вопрос или проблема Мне действительно нужно объяснение, я работаю над инструментом обнаружения кибербуллинга на основе обработки естественного языка (NLP), который я разверну в Интернете с использованием фреймворка Django, однако застрял на какой-то идее
Data Science
Вопрос или проблема Как вы передаете данные из хранилища данных в Python для ад-хок анализа? Моя повседневная работа заключается в ответах на ад-хок вопросы, и 95% необходимых мне данных находится в нашем хранилище данных. Я часто запрашиваю данные из
Data Science
Вопрос или проблема Данные наборы. Тестовый набор Место,цвет,Модель,Категория,Локация,вес,Разновидность,Материал,Объем 1,6,4,4,4,1,1,1,6 2,5,4,4,4,2,6,1,1 1,6,2,1,4,1,4,2,4 1,6,2,1,4,1,2,1,2 2,6,5,5,5,2,2,1,2 1,5,4,4,4,1,6,2,2 1,3,3,3,3,1,6,2,2 Обучающий
Data Science
Вопрос или проблема Проблема: Рассмотрите двумерные образы (2, 1), (3, 5), (4, 3), (5, 6), (6, 7), (7, 8). Вычислите главную компоненту, используя алгоритм PCA. Используйте алгоритм PCA для преобразования образа (2, 1) на собственный вектор.
Data Science
Вопрос или проблема Какой метод можно использовать для классификации данных в следующем примере? Есть таблица (сотни строк и сотни столбцов). Несколько столбцов в этой таблице уникально позволяют классифицировать каждую строку: Класс 0: …шумные биты…00…шумные
Data Science
Вопрос или проблема Я ищу корпус компьютерных наук, специфичный для домена, содержащий не менее 20 миллионов слов (предпочтительно больше 50 миллионов слов), для обучения языковой модели. Есть ли что-то готовое, что я мог бы использовать?
Data Science
Вопрос или проблема У меня есть два набора данных: один – это кросс-секционные данные переписи населения с интервалом в 10 лет, а другой – это временные ряды (ежемесячные) за несколько лет. Теперь я хочу провести статистический анализ временных
Data Science
Вопрос или проблема Если fcam=3, будет ли условное fp-дерево все равно c=4 или что-то другое? Я предполагаю, что это должно быть f=3, c=4, a=3, m=3. Я прав? Или что-то другое? Пожалуйста, подскажите. Также, на этой ниже приведенной фигуре (та же фигура
Data Science
Вопрос или проблема Закрыто. Этот вопрос не по теме. В настоящее время он не принимает ответы. Этот вопрос, похоже, не относится к науке о данных, в рамках, определенном в центре помощи. Закрыто 6 лет назад. Улучшить этот вопрос Мой вопрос: есть ли способ
Data Science
Вопрос или проблема У меня есть вопрос о моделировании данных в Python. Я занимаюсь классификацией несбалансированных данных и хочу протестировать эффективность различных методов на смоделированных данных. Я видел в различных статьях и книгах, что функция