Data Science
Извлечение ключевых слов из pdf-файла с помощью Python
02
Вопрос или проблема У меня есть pdf файл (ссылка ниже). Мне нужно извлечь из него ключевые слова, а также узнать их частоту в pdf файле. Например, 'Java':42, 'наследование':3. Мне нужно сохранить ключевые слова с их весами в excel таблице.
Data Science
Хадуп, Спарк и Облако
00
Вопрос или проблема Похоже, Hadoop, Spark и разные версии облаков предлагают возможности для хранения и анализа больших данных. Существуют статьи, сравнивающие Hadoop и Spark (например, эта статья). Также есть статьи, которые обсуждают сервисы на AWS
Data Science
Как я могу убедиться в своем значении R^2?
00
Вопрос или проблема У меня есть набор данных с 10 столбцами и 158 строками. Я пытаюсь предсказать мой тестовый набор данных, который состоит из 1 столбца и 158 строк. Я провел кросс-валидации, поиск по сетке и использовал алгоритм ElasticNet.
Data Science
Инсайты между двумя столбцами/переменными в Dataframe
00
Вопрос или проблема У меня есть данные в двух колонках: одна – диапазон старого кредитного рейтинга (диапазон входных оценок) и новая кредитная оценка (cvsc100). Как мне получить информацию из обоих? Где старый – это диапазон значений, а другая колонка –
Data Science
Может ли таблица фактов иметь отношение 1:1 с таблицей измерений?
00
Вопрос или проблема Я пытаюсь создать небольшую таблицу фактов в области здравоохранения с следующей информацией [patientid], [organid], [value] Каждый [patientid] уникален для этого пациента, но в системе доступно только 10 [organid] (сердце, левое легкое
Data Science
Использование iGraph для создания модели распределения
00
Вопрос или проблема Я хотел бы проанализировать распределение клиентов магазина, если магазин закрыт или прекращен. Рассмотрим следующие примерные данные; | ShopID | MonthlyCVisitCount | Lat | Lng | -------------------------------------------------------- | A1 | 15000 | 39.
Data Science
Создание RiskScore на числовых данных
00
Вопрос или проблема Я работаю над созданием оценки риска на основе данных, где у меня есть переменные – сумма инвестиций, прибыль, возраст аккаунта в днях, общее количество торговых транзакций, прибыль на транзакцию и инвестиции на транзакцию.
Data Science
Какой алгоритм добычи данных или машинного обучения будет подходящим для изучения упорядоченных частых паттернов?
00
Вопрос или проблема У меня есть набор данных в формате (var1, var2, out), где упорядоченная пара <var1, var2> дает out. Большинство алгоритмов выявления частых паттернов, таких как алгоритмы Apriori и FP growth, не сохраняют порядок var1 и var2.
Data Science
Как я могу использовать расстояние Хеллингера на массивах разной длины?
01
Вопрос или проблема Мне нужно использовать расстояние Хеллингера для сравнения массивов, которые не одинаковой длины. Как правильно это сделать? Ставить ноль в отсутствующих полях для более короткого массива не кажется мне лучшим методом.
Data Science
Какие алгоритмы я должен использовать для определения схожих характеристик между данными (пересечения)?
00
Вопрос или проблема Я работаю с набором данных, который был закодирован и категоризирован, так что каждая точка данных имеет набор закодированных характеристик. Примером точки данных может быть что-то вроде следующего: Пример точки данных: Качество Обслуживание
Data Science
Какова основная концепция использования лексического, лингвистического, семантического или синтаксического подхода в обработке естественного языка для борьбы с кибербуллингом?
00
Вопрос или проблема Мне действительно нужно объяснение, я работаю над инструментом обнаружения кибербуллинга на основе обработки естественного языка (NLP), который я разверну в Интернете с использованием фреймворка Django, однако застрял на какой-то идее
Data Science
Процесс анализа данных
00
Вопрос или проблема Как вы передаете данные из хранилища данных в Python для ад-хок анализа? Моя повседневная работа заключается в ответах на ад-хок вопросы, и 95% необходимых мне данных находится в нашем хранилище данных. Я часто запрашиваю данные из
Data Science
Как вычислить информацию, переданную в сообщении для данной выборки данных
00
Вопрос или проблема Данные наборы. Тестовый набор Место,цвет,Модель,Категория,Локация,вес,Разновидность,Материал,Объем 1,6,4,4,4,1,1,1,6 2,5,4,4,4,2,6,1,1 1,6,2,1,4,1,4,2,4 1,6,2,1,4,1,2,1,2 2,6,5,5,5,2,2,1,2 1,5,4,4,4,1,6,2,2 1,3,3,3,3,1,6,2,2 Обучающий
Data Science
Почему я получаю другой ответ в методе главных компонент для уменьшения размерности?
00
Вопрос или проблема Проблема: Рассмотрите двумерные образы (2, 1), (3, 5), (4, 3), (5, 6), (6, 7), (7, 8). Вычислите главную компоненту, используя алгоритм PCA. Используйте алгоритм PCA для преобразования образа (2, 1) на собственный вектор.
Data Science
Классификация шумных данных
00
Вопрос или проблема Какой метод можно использовать для классификации данных в следующем примере? Есть таблица (сотни строк и сотни столбцов). Несколько столбцов в этой таблице уникально позволяют классифицировать каждую строку: Класс 0: …шумные биты…00…шумные
Data Science
Корпус компьютерных наук для обучения языковой модели
00
Вопрос или проблема Я ищу корпус компьютерных наук, специфичный для домена, содержащий не менее 20 миллионов слов (предпочтительно больше 50 миллионов слов), для обучения языковой модели. Есть ли что-то готовое, что я мог бы использовать?
Data Science
Какой анализ временных рядов подходит для анализа совокупных временных рядов?
00
Вопрос или проблема У меня есть два набора данных: один – это кросс-секционные данные переписи населения с интервалом в 10 лет, а другой – это временные ряды (ежемесячные) за несколько лет. Теперь я хочу провести статистический анализ временных
Data Science
Недоразумения о числовом росте fp-дерева:
00
Вопрос или проблема Если fcam=3, будет ли условное fp-дерево все равно c=4 или что-то другое? Я предполагаю, что это должно быть f=3, c=4, a=3, m=3. Я прав? Или что-то другое? Пожалуйста, подскажите. Также, на этой ниже приведенной фигуре (та же фигура
Data Science
Есть ли способ использовать Orange Data Mining на удалённом сервере или в облаке? [закрыто]
01
Вопрос или проблема Закрыто. Этот вопрос не по теме. В настоящее время он не принимает ответы. Этот вопрос, похоже, не относится к науке о данных, в рамках, определенном в центре помощи. Закрыто 6 лет назад. Улучшить этот вопрос Мой вопрос: есть ли способ
Data Science
Симуляция данных с использованием make_classification в Python
00
Вопрос или проблема У меня есть вопрос о моделировании данных в Python. Я занимаюсь классификацией несбалансированных данных и хочу протестировать эффективность различных методов на смоделированных данных. Я видел в различных статьях и книгах, что функция