bigdata
Data Science
Вопрос или проблема Я пытаюсь создать рекомендательную систему, которая предсказывает цены на отели на основе большого количества признаков. У меня есть колонка, представляющая рейтинг отеля из 5, и другая колонка, указывающая количество отзывов на этот отель.
Data Science
Вопрос или проблема В настоящее время я работаю с набором данных IEEE-CIS Fraud Detection, предоставленным через Kaggle, содержащим около 350 признаков и примерно 600 тысяч экземпляров. Однако некоторые признаки имеют большие объемы пропущенных значений
Вопросы и ответы
Вопрос или проблема Я экспериментирую с PyArrow, но у меня есть некоторые трудности в понимании некоторых моментов. Что я хочу достичь, так это читать большой файл (CSV в этом примере) частями и сохранять каждую часть в виде файла Parquet.
Data Science
Вопрос или проблема Я пытаюсь использовать minhash для генерации кластеров и определения сходств, и в основном полагаюсь на идеи из этих источников. http://www2007.org/papers/paper570.pdf https://chrisjmccormick.wordpress.com/2015/06/12/minhash-tutorial-with-python-code/
Data Science
Вопрос или проблема Читая о глубоких нейронных сетях, я часто сталкиваюсь с утверждением, что глубокое обучение эффективно только тогда, когда у вас есть большие объемы данных. Эти утверждения обычно сопровождаются таким рисунком: Пример (взятый из https://hackernoon.com/%EF%B8%8F-big-challenge-in-deep-learning-training-data-31a88b97b282) приписывается “
Data Science
Вопрос или проблема import pandas as pd from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2 data=pd.read_csv(‘filename.csv’) x = data.data y = data.target Преобразование в DataFrame для лучшей визуализации column_names = [f’
Вопросы и ответы
Вопрос или проблема Я использую Hudi с Flink. У меня есть таблица MySQL с именем stu4. Без каталога всё работает. Но с каталогом DFS я не могу считать данные из исходной таблицы. таблица в Hudi: create table stu4( id bigint not null, name string, school
Data Science
Вопрос или проблема Я работаю с очень большим набором данных, который benefited от продолжения обучения с параметром xgb_model в xgb.train(). Метка (Y) самого набора данных имеет 4 класса и сильно несбалансирована, поэтому я хотел бы сгенерировать PR-кривые
Data Science
Вопрос или проблема Я узнал, что такие инструменты, как Pachyderm, версионируют данные, но я не вижу никакой разницы между этим инструментом и Git. Я узнал из этого поста, что: Он хранит все ваши данные в центральном доступном месте Он обновляет все зависимые
Data Science
Вопрос или проблема В настоящее время я углубляюсь в изучение аномалий в данных транспортных средств, генерируемых датчиками. Похоже, что нет подходящей книги или статьи, которые более детально охватывают эту тему. Надеюсь получить помощь в том, где и
Data Science
Вопрос или проблема Я пытаюсь создать поддельные данные для кафе. У меня есть две характеристики: возраст и меню. Меню включает в себя различные типы напитков, таких как кофе [латте, эспрессо, мокко и т.д.], чай [молочный чай, лимонный чай], молоко [свежие
Data Science
Вопрос или проблема Я новичок здесь. Надеюсь, кто-то сможет помочь. Я независимый исследователь и столкнулся с проблемой анализа данных. Исследование здесь неуместно, но я дам необходимые детали касательно проблемы анализа данных.
Data Science
Вопрос или проблема У меня есть датафрейм с 50000 строк и 5 столбцов. В столбце VarName есть два типа данных: 1 – DatiStatistica_CombiWeight, 2 – DatiStatistica_TargetWeight Я отфильтровал строки, содержащие DatiStatistica_TargetWeight Я хотел
Data Science
Вопрос или проблема В настоящее время у меня есть набор данных с 21392 образцами, из которых 16948 относятся к мажоритарному классу (класс A), а оставшиеся 4444 – к миноритарному классу (класс B). В настоящее время я использую SMOTE (Метод синтетического
Data Science
Вопрос или проблема Я новичок в больших данных, поэтому, пожалуйста, не критикуйте меня слишком сильно. Не могли бы вы объяснить, почему HDFS работает лучше, когда блоки файлов равномерно распределены по кластеру? Если данные не равномерно распределены
Data Science
Вопрос или проблема Я попытался использовать алгоритм OMP, доступный в scikit-learn. Мой размер данных, который включает как целевой сигнал, так и словарь, составляет примерно 1 Гб. Однако, когда я запустил код, он завершился с ошибкой памяти.