Data Science
Система рекомендаций: Придайте одной характеристике большее значение, чем другой.
00
Вопрос или проблема Я пытаюсь создать рекомендательную систему, которая предсказывает цены на отели на основе большого количества признаков. У меня есть колонка, представляющая рейтинг отеля из 5, и другая колонка, указывающая количество отзывов на этот отель.
Data Science
Импутация данных для сильно отсутствующих признаков
00
Вопрос или проблема В настоящее время я работаю с набором данных IEEE-CIS Fraud Detection, предоставленным через Kaggle, содержащим около 350 признаков и примерно 600 тысяч экземпляров. Однако некоторые признаки имеют большие объемы пропущенных значений
Вопросы и ответы
Читать большой файл из API по частям и записывать каждую часть в качестве файла Parquet с помощью PyArrow
00
Вопрос или проблема Я экспериментирую с PyArrow, но у меня есть некоторые трудности в понимании некоторых моментов. Что я хочу достичь, так это читать большой файл (CSV в этом примере) частями и сохранять каждую часть в виде файла Parquet.
Data Science
Выбор количества хешей для мин-генерации? Работа с очень разреженными данными и желание получить больше коллизий.
00
Вопрос или проблема Я пытаюсь использовать minhash для генерации кластеров и определения сходств, и в основном полагаюсь на идеи из этих источников. http://www2007.org/papers/paper570.pdf https://chrisjmccormick.wordpress.com/2015/06/12/minhash-tutorial-with-python-code/
Data Science
Откуда взялось правило “глубокое обучение требует больших данных”?
00
Вопрос или проблема Читая о глубоких нейронных сетях, я часто сталкиваюсь с утверждением, что глубокое обучение эффективно только тогда, когда у вас есть большие объемы данных. Эти утверждения обычно сопровождаются таким рисунком: Пример (взятый из https://hackernoon.com/%EF%B8%8F-big-challenge-in-deep-learning-training-data-31a88b97b282) приписывается “
Data Science
Я получаю ошибку AttributeError: у объекта ‘DataFrame’ нет атрибута ‘data’
00
Вопрос или проблема import pandas as pd from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2 data=pd.read_csv(‘filename.csv’) x = data.data y = data.target Преобразование в DataFrame для лучшей визуализации column_names = [f’
Вопросы и ответы
flink + hudi с каталогом dfs, jdbc-connector не работает
00
Вопрос или проблема Я использую Hudi с Flink. У меня есть таблица MySQL с именем stu4. Без каталога всё работает. Но с каталогом DFS я не могу считать данные из исходной таблицы. таблица в Hudi: create table stu4( id bigint not null, name string, school
Data Science
Как сделать классификаторы 1-против-остальных в библиотеке XGBoost (не Sklearn)?
00
Вопрос или проблема Я работаю с очень большим набором данных, который benefited от продолжения обучения с параметром xgb_model в xgb.train(). Метка (Y) самого набора данных имеет 4 класса и сильно несбалансирована, поэтому я хотел бы сгенерировать PR-кривые
Data Science
В чем разница между Pachyderm и Git?
00
Вопрос или проблема Я узнал, что такие инструменты, как Pachyderm, версионируют данные, но я не вижу никакой разницы между этим инструментом и Git. Я узнал из этого поста, что: Он хранит все ваши данные в центральном доступном месте Он обновляет все зависимые
Data Science
обнаружение аномалий в данных датчиков автомобиля
00
Вопрос или проблема В настоящее время я углубляюсь в изучение аномалий в данных транспортных средств, генерируемых датчиками. Похоже, что нет подходящей книги или статьи, которые более детально охватывают эту тему. Надеюсь получить помощь в том, где и
Data Science
Как подделать данные на основе условия и веса
00
Вопрос или проблема Я пытаюсь создать поддельные данные для кафе. У меня есть две характеристики: возраст и меню. Меню включает в себя различные типы напитков, таких как кофе [латте, эспрессо, мокко и т.д.], чай [молочный чай, лимонный чай], молоко [свежие
Data Science
возможно ли найти целые числа в большом наборе данных (например, 4096 бит), где набор данных содержит как целые числа, так и десятичные?
00
Вопрос или проблема Я новичок здесь. Надеюсь, кто-то сможет помочь. Я независимый исследователь и столкнулся с проблемой анализа данных. Исследование здесь неуместно, но я дам необходимые детали касательно проблемы анализа данных.
Data Science
Разделение датафрейма на основе содержимого строк
00
Вопрос или проблема У меня есть датафрейм с 50000 строк и 5 столбцов. В столбце VarName есть два типа данных: 1 – DatiStatistica_CombiWeight, 2 – DatiStatistica_TargetWeight Я отфильтровал строки, содержащие DatiStatistica_TargetWeight Я хотел
Data Science
Использование SMOTE для генерации синтетических данных с целью улучшения производительности на несбалансированных данных
00
Вопрос или проблема В настоящее время у меня есть набор данных с 21392 образцами, из которых 16948 относятся к мажоритарному классу (класс A), а оставшиеся 4444 – к миноритарному классу (класс B). В настоящее время я использую SMOTE (Метод синтетического
Data Science
Баланс данных HDFS в кластере
00
Вопрос или проблема Я новичок в больших данных, поэтому, пожалуйста, не критикуйте меня слишком сильно. Не могли бы вы объяснить, почему HDFS работает лучше, когда блоки файлов равномерно распределены по кластеру? Если данные не равномерно распределены
Data Science
scikit-learn OMP ошибка памяти
00
Вопрос или проблема Я попытался использовать алгоритм OMP, доступный в scikit-learn. Мой размер данных, который включает как целевой сигнал, так и словарь, составляет примерно 1 Гб. Однако, когда я запустил код, он завершился с ошибкой памяти.