bigdata - ответы на вопросы

Data Science

Как называется моя проблема – распределение количества элементов, обладающих определённым атрибутом?

00

Вопрос или проблема У меня следующая проблема: Есть большой набор записей. У каждой записи в наборе есть атрибут. Для некоторых значений атрибута существует только одна запись, для других значений есть много записей с этим значением.

Data Science

Как заполнить пропуски в столбце A и добавить соответствующие значения в столбец B с значением из предыдущей ячейки?

00

Вопрос или проблема У меня есть проблема с файлом Excel. У меня есть лист Excel с 2 колонками Колонка A : Увеличение времени на каждую секунду Колонка B : Определенное значение датчика машины Проблема, с которой я сталкиваюсь, заключается в том, что когда

Data Science

Вычисление LOF для больших данных

00

Вопрос или проблема У меня есть большой набор данных (сотни миллионов записей, объемом в десятки гигабайт), и я хотел бы использовать LOF для задачи обнаружения аномалий (исследую разные методы для академических целей), обучаясь на этом наборе данных

Data Science

Эффективно изменить большой csv-файл в Pandas

00

Вопрос или проблема У меня есть CSV-файл, и я хотел бы внести в него следующие изменения: df = pandas.read_csv('some_file.csv') df.index = df.index.map(lambda x: x[:-1]) df.to_csv('some_file.csv') Это убирает последний символ в индексах и сохраняет файл заново.

Data Science

Советы по работе с очень большими наборами данных – HDF5, Python

00

Вопрос или проблема Недавно я начал работать над приложением для визуализации действительно больших наборов данных. Изучая информацию в интернете, стало ясно, что большинство людей используют HDF5 для хранения больших многомерных наборов данных, так как

Data Science

Разделение обучающих данных на несколько переменных с использованием R

00

Вопрос или проблема Итак, сейчас я пытаюсь создать несколько переменных с обучающими данными, и в процессе я столкнулся с ошибкой Ошибка в eval(predvars, data, env): объект ‘1.band1’ не найден которая возникает из этих строк: for(i in 1:length(data_split)){ assign(paste("fit.

Data Science

Как запустить код Spark на Python в Jupyter Notebook через командную строку

00

Вопрос или проблема Я пытаюсь импортировать дата-фрейм в Spark, используя модуль pyspark на Python. Для этого я использовал Jupyter Notebook и выполнил код, показанный на скриншоте ниже. После этого я хочу запустить это в CMD, чтобы сохранить свои коды

Data Science

Строка в число в случае наличия миллионов уникальных значений

00

Вопрос или проблема В настоящее время я работаю над предварительной обработкой больших наборов данных для целей машинного обучения. У меня возникли трудности с кодированием строк в числа. У меня есть набор данных с несколькими транзакциями блокчейна

Data Science

Застрял на загрузке parquet файлов рекурсивно различного размера с помощью Spark.

01

Вопрос или проблема Я использую Spark на Scala через ядро Almond для Jupyter, чтобы загрузить несколько файлов parquet различного размера. У меня есть один рабочий узел с 10 ядрами и объемом памяти 10 ГБ. Когда я выполняю следующую команду: val df = spark.

Data Science

Данные сенсоров нейронной сети как вводимые данные

00

Вопрос или проблема У меня есть набор данных, состоящий из записей датчиков о человеческом движении. Существует 22 класса различных движений, таких как сидение или ходьба, и 19 значений датчиков. Каждая запись движения состоит примерно из 1000 строк

Data Science

Размер наборов данных за годы

00

Вопрос или проблема Я ищу статистику, чтобы понять, как изменялся размер (публичного) набора данных на протяжении лет. Я только что нашел следующую статистику: Опрос KDnuggets, который на самом деле показывает, что на протяжении лет следующее: Гигабайты

Data Science

Spark: Как запустить PCA параллельно? Используется только один поток.

00

Вопрос или проблема Я использую pySpark и настраиваю свою конфигурацию следующим образом: spark = (SparkSession.builder.master("local[*]") .config("spark.driver.memory", "20g") .config("spark.executor.memory", "10g") .config("spark.

Data Science

00

Вопрос или проблема Я пытаюсь создать рекомендательную систему, которая предсказывает цены на отели на основе большого количества признаков. У меня есть колонка, представляющая рейтинг отеля из 5, и другая колонка, указывающая количество отзывов на этот отель.

Data Science

Импутация данных для сильно отсутствующих признаков

00

Вопрос или проблема В настоящее время я работаю с набором данных IEEE-CIS Fraud Detection, предоставленным через Kaggle, содержащим около 350 признаков и примерно 600 тысяч экземпляров. Однако некоторые признаки имеют большие объемы пропущенных значений

Вопросы и ответы

Читать большой файл из API по частям и записывать каждую часть в качестве файла Parquet с помощью PyArrow

00

Вопрос или проблема Я экспериментирую с PyArrow, но у меня есть некоторые трудности в понимании некоторых моментов. Что я хочу достичь, так это читать большой файл (CSV в этом примере) частями и сохранять каждую часть в виде файла Parquet.

Data Science

Выбор количества хешей для мин-генерации? Работа с очень разреженными данными и желание получить больше коллизий.

00

Вопрос или проблема Я пытаюсь использовать minhash для генерации кластеров и определения сходств, и в основном полагаюсь на идеи из этих источников. http://www2007.org/papers/paper570.pdf https://chrisjmccormick.wordpress.com/2015/06/12/minhash-tutorial-with-python-code/

Data Science

Откуда взялось правило “глубокое обучение требует больших данных”?

00

Вопрос или проблема Читая о глубоких нейронных сетях, я часто сталкиваюсь с утверждением, что глубокое обучение эффективно только тогда, когда у вас есть большие объемы данных. Эти утверждения обычно сопровождаются таким рисунком: Пример (взятый из https://hackernoon.com/%EF%B8%8F-big-challenge-in-deep-learning-training-data-31a88b97b282) приписывается “

Data Science

Я получаю ошибку AttributeError: у объекта ‘DataFrame’ нет атрибута ‘data’

00

Вопрос или проблема import pandas as pd from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2 data=pd.read_csv(‘filename.csv’) x = data.data y = data.target Преобразование в DataFrame для лучшей визуализации column_names = [f’

Вопросы и ответы

flink + hudi с каталогом dfs, jdbc-connector не работает

00

Вопрос или проблема Я использую Hudi с Flink. У меня есть таблица MySQL с именем stu4. Без каталога всё работает. Но с каталогом DFS я не могу считать данные из исходной таблицы. таблица в Hudi: create table stu4( id bigint not null, name string, school

Data Science

Как сделать классификаторы 1-против-остальных в библиотеке XGBoost (не Sklearn)?

00

Вопрос или проблема Я работаю с очень большим набором данных, который benefited от продолжения обучения с параметром xgb_model в xgb.train(). Метка (Y) самого набора данных имеет 4 класса и сильно несбалансирована, поэтому я хотел бы сгенерировать PR-кривые