Data Science
Как называется моя проблема – распределение количества элементов, обладающих определённым атрибутом?
00
Вопрос или проблема У меня следующая проблема: Есть большой набор записей. У каждой записи в наборе есть атрибут. Для некоторых значений атрибута существует только одна запись, для других значений есть много записей с этим значением.
Data Science
Как заполнить пропуски в столбце A и добавить соответствующие значения в столбец B с значением из предыдущей ячейки?
00
Вопрос или проблема У меня есть проблема с файлом Excel. У меня есть лист Excel с 2 колонками Колонка A : Увеличение времени на каждую секунду Колонка B : Определенное значение датчика машины Проблема, с которой я сталкиваюсь, заключается в том, что когда
Data Science
Вычисление LOF для больших данных
00
Вопрос или проблема У меня есть большой набор данных (сотни миллионов записей, объемом в десятки гигабайт), и я хотел бы использовать LOF для задачи обнаружения аномалий (исследую разные методы для академических целей), обучаясь на этом наборе данных
Data Science
Эффективно изменить большой csv-файл в Pandas
00
Вопрос или проблема У меня есть CSV-файл, и я хотел бы внести в него следующие изменения: df = pandas.read_csv('some_file.csv') df.index = df.index.map(lambda x: x[:-1]) df.to_csv('some_file.csv') Это убирает последний символ в индексах и сохраняет файл заново.
Data Science
Советы по работе с очень большими наборами данных – HDF5, Python
00
Вопрос или проблема Недавно я начал работать над приложением для визуализации действительно больших наборов данных. Изучая информацию в интернете, стало ясно, что большинство людей используют HDF5 для хранения больших многомерных наборов данных, так как
Data Science
Разделение обучающих данных на несколько переменных с использованием R
00
Вопрос или проблема Итак, сейчас я пытаюсь создать несколько переменных с обучающими данными, и в процессе я столкнулся с ошибкой Ошибка в eval(predvars, data, env): объект ‘1.band1’ не найден которая возникает из этих строк: for(i in 1:length(data_split)){ assign(paste("fit.
Data Science
Как запустить код Spark на Python в Jupyter Notebook через командную строку
00
Вопрос или проблема Я пытаюсь импортировать дата-фрейм в Spark, используя модуль pyspark на Python. Для этого я использовал Jupyter Notebook и выполнил код, показанный на скриншоте ниже. После этого я хочу запустить это в CMD, чтобы сохранить свои коды
Data Science
Строка в число в случае наличия миллионов уникальных значений
00
Вопрос или проблема В настоящее время я работаю над предварительной обработкой больших наборов данных для целей машинного обучения. У меня возникли трудности с кодированием строк в числа. У меня есть набор данных с несколькими транзакциями блокчейна
Data Science
Застрял на загрузке parquet файлов рекурсивно различного размера с помощью Spark.
00
Вопрос или проблема Я использую Spark на Scala через ядро Almond для Jupyter, чтобы загрузить несколько файлов parquet различного размера. У меня есть один рабочий узел с 10 ядрами и объемом памяти 10 ГБ. Когда я выполняю следующую команду: val df = spark.
Data Science
Данные сенсоров нейронной сети как вводимые данные
00
Вопрос или проблема У меня есть набор данных, состоящий из записей датчиков о человеческом движении. Существует 22 класса различных движений, таких как сидение или ходьба, и 19 значений датчиков. Каждая запись движения состоит примерно из 1000 строк
Data Science
Размер наборов данных за годы
00
Вопрос или проблема Я ищу статистику, чтобы понять, как изменялся размер (публичного) набора данных на протяжении лет. Я только что нашел следующую статистику: Опрос KDnuggets, который на самом деле показывает, что на протяжении лет следующее: Гигабайты
Data Science
Spark: Как запустить PCA параллельно? Используется только один поток.
00
Вопрос или проблема Я использую pySpark и настраиваю свою конфигурацию следующим образом: spark = (SparkSession.builder.master("local[*]") .config("spark.driver.memory", "20g") .config("spark.executor.memory", "10g") .config("spark.
Data Science
Система рекомендаций: Придайте одной характеристике большее значение, чем другой.
00
Вопрос или проблема Я пытаюсь создать рекомендательную систему, которая предсказывает цены на отели на основе большого количества признаков. У меня есть колонка, представляющая рейтинг отеля из 5, и другая колонка, указывающая количество отзывов на этот отель.
Data Science
Импутация данных для сильно отсутствующих признаков
00
Вопрос или проблема В настоящее время я работаю с набором данных IEEE-CIS Fraud Detection, предоставленным через Kaggle, содержащим около 350 признаков и примерно 600 тысяч экземпляров. Однако некоторые признаки имеют большие объемы пропущенных значений
Вопросы и ответы
Читать большой файл из API по частям и записывать каждую часть в качестве файла Parquet с помощью PyArrow
00
Вопрос или проблема Я экспериментирую с PyArrow, но у меня есть некоторые трудности в понимании некоторых моментов. Что я хочу достичь, так это читать большой файл (CSV в этом примере) частями и сохранять каждую часть в виде файла Parquet.
Data Science
Выбор количества хешей для мин-генерации? Работа с очень разреженными данными и желание получить больше коллизий.
00
Вопрос или проблема Я пытаюсь использовать minhash для генерации кластеров и определения сходств, и в основном полагаюсь на идеи из этих источников. http://www2007.org/papers/paper570.pdf https://chrisjmccormick.wordpress.com/2015/06/12/minhash-tutorial-with-python-code/
Data Science
Откуда взялось правило “глубокое обучение требует больших данных”?
00
Вопрос или проблема Читая о глубоких нейронных сетях, я часто сталкиваюсь с утверждением, что глубокое обучение эффективно только тогда, когда у вас есть большие объемы данных. Эти утверждения обычно сопровождаются таким рисунком: Пример (взятый из https://hackernoon.com/%EF%B8%8F-big-challenge-in-deep-learning-training-data-31a88b97b282) приписывается “
Data Science
Я получаю ошибку AttributeError: у объекта ‘DataFrame’ нет атрибута ‘data’
00
Вопрос или проблема import pandas as pd from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2 data=pd.read_csv(‘filename.csv’) x = data.data y = data.target Преобразование в DataFrame для лучшей визуализации column_names = [f’
Вопросы и ответы
flink + hudi с каталогом dfs, jdbc-connector не работает
00
Вопрос или проблема Я использую Hudi с Flink. У меня есть таблица MySQL с именем stu4. Без каталога всё работает. Но с каталогом DFS я не могу считать данные из исходной таблицы. таблица в Hudi: create table stu4( id bigint not null, name string, school
Data Science
Как сделать классификаторы 1-против-остальных в библиотеке XGBoost (не Sklearn)?
00
Вопрос или проблема Я работаю с очень большим набором данных, который benefited от продолжения обучения с параметром xgb_model в xgb.train(). Метка (Y) самого набора данных имеет 4 класса и сильно несбалансирована, поэтому я хотел бы сгенерировать PR-кривые