Data Science
В чем разница между Pachyderm и Git?
00
Вопрос или проблема Я узнал, что такие инструменты, как Pachyderm, версионируют данные, но я не вижу никакой разницы между этим инструментом и Git. Я узнал из этого поста, что: Он хранит все ваши данные в центральном доступном месте Он обновляет все зависимые
Data Science
обнаружение аномалий в данных датчиков автомобиля
00
Вопрос или проблема В настоящее время я углубляюсь в изучение аномалий в данных транспортных средств, генерируемых датчиками. Похоже, что нет подходящей книги или статьи, которые более детально охватывают эту тему. Надеюсь получить помощь в том, где и
Data Science
Как подделать данные на основе условия и веса
00
Вопрос или проблема Я пытаюсь создать поддельные данные для кафе. У меня есть две характеристики: возраст и меню. Меню включает в себя различные типы напитков, таких как кофе [латте, эспрессо, мокко и т.д.], чай [молочный чай, лимонный чай], молоко [свежие
Data Science
возможно ли найти целые числа в большом наборе данных (например, 4096 бит), где набор данных содержит как целые числа, так и десятичные?
00
Вопрос или проблема Я новичок здесь. Надеюсь, кто-то сможет помочь. Я независимый исследователь и столкнулся с проблемой анализа данных. Исследование здесь неуместно, но я дам необходимые детали касательно проблемы анализа данных.
Data Science
Разделение датафрейма на основе содержимого строк
00
Вопрос или проблема У меня есть датафрейм с 50000 строк и 5 столбцов. В столбце VarName есть два типа данных: 1 – DatiStatistica_CombiWeight, 2 – DatiStatistica_TargetWeight Я отфильтровал строки, содержащие DatiStatistica_TargetWeight Я хотел
Data Science
Использование SMOTE для генерации синтетических данных с целью улучшения производительности на несбалансированных данных
00
Вопрос или проблема В настоящее время у меня есть набор данных с 21392 образцами, из которых 16948 относятся к мажоритарному классу (класс A), а оставшиеся 4444 – к миноритарному классу (класс B). В настоящее время я использую SMOTE (Метод синтетического
Data Science
Баланс данных HDFS в кластере
00
Вопрос или проблема Я новичок в больших данных, поэтому, пожалуйста, не критикуйте меня слишком сильно. Не могли бы вы объяснить, почему HDFS работает лучше, когда блоки файлов равномерно распределены по кластеру? Если данные не равномерно распределены
Data Science
scikit-learn OMP ошибка памяти
00
Вопрос или проблема Я попытался использовать алгоритм OMP, доступный в scikit-learn. Мой размер данных, который включает как целевой сигнал, так и словарь, составляет примерно 1 Гб. Однако, когда я запустил код, он завершился с ошибкой памяти.