Вопрос или проблема
Нам требуется надежное статистическое программное обеспечение, которое может обрабатывать наборы данных объемом 10~13 миллионов записей для поддержки бизнес-решений, в основном прогнозирования и анализа множественной регрессии. Мы уже пробовали R, но он не смог обработать такие наборы данных. Мы ищем надежную поддержку клиентов, независимо от цены. У вас есть предложения?
Было бы интересно узнать, какой алгоритм в R потерпел неудачу (и как именно). Я думаю, что этот вопрос зависит от конкретной реализации множественной регрессии. Я бы поискал хороший алгоритм. Один интересный проект, в котором реализовано много алгоритмов для выполнения регрессии, — это DataMelt https://jwork.org/home/datamelt/. У него хорошая база данных примеров, организованных по темам, и функции поиска. Попробуйте ввести «регрессия» в его поиск:
https://jwork.org/dmelt/dsearch/
он вернет ~10 примеров и большое количество реализованных алгоритмов (но все на Java). Лично я использую “полиномиальную регрессию” из этого инструмента.
Ответ или решение
Выбор лучшего статистического программного обеспечения для анализа множественной регрессии и прогнозирования с большими объемами данных—это важная задача, требующая учета как ваших требований, так и особенностей доступных инструментов. Ваша ситуация, связанная с обработкой наборов данных объемом от 10 до 13 миллионов записей, указывает на необходимость в высококлассном, масштабируемом решении, способном поддерживать сложные аналитические задачи. Рассмотрим наиболее подходящие варианты.
1. SAS
SAS (Statistical Analysis System) считается одним из наиболее мощных инструментов для анализа больших данных. Его основные преимущества:
- Масштабируемость: SAS способен эффективно обрабатывать огромные объемы данных, что делает его идеальным для вашей ситуации.
- Поддержка регрессии: Предоставляет обширные возможности для множественной регрессии и прогнозирования.
- Клиентская поддержка: SAS обеспечивает надежную техническую поддержку и обучение.
- Интеграция с большими данными: SAS может работать с данными как в традиционных файлах, так и в системах хранения больших данных, включая Hadoop.
2. IBM SPSS Statistics
IBM SPSS Statistics — еще один популярный вариант для анализа данных и статистики:
- Функции множественной регрессии: У него есть мощные функции для выполнения различных видов множественной регрессии и прогнозных анализов.
- Дружественный интерфейс: SPSS имеет интуитивно понятный графический интерфейс, что облегчает его использование.
- Клиентская поддержка: Является частью IBM, предлагающего множество ресурсов и поддержки.
3. Microsoft Azure Machine Learning
Если вам интересны облачные решения, Microsoft Azure ML предоставляет:
- Обработка больших данных: За счет облачных вычислений вы можете обрабатывать большие объемы данных без необходимости управления локальной инфраструктурой.
- Гибкость различных алгоритмов: Здесь доступны алгоритмы регрессии, в том числе обычные и регрессионные деревья.
- Интеграция с другими службами Azure: Это может дать вам дополнительные возможности для анализа и визуализации.
4. DataRobot
DataRobot — это инструмент для автоматизации машинного обучения, который может быть полезен для анализа больших данных:
- Автоматизация процессов: Он автоматизирует многие шаги в анализе данных, включая выбор модели, что может сэкономить время.
- Поддержка масштабирования: Способен обрабатывать мощные наборы данных, что делает его подходящим аналогом.
- Отличная поддержка: Компания предлагает хорошую клиентскую поддержку и обучение.
Рекомендации по алгоритмам в R
Если вас интересует, почему R не справился с вашими данными, важно рассмотреть применение определенных алгоритмов. Некоторые библиотеки, такие как biglm
, data.table
и dplyr
, разработаны специально для обработки больших наборов данных. Попробуйте также использовать пакеты, такие как xgboost
или glmnet
, которые лучше подходят для высоких нагрузок и могут эффективно обрабатывать большие объемы данных.
Заключение
При выборе программного обеспечения для множественной регрессии и прогнозирования с большими объемами данных следует уделять особое внимание возможностям обработки данных, поддержке и удобству использования. SAS, IBM SPSS, Microsoft Azure ML и DataRobot предлагают надежные решения, которые могут соответствовать вашим потребностям. Учитывая важность поддержки клиентов, стоит рассмотреть эти варианты с точки зрения их учебных ресурсов и консультирования. Если вы все же хотите рассмотреть R, возможно, пересмотрите алгоритмы и библиотеки, которые вы используете, чтобы устранить возможные проблемы с обработкой данных.