Вопрос или проблема
Я знаком и работал со многими наборами данных в классическом машинном обучении, а также в глубоком обучении. Я также осведомлён о некоторых стандартных наборах данных в глубоком обучении (например, ImageNet для классификации изображений и т. д.)
Однако мне было интересно, существуют ли стандартные наборы данных (или эталоны точности) для классических методов, таких как регрессия, GBM, SVM и т. д. Более конкретно, существуют ли стандартные наборы данных, которые могут быть использованы для измерения точности нового метода?
Учитывая, что большинство классических методов очень старые, наборы данных, которые они могли бы использовать для тестирования своих методов, могут быть сегодня не актуальны.
Если таких стандартов нет, можете прокомментировать класс приложений, который вы хотели бы увидеть, если кто-то собирался создать собственный стандартный набор данных?
Спасибо
До волны глубокого обучения репозиторий наборов данных UCI был широко распространен.
Он содержит классические (и довольно небольшие) наборы данных, которые были очень актуальны в старые времена, такие как набор данных Iris для классификации.
На странице каждого набора данных можно найти статьи, цитирующие данный набор данных.
Ответ или решение
В условиях развития и популяризации глубинного обучения (DL) классические методы машинного обучения (ML) могут восприниматься как устаревшие. Тем не менее, для оценки и тестирования таких методов, как регрессия, градиентный бустинг (GBM) и метод опорных векторов (SVM), существуют определенные стандартные наборы данных. Эти наборы данных используются для экспериментов в классическом машинном обучении и помогают оценить производительность новых алгоритмов. Рассмотрим подробнее наиболее известные и используемые наборы данных для классических методов ML.
UCI Репозиторий Наборов Данных
Одним из наиболее известных источников является репозиторий UCI Machine Learning Repository. Это богатый ресурс качественных наборов данных, который использовался еще до эпохи подъема глубинного обучения. В репозитории представлены разнообразные данные для задач классификации, регрессии и кластеризации. Наиболее популярные из них включают:
-
Ирисы (Iris dataset): Классический набор данных для классификации, использующийся для тестирования различных алгоритмов и визуализации.
-
Домашние цены в Бостоне (Boston Housing dataset): Используется для задач регрессии и анализа предсказательных моделей.
-
Винные данные (Wine dataset): Задачи классификации, позволяющие проанализировать химические параметры вен.
На каждой странице набора данных в репозитории UCI вы найдете публикации, которые используют эти данные, что может служить индикатором их релевантности и значимости.
Другие Замечательные Наборы Данных
-
MNIST: Червьовики данных изображений цифр, подходящий как для классического ML, так и для DL задач. Часто является первичным этапом обучения и тестирования моделей.
-
CIFAR-10 и CIFAR-100: Наборы для классификации изображений. Хотя они стали особенно популярны с ростом DL, они по-прежнему используются для оценок методов классификации в классическом ML.
-
Клинтон-Андерсон (Kaggle Datasets): Здесь можно найти множество полезных наборов данных, применяемых для различных актуальных задач, которые могут служить основой для тестирования новых методов.
Создание Новых Стандартов
Если наборов данных недостаточно или они менее релевантны в современных реалиях, создание новых стандартов опирается на текущие потребности в приложениях. Такие области, как медицинская диагностика, прогнозирование финансовых показателей, обработка естественного языка (NLP) для различных отраслей, могут выиграть от более современных и соответствующих данных.
Надеюсь, эта информация будет полезна для вашего исследования в области машинного обучения и поможет выбрать или структурировать новый подход в создании или использовании стандартных наборов данных для классических методов ML.