Вопрос или проблема
OpenAI Gym действительно нормализовал способ выполнения обучения с подкреплением. Он позволяет ученым данных разделять разработку модели и настройку/создание окружения и сосредотачиваться на том, на чем им действительно следует сосредотачиваться.
Цитируя с сайта Gym:
Предыстория: Зачем Gym? (2016)
Обучение с подкреплением (RL) – это подполе машинного обучения, связанное с принятием решений и моторным контролем. Оно изучает, как агент может научиться достигать целей в сложной, неопределенной среде. Это захватывающе по двум причинам:
- RL очень общее и охватывает все проблемы, связанные с последовательностью решений: например, управление моторами робота, чтобы он мог бегать и прыгать, принятие бизнес-решений, таких как ценообразование и управление запасами, или игра в видеоигры и настольные игры. RL можно даже применять к задачам обучения с учителем с последовательными или структурированными выводами.
- Алгоритмы RL начали демонстрировать хорошие результаты во многих сложных средах. У RL длинная история, но до недавних достижений в глубоких обучениях требовалось много специфической инженерии для каждой проблемы. Результаты DeepMind на Atari, BRETT из группы Питера Аббиила и AlphaGo все использовали алгоритмы глубокого RL, которые не накладывали слишком много предположений о своей среде и, таким образом, могут быть применены в других настройках.
Однако исследования RL также замедляются двумя факторами:
- Необходимость в лучших эталонах. В обучении с учителем прогресс был обусловлен большими размеченными наборами данных, такими как ImageNet. В RL ближайшим эквивалентом был бы большой и разнообразный набор окружений. Тем не менее, существующие коллекции открытых источников окружений RL не имеют достаточного разнообразия и часто их сложно даже настроить и использовать.
- Отсутствие стандартизации окружений, используемых в публикациях. Тонкие различия в определении проблемы, такие как функция вознаграждения или набор действий, могут кардинально изменить сложность задания. Эта проблема затрудняет воспроизведение опубликованных исследований и сравнение результатов из разных статей.
Gym – это попытка решить обе проблемы.
Мне было интересно, есть ли что-то эквивалентное для обучения с учителем или без учителя. Я полагаю, что такой инструмент будет полезен по тем же причинам. Я что-то упускаю? Или уже есть что-то подобное на рынке?
Одним из стандартных способов представления данных как для обучения с учителем, так и для обучения без учителя является аккуратный датафрейм. Аккуратный датафрейм – это представление данных в табличной форме, где каждая строка является наблюдением, а каждый столбец – признаком. Как только данные находятся в этой форме, может начаться моделирование машинного обучения.
Ответ или решение
Вопрос о наличии эквивалента OpenAI Gym для обучения с учителем и без учителя становится все более актуальным в области машинного обучения. OpenAI Gym действительно стал стандартом для разработки и тестирования алгоритмов обучения с подкреплением, однако аналогичные инструменты для других классов задач, таких как supervised (обучение с учителем) и unsupervised (обучение без учителя), отсутствуют в таком же объеме и стандартизации.
Потребности в стандартизации
Как и в случае с RL (обучением с подкреплением), обучение с учителем и обучение без учителя требуют четких и стандартизированных наборов данных и тестовых сред. Среда должна включать разнообразные задачи, чтобы специалисты по данным могли сосредоточиться на разработке моделей, а не на предобработке данных или создании новых наборов. К сожалению, в области supervised и unsupervised learning существует множество наборов данных, но часто они не согласованы между собой и могут иметь противоречия в терминах.
Наборы данных и инструменты для обучения
Существует несколько инициатив и инструментов, которые приближаются к идее создания стандартизированных платформ для supervised и unsupervised learning:
-
Kaggle – платформа, предоставляющая большое количество наборов данных и конкурсов, где исследователи могут проверять свои алгоритмы. Хотя Kaggle предоставляет разнообразные задачи и данные, отсутствует строгая стандартизация платформы, как в Gym.
-
UCI Machine Learning Repository – база данных, содержащая множество стандартных наборов данных для обучения с учителем и без, однако она не имеет интерактивной среды, аналогичной OpenAI Gym.
-
Scikit-learn – библиотека предоставляет много встроенных наборов данных и инструменты для простого использования алгоритмов машинного обучения, но не включает саму среду для тестирования и сравнения методов.
-
TensorFlow Datasets – широкая коллекция наборов данных, доступных для TensorFlow, но, как и предыдущие примеры, они не представляют собой единый экосистемный инструмент.
-
Tidy Data and DataFrames – использование табличной формы данных, что помогает структурировать входные данные для обучения моделей. Однако, это скорее способ представления данных, чем полноценный инструмент, аналогичный Gym.
Вывод
В настоящий момент, хотя и существуют инструменты, которые могут послужить аналогами OpenAI Gym в мире supervised и unsupervised learning, четкой стандартизации, экосистемы и единой платформы пока нет. Тем не менее, создание такого инструмента было бы немаловажным шагом вперед, способствующим ускорению инноваций в области машинного обучения, подобно тому, как это произошло в обучении с подкреплением.
Разработчики и исследователи должны активно работать над созданием единой платформы с разнообразными средами и наборами данных, чтобы улучшить воспроизводимость и сравнимость результатов в области обучения с учителем и без. Это могло бы существенно облегчить жизнь ученым и практикам, которые стремятся улучшить качество своих моделей.