Эквивалент OpenAI Gym для обучения с учителем и/или без учителя.

Question 1

OpenAI Gym действительно нормализовал способ выполнения обучения с подкреплением. Он позволяет ученым данных разделять разработку модели и настройку/создание окружения и сосредотачиваться на том, на чем им действительно следует сосредотачиваться.

Цитируя с сайта Gym:

Предыстория: Зачем Gym? (2016)

Обучение с подкреплением (RL) – это подполе машинного обучения, связанное с принятием решений и моторным контролем. Оно изучает, как агент может научиться достигать целей в сложной, неопределенной среде. Это захватывающе по двум причинам:

RL очень общее и охватывает все проблемы, связанные с последовательностью решений: например, управление моторами робота, чтобы он мог бегать и прыгать, принятие бизнес-решений, таких как ценообразование и управление запасами, или игра в видеоигры и настольные игры. RL можно даже применять к задачам обучения с учителем с последовательными или структурированными выводами.

Алгоритмы RL начали демонстрировать хорошие результаты во многих сложных средах. У RL длинная история, но до недавних достижений в глубоких обучениях требовалось много специфической инженерии для каждой проблемы. Результаты DeepMind на Atari, BRETT из группы Питера Аббиила и AlphaGo все использовали алгоритмы глубокого RL, которые не накладывали слишком много предположений о своей среде и, таким образом, могут быть применены в других настройках.

Однако исследования RL также замедляются двумя факторами:

Необходимость в лучших эталонах. В обучении с учителем прогресс был обусловлен большими размеченными наборами данных, такими как ImageNet. В RL ближайшим эквивалентом был бы большой и разнообразный набор окружений. Тем не менее, существующие коллекции открытых источников окружений RL не имеют достаточного разнообразия и часто их сложно даже настроить и использовать.

Отсутствие стандартизации окружений, используемых в публикациях. Тонкие различия в определении проблемы, такие как функция вознаграждения или набор действий, могут кардинально изменить сложность задания. Эта проблема затрудняет воспроизведение опубликованных исследований и сравнение результатов из разных статей.

Gym – это попытка решить обе проблемы.

Мне было интересно, есть ли что-то эквивалентное для обучения с учителем или без учителя. Я полагаю, что такой инструмент будет полезен по тем же причинам. Я что-то упускаю? Или уже есть что-то подобное на рынке?

Question 2

Одним из стандартных способов представления данных как для обучения с учителем, так и для обучения без учителя является аккуратный датафрейм. Аккуратный датафрейм – это представление данных в табличной форме, где каждая строка является наблюдением, а каждый столбец – признаком. Как только данные находятся в этой форме, может начаться моделирование машинного обучения.

Эквивалент OpenAI Gym для обучения с учителем и/или без учителя.

Вопрос или проблема

Ответ или решение

Потребности в стандартизации

Наборы данных и инструменты для обучения

Вывод