Вопрос или проблема
Надеюсь, здесь можно задавать вопросы, но я ищу набор данных (формат не так важен), который похож на SQuAD, но также содержит ложные ответы на вопросы. Я хочу использовать его для дообучения GPT-3, и все, что я нахожу, это либо вопросы с выбором ответа по тексту, но без «дистракторов», либо классические тесты, у которых нет контекста перед каждым вопросом.
У меня есть код, который генерирует «дистракторы», и я могу просто внедрить его туда, но мне было интересно, существует ли какой-либо готовый набор данных.
Вы можете посмотреть на наборы данных RACE. Это набор данных с вопросами и ответами на выбор по пониманию прочитанного на английском языке из экзаменов, проведенных в Китае.
Это также подходящий набор данных для вас: называется swag “https://huggingface.co/datasets/swag?row=9”
Ответ или решение
Для решения вашей проблемы с поиском наборов данных, содержащих вопросы с несколькими вариантами ответов и ложные ответы, я рекомендую обратить внимание на несколько ресурсов.
-
Nexus RACE (ReAding Comprehension Dataset): Это набор данных, содержащий вопросы и ответы, основанные на текстах для проверки понимания прочитанного. Он состоит из множества вопросов с несколькими вариантами ответов, а также включает в себя ложные ответы, которые могут служить отвлекающими маневрами. Этот набор данных был создан на основе экзаменов, проводимых в Китае, и обеспечивает контекст для каждого вопроса.
-
SWAG (Situations with Adversarial Generations): Этот набор данных доступен здесь. Он содержит несколько вариантов ответов и фокусируется на примерах, в которых нужно выбрать правильный ответ на основе заданной ситуации. Здесь также имеются ложные варианты, которые делают процесс выбора более сложным и реалистичным для задач обработки естественного языка.
-
QASC (Question and Answering through Sentence Comprehension): Еще один набор данных, который может вас заинтересовать, это QASC. Он предлагает вопросы с несколькими вариантами ответов, включая такие, которые не являются правильными. Это может быть полезно для тонкой настройки ваших моделей.
Вы также упомянули, что у вас есть код для генерации ложных ответов. Если упомянутые выше наборы данных все еще вам не подходят, возможно, стоит рассмотреть возможность комбинирования подходов. Например, вы можете использовать набор данных с вопросами и ответами, а затем добавить ложные ответы, используя ваш алгоритм генерации.
В общем, перечисленные выше наборы данных должны помочь вам в вашей задаче. Они вместительны, хорошо структурированы и подходят для дообучения моделей, таких как GPT-3, с учетом ваших требований.