Вопрос или проблема
У меня есть корпус вручную аннотированных (так называемый “золотой стандарт”) документов и коллекция аннотаций систем обработки естественного языка (NLP) на тексте из корпуса. Я хочу провести выборку систем и золотого стандарта с помощью бутстрепа, чтобы приблизительно оценить среднее и стандартную ошибку для различных мер, чтобы затем провести серию гипотезных тестов, возможно, с использованием ANOVA.
Проблема заключается в том, как выполнить выборку. У меня есть 40 документов в корпусе с примерно 44 тысячами ручных аннотаций в золотом стандарте. Я подумывал использовать каждый документ в качестве выборочной единицы и брать 60% документов для каждой выборки (или 24 документа на выборку). Однако проблема в том, что каждый вручную аннотированный документ не имеет одинакового количества аннотаций, и это нарушает использование одинакового размера выборки для каждой выборки.
Есть ли какие-либо предложения, как реализовать этот бутстреп?
Это просто зависит от того, что вы считаете своим объектом интереса: из вашего описания единицей может быть либо документ, либо аннотация. Ваша методика описывает использование документа в качестве единицы, и это приемлемо, если тесты, которые вы планируете провести, совместимы с этим.
Другой вариант — использовать аннотацию в качестве единицы: в этом случае вы бы каждый раз выбирали 60% из 44 тысяч аннотаций, и у вас было бы сочетание аннотаций из нескольких документов. В зависимости от того, что именно вы тестируете, это может быть проблемой, в частности, я не вижу, как в таком случае вы бы учитывали случаи ложных отрицаний.
Поскольку у вас есть текстовые документы разного размера (я предполагаю), вы также можете рассмотреть разные варианты: предложение, абзац, блок из N предложений и так далее.
.
Ответ или решение
В современном мире обработки естественного языка и анализа данных часто возникает необходимость оценки статистических характеристик, таких как средние значения и стандартные ошибки, для дальнейшего проведения гипотетических тестов, например, ANOVA. Ваша задача заключается в использовании бутстрэп-выборки для системы аннотации и "золотого стандарта" документов. Рассмотрим подробно, как лучше всего подойти к этому вопросу.
Первоначально, вы рассматриваете документы как единицу выборки. Это разумный подход, если ваши тесты ориентированы именно на уровне документа. Однако вы правы в своих опасениях: поскольку количество аннотаций в каждом документе может варьироваться, это создает неравномерность выборки, что может повлиять на результаты.
Другой подход, чтобы разрешить эту ситуацию, — использовать аннотацию в качестве единицы выборки. В этом случае, вы можете выбирать 60% из 44 тысяч аннотаций каждый раз, формируя смесь аннотаций из разных документов. Такой метод может усложнить учет ложных отрицательных результатов, так как он подразумевает смешивание данных из различных документов, что может снизить точность вашего анализа.
Так как размер текста в документах варьируется, стоит рассмотреть еще несколько альтернативных подходов:
-
Выборка на уровне предложений или абзацев: Если ваши документы содержат текстовые блоки разной длины, попробуйте выбирать предложения или параграфы в качестве единиц выборки. Это может дать более однородную структуру данных при анализе.
-
Блоки из N предложений: Если ваш текст можно разбить на блоки одинаковой длины (например, 5 предложений), это может упростить анализ, обеспечив более равномерное распределение данных по выборке.
Руководствуясь вашими целями и природой текста, выберите наиболее подходящий метод и протестируйте его на практике, чтобы убедиться в его эффективность с точки зрения точности и удобства.
Оптимизация для SEO: рассматривались такие ключевые слова, как "бутстрэп выборка", "анализ данных", "обработка естественного языка", "гипотетический тест ANOVA". Будьте уверены, что эти элементы правильно интегрированы, чтобы улучшить поисковую видимость этого запроса.