Как строится матрица совпадений для вычисления альфа Криппендорфа?

Содержание

Вопрос или проблема
Ответ или решение
Шаг 1: Определение кодировщиков и категорий
Шаг 2: Создание матрицы совпадений
Шаг 3: Подсчет совпадений
Несоответствия в источниках
Вывод

Вопрос или проблема

Я изучаю два документа, чтобы лучше понять, как строить матрицы совпадений с целью получения более полного представления о коэффициенте альфа Криппендорфа. Я использую эти два:

Мне кажется, что между ними есть несоответствие. Возможно, его нет, но я ищу помощь в выяснении, неверно ли я понимаю, или действительно есть несоответствие.

В первой ссылке я смотрю раздел B (“Номинальные данные, 2 наблюдателя, нет пропущенных данных”), где представлена матрица совпадений. Во второй ссылке я рассматриваю раздел “Матрицы совпадений”.

Рассмотрим матрицу надежности, представленную в первой ссылке:

Для того чтобы рассчитать элементы матрицы совпадений, в второй ссылке приведено следующее определение:

$$o_{vv’}=\sum_{u=1}^{N}\frac{\sum_{i\neq i’}^{m}I(v_{iu}=v)I(v_{i’u}=v’)}{m_u-1}=o_{v’v},$$

где $u$ является горизонтальным элементом матрицы надежности (столбцы), $m_u$ — это количество маркировок, фактически присутствующих в столбце $u$.

Это кажется достаточно простым. Для элемента $o_{aa}$ (или $o_{11}$) мы должны иметь:

$$
o_{aa}=\frac{I(a=a)I(b=a)}{2-1}+\frac{I(a=a)I(a=a)}{2-1}+\frac{I(b=a)I(b=a)}{2-1}+\frac{I(b=a)I(b=a)}{2-1}
$$

$$
+\frac{I(d=a)I(b=a)}{2-1}+\frac{I(c=a)I(c=a)}{2-1}+…
$$

и так далее. Очевидно, что только один из элементов суммирования не равен нулю, а именно второй элемент. Следовательно, $$o_{aa}=1.$$

Используя ту же формулу/логику, мы приходим к $$o_{bb}=2.$$

Но если мы посмотрим на первую ссылку, она получает удвоенное значение для элементов матрицы совпадений, и я не понимаю, почему. Я даже не понимаю объяснение ссылки о том, почему она получает такие значения для матрицы совпадений.

Может кто-нибудь помочь?

Формула в статье Википедии, похоже, ограничена двумя кодировщиками. Посмотрите на сумму значений в u для m кодировщиков, когда I равно j, так что каждое значение в u должно быть сопоставлено с другим значением в u. На самом деле, эта сумма будет связывать значения i со значениями j и значения в j со значениями i. Поэтому o под aa будет 2, а не 1. И o под bb будет 4, а не 2.

Однако я не вижу, как формулировка Википедии может дать матрицы совпадений для более чем двух кодировщиков, так как это потребует двух сумм, которые сопоставляют каждое из m значений с каждым из m-1 других значений.

Ответ или решение

Конструкция матрицы совпадений для вычисления альфа-Крипендорфа является ключевым этапом в анализе надежности кодирования. Этот процесс включает в себя систематическое сопоставление и подсчет совпадений между двумя или более кодировщиками. Разберём этот процесс подробно, учитывая ваши вопросы о возможных несоответствиях между двумя источниками информации.

Шаг 1: Определение кодировщиков и категорий

Матрица совпадений строится для группы кодировщиков, где каждый кодировщик оценивал объекты (например, документы, изображения и т.д.) с использованием определённых категорий. Кодировщики могут использовать различные категории, и важно собрать все значения, закодированные каждым из них.

Шаг 2: Создание матрицы совпадений

Матрица совпадений — это квадратная таблица, где каждая ячейка (o_{vv’}) содержит количество совпадений между кодировщиками (v) и (v’) для конкретной категории. Чтобы построить эту матрицу, необходимо провести сравнение всех пар кодировщиков.

Для каждой категории (например, категория (a), категория (b)) необходимо подсчитать как часто кодировщики согласны с этой категорией.
Если рассмотреть два кодировщика и количество их оценок, то формула для элемента матрицы совпадений будет:

[
o{vv’} = \sum{u=1}^{N} \sum{i \neq i’}^{m} I(v{iu} = v) I(v_{i’u} = v’)
]

где (I) — индикаторная функция, которая равна 1, если утверждение верно, и 0 в противном случае, а (m) — количество оценок.

Шаг 3: Подсчет совпадений

Чтобы определить конкретные значения в ячейках матрицы, выполните шаги:

Идентификация совпадений: Когда оба кодировщика присваивают одному и тому же объекту одну и ту же категорию, это считается совпадением. Например, если (v) и (v’) равно (a), следует учитывать каждое совпадение в матрице.
Суммирование: Сложите все совпадения для каждой категории.
Пример: Если два кодировщика присвоили категории объектов согласно следующим наблюдениям:
- Кодировщик 1: [a, b, b, a]
- Кодировщик 2: [a, a, b, b]
То для элемента (o{aa}):
[
o{aa} = 2 \quad (оба кодировщика присвоили два объекта категории (a))
]
Для элемента (o_{bb}) аналогично подсчитайте количество совпадений.

Несоответствия в источниках

Ваши замечания о предполагаемом несоответствии между первыми двумя ссылками могут возникать из-за разных подходов к интерпретации и представлению данных.

Первый источник может учитывать лишь успешные совпадения один раз, а второй источник — повторно для подтверждения совпадений между всеми парами.
Таким образом, на самом деле разница в интерпретации формулы, указанной на Википедии, Элементы подсчета могут удваиваться, если интерпретировать имеющиеся данные как несколько критериев для пар.

Вывод

Корректное построение матрицы совпадений — это сложный, но важный процесс, который требует тщательной интерпретации данных. При проведении исследования над надежностью кодирования через альфа-Крипендорфа, убедитесь, что вы следуете согласованным методологическим рамкам и четко фиксируете все совпадения для получения точных и воспроизводимых результатов.

Опирайтесь на рекомендуемую формулу и понимание ваших данных, чтобы устранить разночтения. Как только будет разработан согласованный подход к построению матрицы совпадений и интерпретации, это значительно упростит анализ и повысит качество исследований.