Как обучить алгоритм машинного обучения с несколькими метками

Question 1

У меня есть следующая проблема, и я очень надеюсь, что есть ее решение. Я также подозреваю, что существует простой подход к этому. Я просто не вижу его в данный момент. Буду очень признателен за любую помощь или совет.

Итак, у меня следующая ситуация:

Я попросил людей пометить около 1000 точек данных (каждую дважды) по 5-балльной шкале, баллы которой не равномерно распределены. Тексты оценивались по нескольким качественным характеристикам (например, понятности). Как и следовало ожидать, оценщики не всегда соглашались с оценкой. Однако при анализе согласованности оценщиков удалось определить “существенную” надежность (согласно Лэндису и Коху).

Теперь я хочу использовать размеченные данные в качестве входных данных для алгоритма машинного обучения (например, SVM и Random Forest). Теперь задача состоит в том, как оптимизировать данные заранее. В настоящее время для одной и той же выборки доступны разные метки.

Среднее значение между различными метками не кажется мне разумным. Есть ли стандартные процедуры, как я могу предварительно скорректировать набор данных?

Вы бы очень мне помогли!

Заранее большое спасибо.

Question 2

Если вы собираетесь использовать сводную статистику, вы должны подготовить ее так, чтобы она была хорошо подходит для вашей задачи, то есть захватывала большую часть соответствующей информации. Для таких вещей обычно нет лучшего универсального решения, все зависит от конкретной проблемы. Вы не указали, о чем ваша проблема, поэтому я не могу много помочь, возможно, используйте медианное значение.

Question 3

Я бы постарался избегать любых сводных статистик. Когда я имел дело с подобными проблемами, лучшее решение заключалось в том, чтобы сохранить каждый размеченный текст как отдельный элемент. Так что если оригинальный набор данных выглядит так:

| текст | метка |
|-------|-------|
| "foo" | 0     |
| "foo" | 5     |
| "foo" | 1     |
| "bar" | 3     |
| "bar" | 3     |
| "bar" | 3     |

вместо того, чтобы делать что-то вроде

| текст | метка   |
|-------|---------|
| "foo" | 3       |
| "bar" | 3       |

Я бы использовал оригинальный набор данных. С таким подходом вы оставляете модели возможность изучить, что некоторые тексты сложнее размечать, чем другие; например, “foo” имеет 3 разные метки, в то время как “bar” был размечен одинаково всеми оценщиками.

Также наличие разных меток для одного и того же ввода не является проблемой, это означает лишь то, что исходя из вашего ввода невозможно получить идеальные прогнозы, и поскольку ваша проблема связана с человеческой субъективностью, имеет смысл, что ваша модель не может достичь идеальной точности.

Как обучить алгоритм машинного обучения с несколькими метками

Вопрос или проблема

Ответ или решение

Обучение алгоритмов машинного обучения с несколькими метками: подробное руководство

1. Понимание проблемы и данных

2. Сохранение исходных данных

3. Варианты обработки данных

4. Оценка и валидация модели

5. Итоговые рекомендации