Как применить модель к обучающим данным для выявления неправильно размеченных наблюдений?

Вопрос или проблема

У меня есть список людей, атрибуты этих людей (рост, вес, кровяное давление и т. д.) и двоичная целевая переменная, называемая has_heart_issues. Эти данные представляют собой полную популяцию данных, и я пытаюсь определить, похожи ли те, кто указан как “Нет” для has_heart_issues, на людей, указанных как “Да”.

Чтобы ответить на этот вопрос, я разделил данные на обучающую (70%) и тестовую (30%) выборки. Я обучил модель случайного леса на обучающей выборке и протестировал ее на тестовой. Результаты хорошие, но я не знаю, как применить модель к популяции, так как использовал большую ее часть для обучения. Есть ли способ применить модель к полному набору данных (включая обучающие данные), так как изначально у меня были метки для полного набора данных? По сути, я пытаюсь выяснить, были ли неправильно обозначены какие-либо из людей.

Можно ли применить модель к обучающим данным, чтобы найти “неправильно обозначенные” записи?

Существует ровно одна вещь, которую вы можете проверить, изучив прогнозы на ваших обучающих данных. Это численная сходимость вашей модели обучения. Любая проверка точности модели может использовать только данные резервирования или тестовые данные – это и есть суть кросс-валидации. Как только архитектура модели и гиперпараметры были оптимизированы с помощью n-кратной кросс-валидации, стандартной процедурой является обучение одной производственной модели на полном наборе данных. В этот момент вы получили всю информацию от обучающего набора, которую могли.

Ответ или решение

Для того чтобы применить модель к обучающим данным и выявить возможные неправильно размеченные экземпляры в данных, следует учитывать ряд важных аспектов.

Определение проблемы

У вас есть набор данных с людьми, включая их атрибуты (рост, вес, артериальное давление и т.д.) и целевую переменную has_heart_issues, указывающую наличие сердечно-сосудистых заболеваний. Вы уже разделили данные на обучающую (70%) и тестовую (30%) выборки, обучили модель случайного леса и протестировали её. Теперь возникает вопрос: можно ли применять полученную модель к полному набору данных для выявления неправильно размеченных записей?

Шаг 1: Обучение модели на полном наборе данных

Хоть вы и достигли хороших результатов на тестовой выборке, важно понимать, что модель должна сначала быть оптимизирована через перекрёстную проверку (n-fold cross-validation), чтобы избежать переобучения. После завершения этого этапа можно обучить финальную модель на всём наборе данных.

Шаг 2: Предсказание для идентификации неверных меток

После того как модель обучена, вы можете использовать её для предсказания целевой переменной has_heart_issues для всего набора данных, включая обучающую выборку. Это даст возможность сравнить предсказанные значения с фактическими метками. Важно отметить, что это допустимо, поскольку у вас есть доступ к истинным меткам, и вы хотите оценить, насколько они согласованы с предсказаниями модели.

Шаг 3: Анализ несоответствий

  1. Сравнение меток: Сравните предсказанные значения с фактическими метками. Учреждайте категории, например, "правильно размеченные" и "неправильно размеченные" (например, если модель предсказала "Yes", а фактическая метка — "No").

  2. Дополнительный анализ: Проанализируйте те случаи, где предсказанные и фактические метки не совпадают. Это может быть сделано с помощью визуализации, например, с использованием диаграмм рассеяния, чтобы увидеть, какие атрибуты имеют значительное влияние на классификацию.

Шаг 4: Реакция на находки

При выявлении неправильно размеченных записей важно рассмотреть следующие шаги:

  • Корректировка данных: Если количество неправильно размеченных экземпляров значительное, возможно, стоит рассмотреть возможность их переразметки или дальнейшего изучения.

  • Улучшение модели: Проанализируйте, какие атрибуты или конфигурации модели можно улучшить, чтобы повысить точность предсказания. Возможно, имеет смысл рассмотреть другие алгоритмы или методы обработки данных.

Заключение

Применение модели к обучающим данным может быть полезным для выявления неправильно размеченных записей, если это сделано правильно. Главное, держать в уме, что все действия должны проводиться с учетом данных и дополнительной их проверки. Также важно помнить, что одно из основных преимуществ использования модели на полном наборе — это возможность получения более комплексной картины о вашем наборе данных и его качестве.

В заключение, применение модели к обучающим данным для поиска ошибок размечивания возможно и целесообразно, если исследования будут выполнены с адекватной аналитикой и последующим улучшением модели, основываясь на полученных результатах.

Оцените материал
Добавить комментарий

Капча загружается...