Обучение модели, где каждый ответ в наблюдательных данных имеет разную известную дисперсию.

Question 1

У меня есть набор данных, в котором каждая зависимая переменная — это число успехов в N испытаниях Бернулли, причем N и p (вероятность успеха) отличаются для каждого наблюдения. Цель состоит в том, чтобы обучить модель предсказывать p, учитывая предикторы. Однако наблюдения с малым N будут иметь более высокую дисперсию, чем те, у которых N больше.

Рассмотрим следующий сценарий для лучшей иллюстрации: предположим, что монеты с разными изображениями имеют разные искажения, и это искажение зависит от изображения на монете. У меня есть множество монет, каждая из которых имеет разное изображение и различное искажение p. Я хочу создать модель, которая может предсказывать искажение монеты, учитывая только изображение на монете. Я бросаю каждую монету разное количество раз и записываю число успехов и общее количество бросков. Таким образом, мой набор данных состоит из каждого изображения и его оценки p=успехи/броски.

Поэтому мой вопрос: как мне поступить при обучении моей модели. Кажется, что больший вес следует придавать наблюдениям с большим размером выборки (числом бросков). Я не думаю, что имеет смысл включать число бросков в качестве предиктора, потому что суть заключается в том, чтобы построить модель, которая предсказывает p, используя только изображение на монете, поэтому эту разницу в дисперсии для ответа для каждого наблюдения следует учитывать при обучении модели.

Я использую несколько типов моделей, но в основном работаю с keras и xgboost.

Question 2

Возможно, теперь я понимаю вопрос. Все еще используя пример с монетами, как я уже говорил, количество испытаний для данной монеты влияет только на уровень доверия к оцененной вероятности/искажению для этой одной монеты. Поэтому, похоже, вы спрашиваете, как учесть эту “уверенность” в зависимой переменной, если вообще стоит. Другими словами, вы спрашиваете, должна ли ваша модель отражать неопределенность относительно истинного значения $p$ для каждой монеты с учетом числа бросков монеты.

Я не думаю, что назначать разные веса наблюдениям уместно в этой ситуации, потому что, ещё раз, число бросков одной монеты не имеет ничего общего с другими монетами.

Я не уверен, удовлетворит ли это ваши потребности, но существует метод под названием интервальная регрессия, который используется для моделирования зависимой переменной, определяемой как интервал между нижней и верхней границами. Это вид регрессии для цензурированных данных (проблема, когда истинное значение ответа не известно) и обычно используется для моделирования таких переменных, как диапазоны доходов или время выживания. В вашем случае вы могли бы вычислить доверительный интервал для истинного значения $p$ для каждой монеты, используя $p$, вычисленное по вашим испытаниям, и конкретное количество испытаний для каждой монеты. Затем вы бы использовали эту регрессию с двумя зависимыми переменными: нижней границей и верхней границей доверительного интервала.

Основываясь на моем быстром поиске, я не нашел много поддержки Python для этого типа модели, кроме:

Деревья интервалов максимального зазора – решающие деревья для интервальной регрессии

Drouin, A., Hocking, T.D. & Laviolette, F. (2017). Деревья интервалов максимального зазора. Материалы 31-й конференции по нейронным информационным системам (NIPS 2017), Лонг-Бич, Калифорния, США.

https://arxiv.org/abs/1710.04234

https://aldro61.github.io/mmit/

Обучение модели, где каждый ответ в наблюдательных данных имеет разную известную дисперсию.

Вопрос или проблема

Ответ или решение

Обучение модели с учетом различной дисперсии откликов в наблюдательных данных

Введение

Проблема с различной дисперсией

Варианты подхода

Заключение