Коррекция одного из нескольких сильных батч-эффектов в наборе данных.

Question 1

Мне интересно, какие статистические инструменты использовать при анализе данных, имеющих несколько сильных эффектов партии (распределения варьируются от одной партии к другой). Я хотел бы скорректировать эффект партии, когда он возникает от одной переменной, не устраняя потенциальный эффект партии от других переменных.

Если это неясно, короткий пример, вероятно, лучший способ объяснить мою проблему:

Представим, что у нас есть 10 человек, участвующих в эксперименте. Эксперимент заключается в следующем:

каждому человеку дается набор из 1 000 пронумерованных теннисных мячей, физические свойства которых мы знаем (например, вес, диаметр и цвет мяча)
каждого человека просят бросить 1 000 теннисных мячей по одному как можно дальше и записать свои результаты

По окончании эксперимента мы будем знать для всех 10 000 теннисных мячей:

расстояние, на которое был брошен мяч
кто бросил мяч
вес мяча
диаметр мяча
цвет мяча

Теперь, поскольку не все имеют одинаковые способности к броску теннисных мячей (будь то в терминах мышечной силы или чего-то другого), мы можем ожидать увидеть некоторые сильные эффекты партии в данных (например, мы могли бы наблюдать, что мяч, брошенный первым человеком, в среднем будет брошен дальше, чем мяч с таким же весом и диаметром, брошенный вторым участником и т.д.).

Коррекция для такого рода эффекта партии может быть выполнена несколькими способами, если бы всем был дан одинаковый набор мячей (в условиях с нормальными распределениями стандартизация, вероятно, сработала бы отлично). Теперь представьте, что при организации эксперимента мы недостаточно обратили внимание и в итоге дали некоторым людям более тяжелые теннисные мячи, а другим – меньшие теннисные мячи и т.д.

В конце эксперимента мы осознаем, используя тест Хи-квадрат (или, скажем, тест Краскала-Уоллиса), что каждому не был предоставлен набор мячей, полученных из случайной выборки всех 10 000 мячей.

Как мы можем скорректировать для того, кто бросал мяч, не устраняя эффекты партии, возникающие из-за того, что набор мячей был различным?

Основная проблема заключается в том, что, корректируя эффект партии с помощью обычной стандартизации (например), мы, вероятно, в конечном итоге уберем эффект, вызванный тем, что некоторым людям были даны более тяжелые или большие мячи.

Или, другими словами, используя пример, как мы могли бы учесть разницу в силе между первым и вторым участником, не корректируя при этом тот факт, что у первого участника в среднем были более тяжелые теннисные мячи, чем у второго?

Сначала я думал запустить обобщенную линейную модель, где зависимой переменной будет расстояние, на которое были брошены мячи, а все остальные переменные – регрессорами, а затем вычесть из зависимой переменной только эффект переменной для того, кто бросал мяч. Однако я не уверен, будет ли это статистически обосновано, поэтому спрашиваю, могут ли быть использованы другие методы, или сработает ли этот.

Question 2

Моя первая попытка в этом направлении – сгруппировать мои независимые переменные и использовать метки в предсказателе контролируемого обучения. Но, я думаю, это может быть хорошей исследовательской задачей за пределами краткого ответа на stackoverflow. Я бы рекомендовал вам начать с статьи о необычном моделировании данных.

Надеюсь, это поможет!

Question 3

Вы описываете эффекты или вариацию внутри и между субъектами. Один из подходов – анализ дисперсии (ANOVA), который пытается разделить наблюдаемую дисперсию для определенной переменной на компоненты, относящиеся к различным источникам вариации.

Коррекция одного из нескольких сильных батч-эффектов в наборе данных.

Вопрос или проблема

Ответ или решение

Постановка задачи

Подходы к решению

Заключение