Вопрос или проблема
У меня есть два “образца”.
- Первый состоит примерно из 400 физических измерений величины (взятых за один час, и реальная ситуация не является стационарной). Они показывают сильно скошенное распределение, для которого теоретическая модель не известна, а значения могут лежать между 0 и (теоретически) +бесконечностью.
- Второй “образец”, к сожалению, состоит только из одной точки данных, так как он получен путем моделирования физики сценария, предполагая, что это стационарное состояние в течение этого часа. (Я не совсем уверен, следует ли рассматривать это как среднее значение за этот час или просто как одно измерение в тестировании гипотез).
Я хочу найти способы количественно оценить, насколько хорошо модель описывает данные. Я думал, что мог бы использовать тестирование гипотез, но не уверен, что информация, которую я имею здесь, достаточна. Сначала я думал сделать тест Манна-Уитни, но (как я думаю) одной точки данных слишком мало. Может быть, это случай, когда я могу просто использовать t-тест, даже если данные скошены? Будет ли уместен тест знаков для одной выборки? Существует ли совершенно другой подход, который я мог бы рассмотреть?
Я новичок в этом и чувствую, что заблудился в этом зоопарке существующих тестов гипотез.
Вы можете применить t-тест, предполагая модельное среднее как среднее популяции, рассчитанное при предположении, что стационарное состояние существовало. Наблюдаемые данные образца (n = 400) для скорости ветра могут быть использованы для вычисления выборочного среднего. Если у вас сильно скошенные данные, вы можете удалить выбросы из образца. Тест Манна-Уитни – это непараметрический тест, основанный на вероятности. Ваши данные не соответствуют его условиям.
Ответ или решение
Вопрос о том, как провести гипотетическое тестирование в условиях, когда у вас есть два образца – один из которых содержит лишь одну точку данных, требует внимательного подхода к выбору статистического метода. Давайте разберемся более детально с вашей ситуацией.
Описание проб
-
Первый образец: у вас есть примерно 400 физических измерений, которые, как вы указали, имеют значительно скошенное распределение. Размер выборки позволяет предположить, что вы могли бы использовать различные методы анализа, чтобы понять основные характеристики распределения.
-
Второй образец: он состоит всего из одной точки данных, полученной путем математического моделирования на основе предположения о стационарном (steady state) состоянии системы. Вопрос заключается в том, следует ли рассматривать это значение как среднее или как отдельное измерение в контексте тестирования.
Статистические методы
С учетом вышеприведенного, давайте рассмотрим несколько подходящих методов тестирования:
-
t-тест для одного образца: Этот тест применяется для сравнения средней выборки с известным значением (в вашем случае — значением из модели). Однако, если данные сильно скошены, это может привести к неверным выводам, и результаты могут быть незначительными, если предположение о нормальности не выполняется. Учитывая, что у вас 400 измерений, вы можете оценить среднее и стандартное отклонение вашей выборки и использовать t-тест для определения, отличается ли ваше модельное значение от настоящего среднего.
-
Тест знаков (One Sample Sign Test): Это непараметрический тест, который можно использовать, если данные не распределены нормально. Вы можете рассматривать модельное значение как "гипотетическое среднее", и проводить тест знаков, чтобы определить, отличается ли ваша выборка от этого значения. Поскольку этот тест требует меньше предположений о распределении, он может подойти вашему случаю.
-
Критерий Манна-Уитни: Этот тест предназначен для сравнения двух независимых выборок и не подходит, поскольку у вас отсутствует вторая выборка. Кроме того, одна точка данных не обеспечивает достаточной статистической мощности для применения этого метода.
Альтернативные подходы
-
Bootstrap методы: Если вы хотите избежать ограничений традиционных тестов, рассмотрите возможность реализации бутстреп-методов. Это позволит вам создать множество выборок из вашей первой выборки и оценить достоверность модели, сравнив её предсказанное значение с вашими фактическими данными.
-
Визуализация данных: Построение графиков (например, ящиков с усами или распределений) может помочь вам лучше понять, как ваше модельное значение сопоставляется с эмпирическими данными.
Заключение
Ваша ситуация представляет собой некоторую уникальную сложность, и выбор теста зависит от ваших целей и уровня неопределенности, который вы готовы принять. Если вы предполагаете использование t-теста, общая рекомендация, учитывая скошенность данных, — провести предварительный анализ и, если возможно, использовать непараметрические методы, такие как тест знаков. Если у вас есть дополнительные вопросы о ваших данных или методах анализа, не стесняйтесь исследовать их глубже или консультироваться с опытным статистиком.