Рассчитайте медиану на основе количества значений.

Вопрос или проблема

У меня есть данные о том, сколько у нас конкретных процессоров и их показатели CPU. На основе этого я хочу динамически рассчитывать медиа- и квартильные статистики.

Например, у меня есть таблица, которая выглядит так:

Название                     Количество  Оценки
i7-5820k 3,3 GHz 6 ядер     11         12,996
i7-950 3,1 GHz 4 ядра       4          5595
i7-3820 3,6 GHz 4 ядра      7          8998
i5-3570k 3,4 GHz 4 ядра     1          7153

Что я хочу сделать с данными, так это повторить оценки из первой строки 11 раз, из второй 4 раза и так далее.

Сейчас я работаю с этим в Google Таблицах, но думаю, что аналогичная функция должна быть доступна в большинстве приложений для работы с таблицами.

Отвлекаясь от математики, вы можете использовать следующую массивную формулу :

=MEDIAN(IF(COLUMN(A:Z)<=B2:B5,C2:C5))

CtrlShiftEnter

Примечания:

  • IF(COLUMN(A:Z)<=B2:B5,C2:C5) генерирует двумерный массив 4 строки, 26 столбцов, где каждая строка повторяет ячейку в столбце C столько раз, сколько указано в ячейке столбца B; оставшиеся значения в строке – это FALSE.

  • Функция MEDIAN игнорирует ячейки FALSE и будет оценивать фактические значения в сгенерированном двумерном массиве.

В Excel есть функция QUARTILE(), которую вы можете использовать. Но ваш набор данных достаточно мал, чтобы вы могли получить ответ почти интуитивно.

Во-первых, переместите строку с процессорами i7-950 в конец списка. Всего 23 процессора, так что медиана – это оценка 11.5-го ранжированного процессора. Аналогично, первый квартиль – это оценка 5.75-го ранжированного процессора.

В вашем случае оба ответа равны 8998. Это немного странно, но связано с распределением ваших данных. И первый, и второй квартиль попадают в одну и ту же “категорию”. Представьте, если бы все в США весили 150 фунтов. Тогда медианный вес и все процентили были бы 150 фунтов.

Вы МОЖЕТЕ утверждать, что ваши значения квартиля и медианы оба находятся между точками данных, и затем интерполировать между точками данных. Тогда вы можете рассчитать квартиль как 3/4 пути между 5595 и 8998. А медиану как середину между 8998 и 12,996.

Я получаю 8197.25 и 10,997.

Чтобы увидеть, что думает функция QUARTILE(), создайте столбец с 11 значениями 12,996, 7 значениями 8998, 1 значением 7153 и 4 значениями 5595.

Затем используйте QUARTILE(диапазон,1) и QUARTILE(диапазон,2), чтобы рассчитать первый квартиль и медиану. Здесь “диапазон” – это список из 23 оценок.

ИЗМЕНЕНИЕ: интерполяция здесь не совсем уместна, потому что оценки процессоров все точные, а не средние значения диапазона оценок. Я ДУМАЮ. Я предполагаю, что вы посмотрели опубликованные значения показателей производительности для каждого процессора.

Я не уверен, что случится, если вы фактически запустите бенчмарк на каждом процессоре. Все ли одинаковые процессоры дадут одинаковую оценку, или будут разные результаты? Если бы имел место определенный разброс в оценках идентичных процессоров (возможно, из-за температуры или ??), тогда интерполяция была бы оправдана, как я думаю.

Комментарии приветствуются.

Другой метод вычисления медианы (который не полагается на расширение подсчетов) – это отсортировать строки по значению, добавить столбец для накопительных подсчетов и использовать функции XMATCH и INDEX, чтобы определить значение, соответствующее центральному наблюдению (ям). Учитывая следующее в ячейках A1:C5,

Значение  Количество  Накоп. количество
 5595      4           4
 7153      1           5
 8998      7          12
12996     11          23

Следующая формула вычисляет медиану (пробелы добавлены для читаемости):

IF(ISODD(C5),
  INDEX(A2:A5, XMATCH(C5/2, C2:C5, 1)),
  AVERAGE(
    INDEX(A2:A5, XMATCH(C5/2, C2:C5, 1)),
    INDEX(A2:A5, XMATCH(C5/2+1, C2:C5, 1))))

Вы, вероятно, сможете адаптировать это для первого и третьего квартилей, но это может быть сложно.

Ответ или решение

Расчёт медиа и квартилей на основе количеств значений в таблице

В этой статье мы рассмотрим, как вычислить медиану и квартильные статистики для набора данных о процессорах, который представлен в виде таблицы с колонками "Имя", "Количество" и "Оценка". Это необходимо, чтобы понять распределение производительности процессоров, основываясь на их физических характеристиках.

Исходные данные

Допустим, у нас есть следующая таблица:

Имя Количество Оценка
i7-5820k 3,3 GHz 6 cores 11 12996
i7-950 3,1 GHz 4 cores 4 5595
i7-3820 3,6 GHz 4 cores 7 8998
i5-3570k 3,4 GHz 4 cores 1 7153

Для цели нашего расчета мы будем учитывать, что каждое значение в колонке "Оценка" повторяется число раз, указанное в колонке "Количество".

Шаг 1: Генерация полного набора данных

Сначала нужно создать полный набор данных, который включает каждую оценку столько раз, сколько указано в соответствующей строке:

  • 11 раз по 12996
  • 4 раза по 5595
  • 7 раз по 8998
  • 1 раз по 7153

Таким образом, наш расширенный список оценок будет выглядеть следующим образом:

12996, 12996, ..., 12996 (11 раз), 5595, 5595, 5595, 5595, 8998, 8998, ..., 8998 (7 раз), 7153

Шаг 2: Подсчет медианы

Теперь, когда у нас есть полный набор оценок, мы можем рассчитать медиану. Медиана — это значение, которое делит набор данных на две равные части. Чтобы найти медиану, нужно отсортировать значения и найти среднее значение для центральных элементов.

В нашем случае, общее количество значений составляет 23 (11 + 4 + 7 + 1 = 23). Так как это нечетное число, медиана будет 12-ым элементом отсортированного списка:

  1. Отсортируем значения:
    5595, 5595, 5595, 5595, 7153, 8998, 8998, 8998, 8998, 8998, 8998, 8998, 12996, 12996, 12996, 12996, 12996, 12996, 12996, 12996, 12996, 12996, 12996
  2. Находим медиану: 12-ый элемент — 8998.

Следовательно, медиана наших данных равна 8998.

Шаг 3: Подсчет квартилей

Квартиль — это мера, которая делит набор данных на четыре равные группы. Квартильные значения (Q1, Q2, Q3) соответственно представляют 25%, 50% и 75% данных.

  1. Первый квартиль (Q1): Находим 6-ой элемент в отсортированном списке (25% от 23):

    • 1-ый до 6-ого значения: 5595, 5595, 5595, 5595, 7153, 8998.
    • Следовательно, Q1 = 8998.
  2. Второй квартиль (Q2) — это медиана, которую мы уже рассчитали: 8998.

  3. Третий квартиль (Q3): Находим 18-ый элемент в отсортированном списке (75% от 23):

    • 13-ый до 18-ого значения: 12996, 12996, 12996, 12996, 12996, 12996.
    • Следовательно, Q3 = 12996.

Итак, окончательные значения квартилей:

  • Q1 = 8998
  • Q2 (медиана) = 8998
  • Q3 = 12996

Заключение

Полученные результаты демонстрируют, как можно эффективно вычислить медиану и квартильные значения на основе данных о процессорах. Используя подобные подходы в Excel или Google Sheets, можно легко адаптировать данные и проводить такие расчёты для более сложных наборов данных. С точки зрения анализа, эти статистические меры предоставляют полезную информацию о производительности и распределении различных процессоров в имеющемся наборе данных.

Оцените материал
Добавить комментарий

Капча загружается...