Потеря энтропии при слиянии двух категорий

Question 1

Предположим, я считаю количество случайных событий в последовательности. Для классического примера скажем, что я считаю, сколько различных моделей автомобилей проезжают по шоссе.

После некоторых подсчетов я вижу, что моделей тысячами. Но только небольшое количество встречается часто, в то время как многие появляются только один или несколько раз (гистограмма напоминает экспоненциальное затухание). Когда я думаю о статистике этой ситуации, кажется, что не имеет значения, что я увидел этот один редкий автомобиль в этот один раз, в отличие от другого редкого автомобиля — это не кажется информативным в любом случае. Что если я объединю все редкие модели в одну категорию, например “другие”, чтобы облегчить хранение данных? Сколько информации я потеряю?

Я дошел до того, что свел проблему к более простой и нашел верхнюю границу.

Объединение 3 категорий A, B и C в одну категорию D аналогично тому, как сначала объединить категории A и B в категорию E, а затем объединить E и C в F. F будет точно таким же, как D. Таким образом, окончательная потеря информации не зависит от пути, и нам достаточно решить потерю информации при объединении 2 категорий. Результат должен легко обобщаться на n категорий.
Для 2 категорий мы можем перекодировать последовательность так, чтобы каждое появление категорий A и B записывалось как C. Однако для каждого случая C дополнительно фиксируется бит, который показывает, откуда пришло это C — из A или из B. Эта перекодировка не приводит к потере информации. Стирание этих битов фактически объединит A и B в C. Таким образом, средняя потеря информации от объединения категорий A и B составит (1 бит) * ((количество появлений A) + (количество появлений B)).

Моя логика выше верна? Является ли моя верхняя граница аккуратной? Какова нижняя граница/точное решение?

Question 2

В конечном итоге я пришел к собственному решению. Я не уверен, что оно правильное, поэтому не буду отмечать его как ответ.

Назовем исходное распределение P. Предположим, мы будем объединять A и B в новую категорию X. Энтропия P будет: $S_P = – \sum P_i\ln P_i$, где $i$ — это A, B, C и т.д. Примечательно, что $P_A > 0, P_B > 0, P_X = 0$.

После объединения мы получаем новое распределение $Q$. Теперь $Q_A=Q_B=0$ и $Q_X =Q_A+Q_B$. Это будет иметь энтропию $S_Q$.

Потеря энтропии при объединении составит $S_P-S_Q = P_A \ln P_A + P_B \ln P_B – Q_X \ln Q_X$. Все остальные термины, такие как $P_C\ln P_C$ для категории $C$, на которую это не повлияло, присутствуют в обоих распределениях и взаимно уничтожаются.

Потеря энтропии при слиянии двух категорий

Вопрос или проблема

Ответ или решение