Вопрос или проблема
Предположим, я считаю количество случайных событий в последовательности. Для классического примера скажем, что я считаю, сколько различных моделей автомобилей проезжают по шоссе.
После некоторых подсчетов я вижу, что моделей тысячами. Но только небольшое количество встречается часто, в то время как многие появляются только один или несколько раз (гистограмма напоминает экспоненциальное затухание). Когда я думаю о статистике этой ситуации, кажется, что не имеет значения, что я увидел этот один редкий автомобиль в этот один раз, в отличие от другого редкого автомобиля — это не кажется информативным в любом случае. Что если я объединю все редкие модели в одну категорию, например “другие”, чтобы облегчить хранение данных? Сколько информации я потеряю?
Я дошел до того, что свел проблему к более простой и нашел верхнюю границу.
- Объединение 3 категорий A, B и C в одну категорию D аналогично тому, как сначала объединить категории A и B в категорию E, а затем объединить E и C в F. F будет точно таким же, как D. Таким образом, окончательная потеря информации не зависит от пути, и нам достаточно решить потерю информации при объединении 2 категорий. Результат должен легко обобщаться на n категорий.
- Для 2 категорий мы можем перекодировать последовательность так, чтобы каждое появление категорий A и B записывалось как C. Однако для каждого случая C дополнительно фиксируется бит, который показывает, откуда пришло это C — из A или из B. Эта перекодировка не приводит к потере информации. Стирание этих битов фактически объединит A и B в C. Таким образом, средняя потеря информации от объединения категорий A и B составит (1 бит) * ((количество появлений A) + (количество появлений B)).
Моя логика выше верна? Является ли моя верхняя граница аккуратной? Какова нижняя граница/точное решение?
В конечном итоге я пришел к собственному решению. Я не уверен, что оно правильное, поэтому не буду отмечать его как ответ.
Назовем исходное распределение P. Предположим, мы будем объединять A и B в новую категорию X. Энтропия P будет: $S_P = – \sum P_i\ln P_i$, где $i$ — это A, B, C и т.д. Примечательно, что $P_A > 0, P_B > 0, P_X = 0$.
После объединения мы получаем новое распределение $Q$. Теперь $Q_A=Q_B=0$ и $Q_X =Q_A+Q_B$. Это будет иметь энтропию $S_Q$.
Потеря энтропии при объединении составит $S_P-S_Q = P_A \ln P_A + P_B \ln P_B – Q_X \ln Q_X$. Все остальные термины, такие как $P_C\ln P_C$ для категории $C$, на которую это не повлияло, присутствуют в обоих распределениях и взаимно уничтожаются.
Ответ или решение
Давайте проанализируем проблему потерь информации при объединении (коллапсе) двух категорий в контексте информации и энтропии. Обозначим начальное распределение как \( P \), где мы имеем несколько категорий, включая категории \( A \), \( B \) и другие.
### Определение энтропии
Энтропия системы, представляющая собой меру неопределенности или информации, может быть дана формулой:
\[
S_P = – \sum P_i \ln P_i
\]
где \( P_i \) – вероятность появления i-й категории. Из этого уравнения видно, что энтропия для категорий \( A \) и \( B \) будет выше, если они имеют значительное количество наблюдений.
### Процесс коллапса категорий
Теперь, если мы объединим категории \( A \) и \( B \) в новую категорию \( X \), то вероятность новой категории будет:
\[
Q_X = P_A + P_B
\]
При этом для категорий \( A \) и \( B \) будет:
\[
Q_A = Q_B = 0
\]
Теперь энтропия после коллапса \( S_Q \) будет выглядеть следующим образом:
\[
S_Q = -\left(Q_X \ln Q_X + \sum_{i \neq A, B} P_i \ln P_i\right)
\]
### Потеря информации при коллапсе категорий
Потеря информации \( \Delta S \) при объединении двух категорий может быть выражена как разница между первоначальной энтропией и новой:
\[
\Delta S = S_P – S_Q
\]
Представляя это более подробно, мы можем выделить известные члены:
\[
\Delta S = -\left(P_A \ln P_A + P_B \ln P_B + \sum_{i \neq A, B} P_i \ln P_i\right) + \left(-Q_X \ln Q_X – \sum_{i \neq A, B} P_i \ln P_i\right)
\]
Здесь мы видим, что члены с \( P_i \) для категорий, не затронутых коллапсом, сокращаются, и у нас остается:
\[
\Delta S = – (P_A \ln P_A + P_B \ln P_B) + Q_X \ln Q_X
\]
Подставив \( Q_X = P_A + P_B \), мы можем представить потерю информации:
\[
\Delta S = -(P_A \ln P_A + P_B \ln P_B) + (P_A + P_B) \ln (P_A + P_B)
\]
### Интерпретация результата
Таким образом, вычисленная потеря информации показывает, как много информации было утеряно после объединения категорий \( A \) и \( B \). Если \( P_A \) и \( P_B \) равны, это следует интерпретировать как компромисс между сложностью описания системы (количеством категорий) и уровнем информации, содержащейся в категориях.
### Заключение
Ваш подход к решению проблемы выглядит весьма правильным, и ваше использование формулы для расчета потерь информации логично. Общий взгляд на энтропию и понятие коллапса категорий в этом контексте приводят к более ясному пониманию того, как потери информации могут быть количественно описаны. Ваше утверждение о том, что максимальная потеря информации происходит из-за уходящих категорий с их вероятностями, также совершенно верно.