Отсутствующие значения населения в данных переписи населения

Question 1

У меня есть данные о населении с Census.gov:

Общее население США по возрасту за год с 1940 по 2010

В зависимости от диапазона десятилетий, в данных отсутствуют дискретные значения населения для возрастов старше определенного возраста. Вместо этого предоставляется агрегированная сумма, представляющая все возраста старше установленного порога.

Конкретно это следует следующему шаблону:

1940 к 1979: дискретные данные с 0 до 84 и агрегированные данные для возрастов 85 и старше
1980 к 1999: дискретные данные с 0 до 99 и агрегированные данные для возрастов 100 и старше
2000 к 2010: дискретные данные с 0 до 84 и агрегированные данные для возрастов 85 и старше

Желаемый результат – получить дискретные данные для каждого возраста и года с 0-99, а затем агрегированный итоговый показатель для возрастов 100 и старше.

Поэтому я хочу внести отсутствующие дискретные значения населения для возрастов 85-100 за годы с 1940 по 1979 и с 2000 по 2010.

И я хочу использовать фактические дискретные значения населения для возрастов 85-100 за годы с 1980 по 1989, чтобы добиться этого результата.

Некоторые наблюдения:

Шаблон отсутствующих значений является MNAR (Missing Not At Random) – эти значения были систематически опущены, но агрегированное значение, представляющее недостающие детали, предоставлено
Данные о населении за этот временной промежуток являются детерминированными: уровни населения растут линейно каждый год; рабочий цикл человеческого организма конечен, и ограничения и пределы хорошо известны.

Смотря на данные, мы можем видеть, что каждое из трех подмножеств лет имеет очень похожие шаблоны. Больше изменений в более молодых возрастах, и вариация сглаживается для возрастов старше 60

Затем, если мы сосредоточимся на годах с 1980 по 1989, мы можем подогнать хорошую кривую для возрастов с 0 до 100 с множественной R-квадратом 0.979.

Затем, если мы сузим фокус до возрастов 60-100 и еще больше до возрастов 85-100, множественный R-квадрат увеличивается до 0.9996.

Теперь, если мы изменим фокус и посмотрим на растущие уровни населения, мы можем наблюдать, что эти отношения линейны. Население растет стабильными темпами из года в год.

Общее население с 1940 по 2010:

Возраст с 85 до 100 за годы с 1980 по 1999. Каждый возраст линейный. У каждого возраста немного более низкий темп роста (меньший наклон).

Мой вопрос

Когда я вношу дискретные отсутствующие значения населения по возрасту и году, как мне объединить подогнанную кривую, которая моделирует изменения в населении при увеличении возраста, с линейной регрессией, которая моделирует изменения в населении из года в год?

Применяется ли один или несколько задокументированных методов естественным образом к проблеме, как я ее описал?
Например: KNN, PCA, BPCA, Среднее, MICE, другое?

Если есть рекомендуемый метод, можете ли вы направить меня на доступные пакеты R или Python и документацию, которая описывает механику применения данного подхода?

Question 2

Я думаю, вам следует остерегаться использования кривых для экстраполяции за пределы возрастных порогов – в частности, я думаю, вам следует рассмотреть:

смертность увеличивается с возрастом; Я бы предположил, что она увеличивается с возраста с увеличенной скоростью (особенно в более старшем возрасте). Сможете ли вы эффективно это уловить?
очевидно, что существует некоторый перекрытие между популяциями в последующих годах (например, кто-то, кто включен в данные 1985 года, может также быть в данных 1986 года). Какой эффект это окажет на иммутацию данных?

Я бы предложил другой подход. Актуарии традиционно создавали “таблицы жизни”, которые фиксируют смертность в когорт населения. Если вы сможете найти набор таблиц, который применим к рассматриваемому периоду, вы можете использовать их для расчета численности населения.

Отсутствующие значения населения в данных переписи населения

Вопрос или проблема

Мой вопрос

Ответ или решение

Проблема отсутствующих значений и предлагаемые решения

Подход к имитации отсутствующих значений

Методы и инструменты для имитации

Предложения по выполнению работы

Заключение