Обработка пропущенных значений в наборе данных о преступности в Чикаго

Question 1

Я занимаюсь небольшим проектом по набору данных о уровне преступности в Чикаго, и я заметил, что в нем более 600 000 значений NA, в основном в полях местоположения.
Мне кажется, что, несмотря на наличие около 6 миллионов строк (данные с 2001 года по настоящее время), это слишком много данных для удаления (особенно поскольку строки содержат все остальные данные, такие как тип преступления, район, дата, описание местоположения и т. д.)

Вот столбцы и количество NA, найденных в каждом столбце:

ИД ОБЛАСТИ СООТВЕТСТВИЯ НОМЕР ДЕЛА ДАТА БЛОК IUCR ПЕРВИЧНЫЙ_ТИП ОПИСАНИЕ
        616029  0           0    0     0    0            0           0
ОПИСАНИЕ_МЕСТОПОЛОЖЕНИЯ АРЕСТ ДОМ НОМЕР УЧЕТА ОКРУГ  РАЙОН КОД_FBI X_КООРДИНАТА
                   0      0        0    0       47 614854        0        60921
Y_КООРДИНАТА ГОД ОБНОВЛЕНО ШИРОТА ДОЛГОТА МЕСТОПОЛОЖЕНИЕ ТИП_ПРЕСТУПЛЕНИЯ НАЗВАНИЕ_СООБЩЕСТВА
       60921    0          0    60921     60921        0          0         616120

Когда я ищу RPubs для этого проекта, многие люди либо удаляют все строки с NA, либо даже не обсуждают недостающие данные, обе эти стратегии, на мой взгляд, не являются хорошими решениями.

Часть причины, по которой я не хочу удалять все эти строки, заключается в том, что каждая строка представляет собой законное преступление; когда я их удаляю, я теряю информацию о преступлениях, что влияет на мои подсчеты и категории. И поскольку в данных указано, какой тип преступления был совершен, я могу включить это в эти подсчеты.

Кто-нибудь работал с этими данными раньше? У вас есть предложение по обработке недостающих данных? Или я могу оставить их там, есть ли с этим проблемы?

Я планирую провести анализ временных рядов по уровню преступности, однако, в поле преступления нет недостающих данных, поэтому, думаю, это не повлияет на него.

Question 2

Предполагая, что я правильно читаю формат вашей таблицы, NA относятся исключительно к атрибутам геолокации. Поле “Округ” является самым полным, в нем только 47 недостающих значений. Локации некоторых преступлений скрыты по причинам конфиденциальности данных?

Из 6 млн преступлений в вашем наборе данных:

10 % или ~600,000 пропущены или скрыты по причине Района, Области или названия
1 % или ~60,000 отсутствуют пространственные координаты.

Вы могли бы определить большинство недостающих данных по Району и Области, анализируя пары координат в ГИС.

Как вы будете обрабатывать недостающие данные, во многом будет определяться гипотезой и анализом, который вы намерены провести. Вы упоминаете временные ряды, и, по-видимому, будет нормально включить все преступления для прямого анализа временных рядов на уровне Чикаго. Для более высоких пространственных разрешений вы можете использовать округ (удалив 47 недостающих точек) и так далее. Сколько усилий вы потратите на обработку недостающих данных, такие как использование шагов, описанных выше, будет зависеть от того, насколько полезными могут быть эти данные для вашего анализа. Я подозреваю, что большинство людей, работающих с этими данными, склонны удалять NA, когда они сопоставляют уровни преступности в разных районах.

Question 3

В продолжение темы, поднятой BenP, мне интересно, можете ли вы получить больше информации о местоположении, чем вы думаете. Я вижу, что для переменной ‘beat’ нет NA. Если я не ошибаюсь, в Чикаго ‘beat’ – это патрульная зона/обязанности полицейского. Так что, например, ‘beat 1’ может быть Лупом или чем-то подобным. Вы могли бы использовать это или другую включенную информацию, чтобы уменьшить количество NA.

Обработка пропущенных значений в наборе данных о преступности в Чикаго

Вопрос или проблема

Ответ или решение

1. Анализ причин пропуска данных

2. Использование дополнительных переменных

3. Временной анализ без потерь данных

4. Геопространственный анализ с использованием GIS

5. Разработка стратегии обработки