Вопрос или проблема
Я занимаюсь небольшим проектом по набору данных о уровне преступности в Чикаго, и я заметил, что в нем более 600 000 значений NA
, в основном в полях местоположения.
Мне кажется, что, несмотря на наличие около 6 миллионов строк (данные с 2001 года по настоящее время), это слишком много данных для удаления (особенно поскольку строки содержат все остальные данные, такие как тип преступления, район, дата, описание местоположения и т. д.)
Вот столбцы и количество NA, найденных в каждом столбце:
ИД ОБЛАСТИ СООТВЕТСТВИЯ НОМЕР ДЕЛА ДАТА БЛОК IUCR ПЕРВИЧНЫЙ_ТИП ОПИСАНИЕ
616029 0 0 0 0 0 0 0
ОПИСАНИЕ_МЕСТОПОЛОЖЕНИЯ АРЕСТ ДОМ НОМЕР УЧЕТА ОКРУГ РАЙОН КОД_FBI X_КООРДИНАТА
0 0 0 0 47 614854 0 60921
Y_КООРДИНАТА ГОД ОБНОВЛЕНО ШИРОТА ДОЛГОТА МЕСТОПОЛОЖЕНИЕ ТИП_ПРЕСТУПЛЕНИЯ НАЗВАНИЕ_СООБЩЕСТВА
60921 0 0 60921 60921 0 0 616120
Когда я ищу RPubs для этого проекта, многие люди либо удаляют все строки с NA, либо даже не обсуждают недостающие данные, обе эти стратегии, на мой взгляд, не являются хорошими решениями.
Часть причины, по которой я не хочу удалять все эти строки, заключается в том, что каждая строка представляет собой законное преступление; когда я их удаляю, я теряю информацию о преступлениях, что влияет на мои подсчеты и категории. И поскольку в данных указано, какой тип преступления был совершен, я могу включить это в эти подсчеты.
Кто-нибудь работал с этими данными раньше? У вас есть предложение по обработке недостающих данных? Или я могу оставить их там, есть ли с этим проблемы?
Я планирую провести анализ временных рядов по уровню преступности, однако, в поле преступления нет недостающих данных, поэтому, думаю, это не повлияет на него.
Предполагая, что я правильно читаю формат вашей таблицы, NA относятся исключительно к атрибутам геолокации. Поле “Округ” является самым полным, в нем только 47 недостающих значений. Локации некоторых преступлений скрыты по причинам конфиденциальности данных?
Из 6 млн преступлений в вашем наборе данных:
- 10 % или ~600,000 пропущены или скрыты по причине Района, Области или названия
- 1 % или ~60,000 отсутствуют пространственные координаты.
Вы могли бы определить большинство недостающих данных по Району и Области, анализируя пары координат в ГИС.
Как вы будете обрабатывать недостающие данные, во многом будет определяться гипотезой и анализом, который вы намерены провести. Вы упоминаете временные ряды, и, по-видимому, будет нормально включить все преступления для прямого анализа временных рядов на уровне Чикаго. Для более высоких пространственных разрешений вы можете использовать округ (удалив 47 недостающих точек) и так далее. Сколько усилий вы потратите на обработку недостающих данных, такие как использование шагов, описанных выше, будет зависеть от того, насколько полезными могут быть эти данные для вашего анализа. Я подозреваю, что большинство людей, работающих с этими данными, склонны удалять NA, когда они сопоставляют уровни преступности в разных районах.
В продолжение темы, поднятой BenP, мне интересно, можете ли вы получить больше информации о местоположении, чем вы думаете. Я вижу, что для переменной ‘beat’ нет NA. Если я не ошибаюсь, в Чикаго ‘beat’ – это патрульная зона/обязанности полицейского. Так что, например, ‘beat 1’ может быть Лупом или чем-то подобным. Вы могли бы использовать это или другую включенную информацию, чтобы уменьшить количество NA.
Ответ или решение
Обработка значений NA в наборе данных по уровню преступности в Чикаго
Работа с пропущенными значениями в наборе данных – одна из ключевых задач в аналитической работе. В вашем случае, в случае набора данных по преступности в Чикаго, вы столкнулись с более чем 600,000 значениями NA, что составляет около 10% от общего числа записей. Это серьезный вызов, особенно учитывая, что это данные по преступлениям, собранные с 2001 года и по настоящее время, и что каждое преступление представляет собой важную часть анализа. Вот несколько подходов к обработке пропущенных значений, взятых из ваших наблюдений и дополненных теориями и практиками работы с данными.
1. Анализ причин пропуска данных
Первым шагом должно быть выяснение причин отсутствия данных. Если данные о местоположении пропущены по причинам конфиденциальности, это может указывать на важность правовых и этических аспектов. Возможно, эти преступления были развиты в районах с высоким уровнем преступности, и это влияет на данные о социально-экономическом статусе этих районов.
2. Использование дополнительных переменных
Следующий шаг – проанализировать дополнительные переменные для заполнения пропусков. Например, поле "beat" может быть сильно информативным, так как оно отражает полицейский округ, отвечающий за определенную область. Можно выяснить, какие конкретные районы охватывают эти биты, и использовать эту информацию для указания вероятного местоположения преступления. Также можно рассмотреть другие переменные, такие как тип преступления и дата, чтобы провести анализ зависимости местоположения от времени.
3. Временной анализ без потерь данных
Вы упомянули, что планируете провести временной анализ преступности. Так как у вас нет пропущенных данных в поле "crime type", можно с уверенностью сказать, что временной анализ можно будет проводить без влияния отсутствующих значений. Исходя из этого, рекомендуется провести временной анализ на уровне города (или более обширного района), поскольку это позволит вам использовать все доступные данные.
4. Геопространственный анализ с использованием GIS
С учетом того, что пропуски в полях "WARD" и "COMMUNITY_AREA" можно частично восполнить, используя геоинформационные системы (GIS), имеет смысл использовать координаты для определения принадлежности к определенному району. Это может быть полезно для сосредоточения внимания на высококриминальных зонах и идентификации паттернов в данных.
5. Разработка стратегии обработки
Имея все эти данные, вы можете разработать стратегию обработки NA значений. Вместо того чтобы просто удалять записи с NA, вы можете использовать методы, такие как:
-
Импутация: заполнение пропусков на основании доступных данных (например, с использованием методов близости, таких как KNN).
-
Группировка: использование агрегатов по другим доступным переменным для создания более обширного набора данных.
-
Создание вспомогательных категорий: например, создание отдельной категории для "преступлений с отсутствующим местоположением".
В заключение, пропуск значений в наборе данных по преступности в Чикаго не обязательно является препятствием, а может быть возможностью для более глубокого анализа. Вместо удаления вы можете использовать различные подходы для работы с такими значениями, обеспечивая большую целостность вашего анализа. Рассматривая все возможности, вы сможете получить более полное представление о преступности в Чикаго и ее динамике.