Книга по Data Science/Analysis, охватывающая обработку отсутствующих данных

Вопрос или проблема

Я уже некоторое время пытаюсь изучать науку о данных. На самом деле, я закончил карьерный путь “Ассоциированный научный сотрудник по данным” на DataCamp. Однако, как вы можете ожидать, курсы не покрывают всё (у меня было много пробелов в знаниях, когда я работал с реальными наборами данных). Поэтому я читаю пару книг, чтобы закрыть эти пробелы.

Проблема в том, что мне нравится читать учебники, которые охватывают науку о данных в целом и не углубляются слишком сильно в теоретические детали тем/подтем (когда мне нужно, я нахожу необходимую информацию из более специфических источников), потому что я не являюсь явным специалистом в данных. Но ни одна из книг, которые я читаю, не освещает пропущенные данные должным образом. Экспериментальный дизайн и анализ данных для биологов Куинна и Киоу имеет раздел о пропущенных данных, но он больше о том, что такое пропущенные данные. И книги, которые я нашел специально о пропущенных данных, слишком детализированы.

Я могу справиться с деталями, если другого решения нет, но я был бы рад услышать ваши предложения по книгам с достаточным количеством объяснений (не слишком детально, не слишком просто).


Вот книги, которые я смотрел до сих пор:

  • Экспериментальный дизайн и анализ данных для биологов (Куинн и Киоу) – слишком просто
  • Практическая статистика для специалистов по данным (Брюс, Брюс и Гедек) – нет части о пропущенных данных
  • Пропущенные данные: анализ и проектирование (Грэм) – слишком детально
  • Прикладной анализ пропущенных данных (Эндерс) – мой любимый пока, но все же немного сложновато
  • Множественная иммутация пропущенных данных (Хэ, Чжан и Хсу) – похоже на Эндерса
  • Основы биостатистики (Рознер) – нет части о пропущенных данных
  • Введение в практику статистики (Мур, Маккейб и Крейг) – нет части о пропущенных данных

Ответ или решение

Для тех, кто занимается изучением Data Science и сталкивается с вопросами, связанными с отсутствующими данными, выбор подходящей литературы может стать настоящим вызовом. Вы закончили карьерный путь "Data Scientist Associate" на платформе DataCamp и осознали, что некоторые аспекты работы с реальными данными остаются за рамками этого курса. Основные трудности связаны с поиском учебников, которые предлагают сбалансированный подход к теме отсутствующих данных — без чрезмерного теоретизирования, но с необходимой глубиной.

Исходя из вашего опыта и предоставленных вами отзывов о книгах, могу предложить несколько решений, которые могут вам помочь:

  1. "R for Data Science" от Гаррета Грольемунда и Хэдли Викхема: Хотя эта книга не полностью сосредоточена на пропущенных данных, она прекрасно иллюстрирует, как использовать язык R для импутации данных и работы с отсутствующими значениями. Она охватывает практические методы и стратегии, которые могут быть полезны при решении подобных задач.

  2. "Data Science for Business" от Foster Provost и Tom Fawcett: Это еще одна книга, которая, не углубляясь в теорию, предлагает практический обзор работающих подходов к управлению данными, включая работу с отсутствующими данными. Возможно, это именно то, что вам нужно для понимания более широкого контекста Data Science.

  3. "The Art of Data Science" от Roger D. Peng и Elizabeth Matsui: Это краткое введение в анализ данных, основанное на статистических принципах и реальных примерах. Хотя оно не фокусируется исключительно на пропущенных данных, общее понимание анализа и научного подхода поможет вам в дальнейших исследованиях.

  4. "An Introduction to Statistical Learning" от Gareth James и соавторов: Эта книга представляет собой отличный ресурс, который охватывает широкий спектр тем, включая управление данными и модели для работы с отсутствующими значениями. Она сочетает доступное объяснение с практической направленностью.

Если несмотря на все предложенные материалы тема остается сложной, вы могли бы также рассмотреть прохождение специализированных онлайн-курсов или вебинаров, которые сосредоточены именно на этой проблеме. Эта форма обучения может предоставить вам более четкое и детальное понимание, и зачастую предлагает возможность общения с преподавателями и профессионалами из отрасли для быстрого решения возникающих вопросов.

Подводя итог, ключ к освоению успешного управления отсутствующими данными в Data Science заключается в поиске материалов, которые не только теоретически обосновывают подходы, но и предоставляют ясные, практические руководства для их применения.

Оцените материал
Добавить комментарий

Капча загружается...