Мой вопрос касается дорожной карты по инженерии данных.

Вопрос или проблема

вы все опытные люди в области науки о данных, машинного обучения, глубокого обучения. Мне 20 лет, я знаю C++ и Python. Я решал много задач Project Euler. Но мой вопрос к вам (кто более опытен, чем я, в области науки о данных): “действительно ли необходимо соревновательное программирование в вашей области? Или оно не используется, но спрашивается на собеседованиях?” Потому что мой старший брат, который является дата-сайентистом в BP (British Petroleum), сказал, что проекты, соревнования Kaggle, навыки статистического моделирования и библиотеки Python с хорошим владением R важны. Какова ситуация? Помогите и направьте меня. Мне действительно интересна математика (и это моя сильная сторона), статистика и большие данные, хотя я никогда не выполнял никаких проектов в этой области.

Ответ или решение

Конечно, давайте разберёмся с тем, как выстроить дорожную карту для становления успешным инженером по обработке данных, учитывая ваш интерес к математике, статистике и большим данным. Поскольку вы уже обладаете знаниями в C++ и Python и проявляете интерес к решению сложных математических задач на Project Euler, у вас есть отличный старт.

Теория
Инженерия данных — это междисциплинарная область, которая фокусируется на проектировании и управлении данными и вычислительными системами для поддержания анализа данных. Чтобы стать успешным инженером данных, нужно понимать не только программирование, но и основы работы с базами данных, облачные технологии, а также актуальные инструменты и платформы для обработки больших данных.

Важно понимать, что инженерия данных подразумевает знание целого ряда инструментов и технологий, таких как Apache Hadoop, Apache Spark, базы данных NoSQL (например, MongoDB, Cassandra), традиционные реляционные базы данных (например, PostgreSQL, MySQL) и различные облачные решения (например, AWS, Google Cloud Platform, Azure).

Пример
Рассмотрим пример: ваше знание Python позволяет вам работать с такими библиотеками, как Pandas и NumPy, которые полезны для анализа данных. Дополнительно вы можете изучить библиотеку PySpark для работы с Apache Spark. Это поможет вам эффективно обрабатывать и анализировать большие объемы данных.

Вам также будет полезно изучение SQL для работы с реляционными базами данных и понимание принципов ETL (Extract, Transform, Load) процессов, поскольку они являются основным инструментарием для большинства инженеров данных.

Применение
С точки зрения практического применения, я рекомендовал бы начать с небольших проектов, которые помогут вам внедрить теоретические знания на практике. Например, можно взять набор данных с Kaggle и попытаться решить задачу анализа данных, применяя навыки, которые вы уже имеете, и постепенно интегрируя новые технологии.

Например, представьте проект по анализу социально-экономической информации: используйте Python для обработки данных, SQL для извлечения данных из базы данных, Apache Spark для работы с большими данными и визуализационные инструменты, такие как Tableau или Plotly, для представления результатов.

В вашей ситуации, поскольку вы проявили интерес к статистике и математике, вам может быть особенно интересно изучить области, такие как машинное обучение и алгоритмическое прогнозирование, которые часто используют сложные математические модели и требуют глубокой статистической аналитики.

Необходимые навыки и знания
Конкурентное программирование (CP) может быть полезно, но оно не является строго необходимым для карьеры в области инженерии данных. CP развивает алгоритмическое мышление и умение решать задачи под давлением, что ценится на интервью. Однако, в реальной работе инженера данных более важными будут навыки проектирования систем и работы с большими данными.

Тем не менее, ваш брат прав в том, что проекты, Kaggle-соревнования, навыки статистического моделирования и командование библиотеками Python более значимы для практической карьеры в этой области. Участие в Kaggle-соревнованиях предоставит вам возможность работать с реальными наборами данных и развивать портфолио проектов, что может сильно помочь на старте карьеры.

Заключение
Итак, чтобы построить успешную карьеру в области инженерии данных, я бы рекомендовал чётко планировать изучение следующих областей:

Основы программирования и алгоритмов: уже начато у вас и стороник Competitive Programming может расширить эту базу.
Базы данных и SQL: обязательные знания для любого специалиста по данным.
Системы анализа данных и библиотеки для работы с данными: такие как Pandas, NumPy, PySpark.
Технологии больших данных: изучение инструментов для обработки больших данных, таких как Hadoop и Spark.
Визуализация данных: например, Tableau, Power BI или соответствующие библиотеки Python.
Машинное обучение и статистика: учитывая ваш интерес и предрасположенность, можно углубиться в изучение сквозных задач машинного обучения.

Весь этот путь требует времени и практики, а главное — интереса и настойчивости. Удачи вам на этом пути, ваше математическое образование и интерес подобного рода будет только помогать.