Что такого привносят Python библиотеки pandas/matplotlib/seaborn, чего нет в Tableau?

Вопрос или проблема

Я провел прошлый год, изучая Python. Как человек, который считал, что программирование невозможно освоить для тех, кто не из сферы CS/IT, я был, очевидно, ошеломлен мощью всего нескольких строк кода на Python!

Достигнув среднего уровня в целом, я был довольно горд собой, так как это значительно расширяет мои возможности в анализе данных и визуализации по сравнению с Excel (помимо множества других применений Python).

Чисто с точки зрения анализа данных и визуализации:

что приносит подход к тому же набору данных с pandas/matplotlib/seaborn/numpy по сравнению с использованием Tableau?

(кстати: я был очень разочарован, увидев, что все мои тщательно заработанные навыки манипуляции данными в Python доступны в таком дружественном графическом интерфейсе… :'( )

Не волнуйтесь – ваши тщательно заработанные навыки Python все еще важны 😉

Tableau не является заменой – это, по сути, средство обмена вашими инсайтами/находками. Это обертка вокруг вашего обычного инструментария (Pandas, Scikit-Learn, Keras и т. д.). Он может выполнять некоторый базовый анализ (используя базовые модели из sklearn), но самое мощное – это возможность разворачивать ваши модели, чтобы позволить людям запускать выводы на сохраненных или новых данных, а затем играть с ними в интерактивной панели управления.

Посмотрите это видео для хорошего обзора всего, что он может делать, и как он соединяется с Python (а также с R/MatLab). Там всего лишь немного шаблонного кода вокруг вашего обычного кода на Python.

Tableau также предлагает TabPy для настройки сервера, что позволяет красиво развертывать вашу работу, но в конечном итоге вам нужна их настольная версия для просмотра результатов (т.е. вашим клиентам она нужна, чтобы смотреть результаты). Это не бесплатно: https://www.tableau.com/pricing/individual

Вкратце, я бы сказал, что Tableau больше подходит как инструмент бизнес-аналитики, позволяющий, например, вашему начальнику, не занимающемуся обработкой данных, или другим заинтересованным сторонам интерактивно исследовать данные и результаты вашего моделирования. Подобно Microsoft’s PowerBI.

Есть официальный ответ и реалистичный ответ (с точки зрения бизнеса):

Официальный

Официально ваше знание Python приносит вам наибольшую выгоду в гибкости. Если вам нужно запустить экономическую модель, в которой вы хотите показать градиент неопределенности или что-то ещё сложное, сделать это вручную в любом программном обеспечении для визуализации данных/бизнес-аналитики будет затруднительно. Даже более простые задачи, такие как полукомплексные агрегаты, часто проще выполнить в нескольких строчках Python по сравнению с беспорядком, в который они могут быстро превратиться в BI-программное обеспечение.

Практическое

Программное обеспечение для бизнес-аналитики, включая Tableau, может справиться с значительной частью реальных шагов анализа данных и визуализации данных. Хотя они не отличаются особыми возможностями по сравнению с кодом, они вполне годятся для повседневного использования. В общем, в типичной бизнес-среде я бы легко рекомендовал их для большинства пользователей. Наибольшее ограничение для всех из них заключается в том, что самой главной задачей бизнес-аналитика является сбор и, что наиболее важно, очистка данных, а это сводится либо к ручному труду, либо к программированию. Все BI-программы стараются помочь в автоматическом получении данных и, в меньшей степени, в их очистке. Однако настоящая работа часто сводится к следующему: «Подключитесь к этим базам данных, очистите данные, объедините данные и поместите их куда-нибудь, чтобы вы или кто-то ещё могли визуализировать данные в BI-программном обеспечении».

И вот в чем дело: Google Data Studio – это, возможно, наименее способное из всех популярных BI-решений, но оно стало моим любимым решением. Это потому что, когда я правильно подготавливаю данные, я могу предоставить их любому для изучения, и у него самый простой/лучший UX. И да, любая сложная статистика будет происходить задолго до того, как она попадет в какое-либо BI-программное обеспечение (в Tableau и Microsoft Power BI вы также можете запускать Python прямо внутри продукта… лично я бы не рекомендовал это, так как это 1) становится просто неаккуратным и 2) выводится из-под контроля версий), но это происходит реже, чем можно было бы ожидать.

Заключение

Если ваш бизнес связан с бизнес-аналитикой, то я безусловно рекомендую опираться на бизнес-аналитику как можно больше. По моим наблюдениям, у вас есть:

  • Чем вы на самом деле занимаетесь: стороной вещей, связанной с Хранилищем Данных (извлечение данных, преобразование (очистка), и загрузка (хранение там, где вы можете получить доступ как из BI-программного обеспечения, так и из Jupyter)
  • Что увидят ваши конечные пользователи: BI-программное обеспечение для стандартных визуализаций
  • Чем вы хотите, чтобы оно было: иногда Jupyter ноутбуки для специализированных анализов

Конечно, ваш опыт может быть совершенно другим, но это был мой личный опыт после работы в течение нескольких лет в компании, которая помогала компаниям с управлением на основе данных (и, таким образом, я видел, как это работает во множестве компаний). И, да, часто все, что будет использовать компания, это Excel + Power Query.

PS. Tableau пытается быть этим универсальным решением. Лично мой опыт с ними не был положительным, но, если это стоит того, они являются самым признанным игроком на рынке.

Как человек, который работал над конкурентом Tableau, навыки Data Science по большей части превосходят необходимость использования BI-программ для сборки данных, сложного анализа и ад-хок отчетов.

Но BI-программное обеспечение все еще может быть полезным, если вам нужно развернуть свои результаты для большого количества людей, часто с разными правами на просмотр чего-то (например, вы можете видеть только свои собственные показатели, но не показатели Алисы). Для этого графические возможности Tableau и базовая модель безопасности довольно трудно воссоздать в Python.

Это утверждение также справедливо для многих сценариев использования, когда вам нужно регулярно обновлять отчеты и аудитории нужна хорошая подача отчетов.

С другой стороны, сборка данных, ETL и наиболее важные сложные аналитические конвейеры – не сильная сторона BI-программ, их гораздо лучше реализовывать в Python.
Кроме того, если вы предоставляете API, предназначенный для программного потребления, BI-программное обеспечение часто оказывается совсем неподготовленным.

Ответ или решение

Очевидно, что в мире анализа и визуализации данных существует несколько различных подходов, которые предоставляют уникальные возможности для решения задач. Сравнение мощных инструментов программирования, таких как Python с его библиотеками pandas, matplotlib и seaborn, с визуализационным инструментом высокого класса Tableau имеет свои нюансы и аспекты. Ведь каждая из этих технологий служит своей уникальной цели и может обеспечивать разную степень гибкости и глубины в обработке данных.

Теория: Возможности Python и Tableau

Программирование на Python предоставляет возможность решать широкий спектр задач, касающихся анализа и визуализации данных. Несмотря на то, что таких инструментов, как Tableau, хватает для выполнения основных задач в бизнесе, Python предлагает намного больше возможностей благодаря своим богатым библиотекам.

  • Pandas — это мощная библиотека для обработки данных, которая может предоставлять расширенные возможности работы с большими наборами данных. Она позволяет выполнять сложные операции агрегирования, фильтрации, обработки временных рядов и многое другое.

  • Matplotlib и Seaborn предназначены для визуализации данных. При их использовании есть возможность создавать графики любой сложности, настраивать их визуальные элементы вплоть до мельчайших деталей, а также разрабатывать интерактивные графики.

  • NumPy обеспечивает высокоэффективные многомерные массивы и различные математические функции, что позволяет выполнять численные вычисления на высоком уровне.

С другой стороны, Tableau — это прежде всего инструмент бизнес-аналитики, который разработан для того, чтобы позволить пользователям без навыков программирования легко получать и интерпретировать данные. Он превосходит в простоте использования, скорости построения визуализаций и возможности делиться интерактивными дашбордами.

Пример: Когда использовать Python, а когда Tableau

Представим ситуацию, когда требуется выполнить сложный экономический или статистический анализ с параметрами, которые находятся за пределами штатного функционала стандартного BI-инструмента. Тут на помощь приходит Python. Включение в процесс библиотеки pandas позволяет быстро агрегировать и очищать данные, используя мощные фильтры, функции группировки и расчета.

После того, как данные подготовлены, matplotlib и seaborn предоставят разнообразие возможностей для создания графиков с уникальными специфическими настройками, которые будут учитывать сложные зависимости между переменными. Создание кастомизированных визуализаций — вот где эти библиотеки проявляют свою мощь.

С другой стороны, Tableau позволяет быстро создать дашборды, чтобы предоставить доступ к данным удаленным коллегам или заинтересованным сторонам без длительного обучения. Он полезен, когда результат нужно развернуть для широкой аудитории, которая нуждается в удобной платформе, позволяющей взаимодействовать с данными в реальном времени.

Применение: Роль Python и Tableau в различных ситуациях

  • Флексибельность и сложность: Python предоставляет большую гибкость и подходящий инструмент, когда дело доходит до сложного анализа данных или интеграции с другими инструментами или источниками API. Это идеальный выбор для анализа данных, которые требуют нестандартного подхода или при работе с нестандартными моделями машинного обучения.

  • Интерактивное участие и совместная работа: Tableau идеален, когда требуется быстрый внедрение и распределение результатов. Это подходящий инструмент для командной работы, где аналитики данных могут создавать визуализации, и затем делиться ими с широким кругом заинтересованных сторон, которые могут взаимодействовать с этими данными в реальном времени.

  • Эффективность и скорость разработки: Python позволяет автоматизировать задачи и процессы, что значительно сокращает время на подготовку отчетов и анализ. Тогда как Tableau позволяет экономить время на стадиах создания интерактивных отчетов.

Подытожим, что каждый из инструментов имеет свою уникальную сферу применения и может не только дополнять, но и усиливать возможности друг друга. Python и его библиотеки обеспечивают глубокий анализ и высокую гибкость, необходимую для детальной работы с данными, в то время как Tableau позволяет быстро создавать и распространять качественные интерактивные визуализации, подводя итог к общей картине, доступной для немгновенных пользователей, что, в свою очередь, важно для информативного принятия решений.

Оцените материал
Добавить комментарий

Капча загружается...