Вопрос или проблема
Я являюсь аналитиком бизнес-аналитики и работаю почти исключительно с SQL Server Management Studio (SSMS) и Tableau для создания отчетов BI. Я хотел бы начать встраивать некоторые предиктивные аналитические методы и, похоже, существует множество вариантов. Мне было бы интересно получить мнение людей, которые работали в области машинного обучения/анализа данных о том, как мне действовать. Похоже, что есть множество вариантов.
Мои объективные критерии:
1.) Узнать и быстро применять предиктивную аналитику в сфере здравоохранения.
Часто мои переменные исхода являются бинарными (был ли рецидив или нет), мои входные переменные обычно категориальные (в какой программе они были?) и это данные электронной медицинской документации (ЭМД) для людей с психическими заболеваниями, поэтому конкретные метрики встречаются редко (какова была их оценка навыков?).
2.) Сделать импорт/экспорт данных простым между SSMS и любыми инструментами, которые я выберу.
Мне нужна простота в отчетности и минимизация количества используемых программных платформ — при слишком большом количестве инструментов наши пользователи перегружены, поэтому я хотел бы использовать одну платформу для отчетности (в данный момент это Tableau).
3.) Иметь надежную базу пользователей для любого выбранного инструмента.
Я хочу иметь возможность учиться и устранять неполадки без проблем или использовать устаревшее/нишевое программное обеспечение, которым никто не пользуется. Я не великий самоучка, поэтому было бы здорово, если бы существовала хорошая онлайн-поддержка/учебники. Сетевые эффекты — это круто!
Таким образом, я провел поверхностное исследование того, что уже есть у Microsoft: похоже, существуют R Client, Microsoft Machine Learning Server (прежний Microsoft R Server) и SQL Server Machine Learning Services (In-Database), а также обычный R.
Вариант с использованием базы данных выглядит привлекательно, особенно потому, что я мог бы выполнять хранимые процедуры с фронтенда и получать предсказательные результаты данных — даже если это всего лишь результаты регрессионного анализа. Однако мне хотелось бы иметь возможность использовать различные библиотеки R (ggplot2 выглядит потрясающе) и не уверен, возможно ли это.
Сервер R тоже выглядит хорошо, но снова, мне хотелось бы сохранить интеграцию выходов с Tableau, чтобы у пользователей был один инструмент. Если я смогу использовать Tableau для запуска хранимой процедуры с входными параметрами, которые передаются на сервер R, и получить обратно результаты, это было бы здорово. Я просто не знаю, будут ли результаты сохраняемы, и если да, то можно ли их сохранить в базе данных, используемой SSMS.
Я не знаю, что делает R client; учитывая, что я работаю в небольшой организации с IT-отделом из 6 человек, возможно, это лучший вариант. Но, вероятно, у него также есть свои недостатки.
Наверняка здесь много путаницы, и я надеюсь, что вы простите мою наивность, но информации много. Я пытаюсь найти достаточное и удовлетворительное решение с надежными обоснованиями для покупки, прежде чем мы серьезно вложим деньги во что-то. Я склонен к Microsoft Machine Learning Server (прежний R Server), но очень открыт для убеждения. Есть ли у вас предложения?
Спасибо!
Аарон
Недавно я прошел онлайн-курс по аналитике данных и анализу больших данных. В курсе использовалось приложение R, бесплатная программа с открытым исходным кодом для анализа. Класс также включал разделы по Tableau для его визуализационных процессов. Эти два кода, похоже, хорошо работают вместе. R имеет свои собственные методы построения графиков, но не на уровне Tableau. Я бы порекомендовал вам попробовать R и посмотреть, подходит ли он вам. R выглядит очень способным и, я думаю, проще, чем создавать что-то с нуля на Python.
Ответ или решение
Какой программный продукт выбрать для предсказательной аналитики (для новичка)?
Меня зовут Аарон, и я работающий бизнес-аналитик, ориентированный на управление бизнес-информацией (BI), который на данный момент практически полностью пользуется SQL Server Management Studio (SSMS) и Tableau для создания отчетов. В последнее время я стремлюсь интегрировать предсказательную аналитику в свою работу и, вполне естественно, столкнулся с множеством доступных решений. Я хотел бы поделиться своими целями и полученными запросами в надежде, что кто-то с опытом в области машинного обучения и науки о данных сумеет дать рекомендации.
Объективные критерии выбора:
-
Быстрое изучение и внедрение предсказательной аналитики в сфере здравоохранения. Мои целевые переменные чаще всего бинарные (например, рецидив или его отсутствие), а входные переменные — категориальные (например, какая программа применялась). Учитывая работу с данными электронных медиков (EHR) для людей с психическими расстройствами, надежные метрики предоставить трудно, что делает работу с данными непростой задачей.
-
Простота импорта/экспорта данных между SSMS и выбранными инструментами. Учитывая требования к удобству отчетности и необходимости минимизации числа использованных платформ, я хотел бы использовать один и тот же инструмент для отчетности (сейчас это Tableau).
-
Количество пользователей и доступная поддержка. Я хотел бы воспользоваться решениями с широким сообществом пользователей, чтобы иметь возможность находить информацию и справляться с возникающими проблемами без необходимости изучать что-то узкоспециализированное или устаревшее. Для меня важно иметь доступ к хорошим онлайн-ресурсам и туториалам.
Исследование решений Microsoft:
В ходе своих изысканий я обратил внимание на предложения от Microsoft: R Client, Microsoft Machine Learning Server (прежний Microsoft R Server) и SQL Server Machine Learning Services. Важно отметить, что решение в формате "в базе данных" представляется мне очень привлекательным, так как это позволит запускать хранимые процедуры прямо с фронтенда и получать результаты предсказательной аналитики – даже на начальном уровне, например, результаты регрессионного анализа.
Тем не менее, масса вопросов остается по поводу интеграции R-библиотек, таких как ggplot2. Убедиться, что мы можем использовать эти мощные инструменты, крайне важно. По моему мнению, интеграция Tableau для запуска хранимых процедур с параметрами, передаваемыми на R Server, позволила бы получить данные, которые могли бы вернуться к пользователю в подготовленном виде для дальнейшего анализа.
Что касается R Client, мне пока не совсем ясно, как это работает, но учитывая размер нашей IT-команды (всего 6 человек), это может быть хорошим вариантом с некоторыми недостатками.
Рекомендации:
После анализа приведенных факторов и на основе успешного опыта других пользователей, я бы рекомендовал следующие решения:
-
SQL Server Machine Learning Services (In-Database): Это решение позволяет вам применять продвинутые алгоритмы анализа прямо в вашей базе данных SQL Server, что упрощает интеграцию с данными и отчетами в Tableau. Вы сможете непосредственно запускать модели машинного обучения, минуя сложности передачи больших объемов данных.
-
Microsoft Machine Learning Server: Это хорошее решение, если вы хотите использовать возможности R для подготовки данных и создания более сложных моделей. Убедитесь, что ваше решение соответствует вашим требованиям по взаимодействию с Tableau, чтобы упростить их дальнейшее представление.
-
Параллельно изучите R: Как упоминалось в другом комментарии, R — это мощный инструмент для статистической обработки и визуализации данных. Поскольку он открытый и поддерживается огромным сообществом, ему можно уделить серьезное внимание.
-
Интеграция с Tableau: Убедитесь, что выбранный инструмент позволяет интегрироваться с Tableau без лишних сложностей. Например, использование Tableau для вызова хранимых процедур может значительно уменьшить нагрузку на пользователей, что идеально вписывается в вашу цель минимизации количества используемых инструментов.
Перспективы в области предсказательной аналитики безусловно захватывающие, и продвинувшись в этом направлении, вы сможете значительно повысить ценность предоставляемых отчетов в рамках вашей организации. Удачи в ваших начинаниях!