Решения класса Self-Service Data Preparation

Изображение принадлежит сообществу Bloor
За прошедшие два месяца в нескольких наших проектах столкнулись с вопросом от заказчиков о сложности и перспективах самостоятельной подготовки данных для систем Process Mining.

Несколько слов о постановке задачи. Система Process Mining работает с моделью данных - структурированным журналом записей, размещенным в файле или в одной или нескольких таблицах реляционной базы данных. Сама по себе система позволяет крутить созданные на основе такой аналитические модели различным способом. Хотите – рассматриваете процесс как последовательность переходов между статусами, а хотите – как переходы между группами. Добавляйте атрибуты, считайте KPI и т.д. и т.п. Казалось бы, вот оно, счастье. Но нет. Ведь рано или поздно аналитик (обычно это человек из бизнеса) упирается в границы созданной на этапе внедрения модели данных. Т.е. он не может провести анализ по тем показателям, которых в модели данных нет.

Ну а дальше начинается «кровавый энтерпрайз» разного уровня сложности. Формулируем задачу, идем в ИТ, встаем в очередь на реализацию, ждем, ждем, получаем что-то, даем замечания, встаем в очередь на реализацию, … И вот, наконец, модель данных расширена и вы наконец видите в ней то, что хотите. Все стало хорошо? Опять нет. Часто ситуация характеризуется фразой из известного мультфильма - «Он и в третий раз ходил за ёлкой, и добыл её… Но это было уже весной, и он отнес ёлку обратно».

Решение, условно, на поверхности. Если бизнес-аналитик может работать с аналитическими моделями процесса, перестраивая их в зависимости от задачи, то почему не дать ему простой и доступный инструмент работы с данными, не требующий знания SQL. Python, R, понимания работы ETL и т.д.

Собственно, это и есть тот вопрос, который мы, пусть и в разных формулировках, услышали от заказчиков – как можно «изъять» процедуру подготовки данных из ИТ, передав ее аналитикам и технологам бизнес-подразделений.

С одной стороны, вопрос показался странным. Все-таки мы слишком из мира ИТ. Зачем это нужно, если есть понятные и надежные инструменты (см. выше про R, ETL,…)? Но природное любопытство победило и мы погрузились в изучение темы.

Для начала, определились с тем, как изменился взгляд на тему автоматизации подготовки данных. Великий Gartner определяет в своих материалах (Market Guide for Data Preparation от 14.12.2017) следующий набор характеристик, определяющих принадлежность решения к классу «современных средств подготовки данных»:

  • Наличие визуальной среды для извлечения, поиска, выбора и профилирования данных для последующей обработки.

  • Встроенные механизмы идентификации типов данных, проверки на соответствие шаблонам, обогащения данных.

  • Функции каталогизации данных и базового управления метаданными, такие как создание и поиск метаданных, каталогизация источников данных, их источников.

  • Визуальные инструменты обработки данных – структурирование данных, моделирование и преобразование. В том числе – сведение данных из разных источников, очистка данных, фильтрация, группировка и вычисления.

  • Интеграция базовых инструментов обеспечения качества данных и их безопасности. Эти задачи решаются либо собственными средствами систем подготовки данных, либо за счет интеграции с соответствующими системами. Пример интеграции функций такого типа – визуализация распределения данных, выбросов, пустых значений и т.д.

  • Интеграция функций обогащения данных. Аналогично предыдущему пункту – либо за счет собственных функций, либо за счет интеграции с соответствующими средствами. Вплоть до наличия собственных экспертных рекомендательных подсистем, обладающих знаниями о специфике работы с данными в конкретной отрасли, например.

  • Поддержка совместной работы. Например – обмен запросами, моделями данных, совместное использование моделей. Здесь важны два момента – с одной стороны, решение должно поддерживать командную работу над сценариями подготовки и преобразования данных, с другой стороны, все наработки должны быть доступны для повторного использования другими пользователями. Это про скорость, удобство, эффективность, в конце концов.

  • Наличие широкого спектра адаптеров для доступа к данным. При чем к очень разным данным – файлам различного формата (CSV, XML, JSON, …), реляционным базам данных, Hadoop, NoSQL. А в идеале – также и к потоковым данным для использования в задачах IoT.

  • Интеграция функций машинного обучения (а куда без него в наше время?) для сокращения времени подготовки данных на основе отраслевой информации либо опыта работы аналитиков в конкретной компании.

  • Поддержка нескольких моделей развертывания – как в облаке, так и в локальном варианте. Особый интерес вызывают решения, поддерживающие гибридную схему развертывания с размещением компонентов как в облаке, так и на локальной площадке. Преимущество такой схемы в возможности оптимального выбора точки обработки информации, раздельной обработки данных с разной степенью критичности с точки зрения ИБ, например.

  • Готовые интерфейсы для интеграции с системами BI, MDM и т.д.

Если посмотреть на перечень, можно выделить одну очень важную особенность – все перечисленные характеристики касаются повышения уровня автоматизации и интеллектуальности средств мониторинга. Основной тренд – дать аналитику возможность сосредоточиться на непосредственно анализе данных и на отработке новых идей, максимально исключив (скорее -скрыв) как необходимость разработки средств доступа и трансформации, так и необходимость повторения уже найденных ранее и ставших рутинными решений и операций. Визуальные средства обработки, визуальные инструменты оценки качества данных, поддержка совместной работы, интеграция функций машинного обучения – все это позволяет минимизировать рутинную и глубоко-техническую составляющую в работе аналитика. А значит – потенциально «изъять» функцию подготовки данных из области ответственности ИТ и передать ее аналитикам бизнес-подразделений. Функцией ИТ в данном случае останется обеспечение готовности источников данных и техническое сопровождение самих платформ обработки данных и их анализа.

Зачем это нужно:

  • Сокращение времени (и стоимости) операций по поиску, подготовке и предобработке данных. Это как раз тот самый кейс, с которого мы начали эту статью. Быстрее получаем ответы – значит быстрее принимаем решения, вносим изменения, больше зарабатываем или меньше теряем. Один из вендоров, ссылаясь на исследования IDC, например, пишет о 88% экономии времени подготовки данных при использовании современных средств и платформ. Сами пока не измеряли, но если принять во внимание, что новые бизнес-требования могут реализовываться по 5-6 месяцев (да, мы знаем компании, в которых это занимает неделю, но также мы знаем и компании, где бэклог изменений уже забит критичными задачами на год вперед), сокращение даже на 50% даст очень существенный прирост скорости и, потенциально, выгод.

  • Улучшение качества данных. Передача функций подготовки данных непосредственно аналитикам, позволяет существенно сократить путь от постановки задачи до ее решения. А значит – сократить число возможных искажений этой самой постановки задачи. Здесь хочется вспомнить известную картинку, иллюстрирующую разницу между тем, что задумывали и тем, что получилось. Она хорошо описывает боль любой компании, где в такой цепочке реализации работает больше одного человека.

  • Сокращение затрат на сопровождение устаревших, неактуальных сценариев подготовки данных – вычислительные мощности, лицензии на ПО (подключения к источникам, например), рабочее время специалистов. С одной стороны, перевод функций подготовки данных из плоскости разработки в плоскость визуального проектирования, возможности совместной работы – все это способствует упрощению задач учета сценариев, контроля их актуальности. С другой – данный тезис вендоров нуждается, наверное, в проверке в наибольшей степени. На текущий момент не готовы подтвердить его собственным опытом.

Теперь посмотрим на вендоров, реализующих новые подходы к подготовке данных. Здесь нам помог материал (хоть и не очень свежий, 2016 года) аналитического сообщества Bloor. Именно картинка из него и иллюстрирует данную статью. В нем коллеги структурировали разработчиков ПО по двум основным критериям:

  • Класс решения, определяющийся его технологической направленностью. Здесь выделяются четыре группы решений – Data Preparation, Data Preparation with Analytics, Data Catologuing, Data Preparation and Cataloguing.

  • Место на рынке, характеризующееся сочетанием функциональной полноты и фактором используемости – Champion, Challenger, Innovator.

Если посмотреть на более свежий обзор вендоров в уже упомянутом отчете Gartner, можно увидеть, что состав игроков изменился не радикально. Кто-то был поглощен более крупными вендорами, кто-то вышел на рынок позже. У Gartner можно найти больше информации для оценки преимуществ того или иного решения. Мы, со своей стороны, сопоставив информацию из обоих источников выбрали трех кандидатов и активно изучаем их возможности.

О результатах и фаворитах – расскажем по мере получения результатов.
+7 (499) 281-6411
info@rondem.ru
129344, Москва, ул. Искры 31, корп.1