Бигдата вокруг нас. И что с того?
Про большие данные что-то да слышали все. Но что это такое и для чего нужно, имеет представление далеко не каждый. А ведь они, и в самом деле, вокруг нас. Так что стоит разобраться, что вообще корректно называть "бигдатой" и как бизнес, работающий не в IT-отрасли, может извлечь из больших данных пользу.
Принадлежность данных к большим (да, бывают и маленькие) определяется по формуле 3V:
Volume — объём.
Velocity — скорость.
Variety — многообразие.
Что она означает? Согласно этой формуле, большие данные — это совокупность разных данных, поступающих из разнообразных источников и генерируемых непрерывно. Объём и интенсивность появления этих данных настолько велики, что для их обработки и хранения требуются специальные технологии.
При этом данные передаются в самых разных форматах и поступают от самых разных источников — из соцсетей, с сайта, датчиков, камер видеонаблюдения или других протоколирующих систем. В общем, отовсюду, где генерируется некая информация, которую нужно записать и где-то хранить для последующего анализа.
Как бизнес может использовать большие данные?
Весь мир можно относительно точно описать с помощью разных данных: цветов, значений атмосферного давления, температуры, влажности воздуха, букв, цифр, интенсивности солнечного излучения, геопозиции и т.д. Если упростить — каждую конкретную ситуацию мы представляем в виде набора неких признаков, которые её характеризуют.
В случае с Big data этих признаков очень много, они разнообразные и ёмкие, что позволяет строить более правдоподобные модели происходящего.
Пара примеров.
Страховой кооператив NTUC Income использует платформу по обработке и анализу данных, чтобы автоматизировать рабочие процессы и снизить долю ручного труда. Анализ больших данных помогает компании принимать важные решения — устанавливать цены на продукты и обеспечивать адекватные резервы для страхового портфеля.
До внедрения платформы аналитики компании постоянно сталкивались с несогласованностью данных в конечном анализе и отчетах. Другой проблемой была неэффективность некоторых инструментов обработки при работе с огромными объемами информации. Поэтому специалистам приходилось вручную настраивать представления данных для потребителей внутри компании.
Все эти проблемы решились, когда NTUC Income внедрили единое решение по работе с данными. Автоматизация и объединение разрозненных процессов значительно снизили время на рутинные задачи, а в некоторых случаях сократили несколько дней ручной работы до одного часа.
Dtc-проект Gymashark, полностью полагающийся на цифровые методы продвижения, принимает маркетинговые решения, основываясь на анализе данных. Они используют множество разных источников, чтобы получить целостное представление о клиентах, и рекомендовать им продукты, которые лучше всего соответствуют их запросам.
С помощью платформы данных проект успешно автоматизирует свой маркетинг. Например, планирует расположение всплывающих окон на сайте и в приложении. Раньше этот процесс занимал примерно 2 недели, а после внедрения анализа ускорился в 37 раз — за 5 минут платформа сравнивает 5 разных мест на сайте и определяет лучшее для каждого объявления. Также компания использует автоматизацию, анализируя партнерский маркетинг, рынки и эффективность продаж по продуктам.
Как устроены платформы по обработке и анализу данных?
Как же работают эти «машины инсайтов»? Технически платформа состоит из четырех больших блоков. Они содержат программные компоненты, связи между этими компонентами и процессы, обеспечивающие работу блока.
-
Первичное получение данных. Этот блок обеспечивает сбор данных из источников и постановку их в очередь обработки.
-
Обработка данных. Во втором блоке происходит главная «магия» — данные обрабатываются и готовятся к использованию.
-
Хранение данных и аналитика. Задачи третьего блока — хранение сырых и обработанных данных, создание отчетов и дашбордов на основе готовых запросов.
-
Инфраструктурное обеспечение платформы. Платформу по обработке данных можно представить в виде завода с набором конвейеров. Но конвейеры даже на самом технологически продвинутом предприятии иногда надо ремонтировать и обновлять. Именно эти задачи решает четвёртый блок.
Любой блок — это несколько процессов. Для работы каждого из них необходимо своё ПО, которое настраивает специалист по работе с данными. В целом платформа — это сложная система со множеством взаимосвязей, и чем она больше, тем сложнее и дороже в эксплуатации.
Сложно ли внедрить платформу обработки и хранения данных?
Процесс внедрения платформы тесно связан с data driven-подходом в бизнесе, и интегрировать её без цифровизации процессов в компании бессмысленно. Начать надо с ТЗ и цели — чего вы хотите добиться\достичь с помощью анализа данных?
Готовьтесь к тому, что кроме денег, придётся инвестировать и время ваших самых высококвалифицированных сотрудников. Примерная команда для внедрения выглядит следующим образом:
-
Data-стратег — регулирует процессы и контролирует ситуацию в целом.
-
Директор по данным — решает управленческие вопросы.
-
Аналитик — собирает метрики и следит за важными показателями.
-
Исследователь — разрабатывает алгоритмы машинного обучения.
-
Инженер — работает с программным обеспечением.
-
Стюард — следит за качеством наборов данных.
-
Архитектор — проектирует хранилища данных.
Процесс внедрения проходит по следующим этапам:
-
Детальное описание и анализ существующей проблемы или процесса, который нужно автоматизировать.
-
Экономическое обоснование внедрения.
-
Разработка технического задания.
-
Разработка стандартов и инструкций, написание документации.
-
Проектирование платформы.
-
Установка, настройка и конфигурация ПО.
-
Развертывание платформы в облаке или на собственных серверах.
-
Обучение персонала и организация технической поддержки.
Как видите, даже если отвести на каждый этап минимальные идеальные сроки — неделю, внедрение займет не меньше двух месяцев.
В целом интеграция и настройка платформы — серьезная нагрузка для отдела RnD и специалистов компании. Она будет занимать значительное время ваших лучших экспертов и отнимать его у других проектов. Прибавьте сюда затраты на серверы или облачные ресурсы, сопутствующие траты, и тогда у вас появится приблизительное представление о стоимости такого проекта.
А дальше для результативной работы платформы понадобится персонал. Вот минимальный состав команды эксплуатации:
-
Программист — для написания необходимых адаптеров.
-
Дата-инженер — для создания ETL-процессов и подключение источников данных.
-
DataOps-инженер — для конфигурирования ПО и технического сопровожденияработы платформу.
"Зачем мне это всё?"
Конечная цель работы с большими данными — это польза для бизнеса. Например, выявление неочевидных закономерностей.
Для аналитики данных платформа интегрируется со специализированными системами. Их принято называть BI — Business intelligence. Это довольно широкое понятие, которое включает в себя не только цифровую составляющую — приложения и технологии, но и способы и методы "извлекать" полезную информацию из данных. В целом работа “бизнес-разведки” сводит всю информацию о компании в единую систему, готовую для анализа и построения гипотез.
Возьмем распространенную проблему — пользователи редко возвращаются в приложение и не делают повторных покупок. Менеджер по продукту думает, что внедрение пуш-уведомлений решит проблему, и хочет быстро протестировать это предположение. Поможет в этом BI-система.
Для теста аналитик создаст план измерений, куда занесет все метрики, которые необходимо отслеживать, чтобы подтвердить или опровергнуть эту гипотезу. Например, количество кликов по пушу и процент конверсий в повторную покупку. И настроит на эти метрики автоматическое получение данных из приложения. Когда тест закончится, аналитик сможет сделать вывод о его эффективности и окончательном внедрении новой фичи в продукт.
Как снизить затраты на внедрение?
Если вы пришли к выводу, что внедрение платформы обработки больших данных стоит всех этих вышеописанных усилий, стоит подумать о готовом решении. Кроме очевидной выгоды в виде экономии на разработке есть и другие преимущества такого варианта.
Опишем их на примере нашей платформы по обработке и анализу данных.
Адаптивность. С одной стороны, у нашей платформы сформировалась типовая архитектура, отработанная на проектах, которые мы реализовывали для наших клиентов. Это позволяет фактически убрать затраты на проектирование. С другой, она может оперативно масштабироваться или изменяться под любую бизнес-задачу.
Простота в обслуживании. Мы используем ПО с открытым кодом. И это не только отменяет vendor lock, но и снижает издержки. Всегда можно нанять подходящего специалиста или найти решение сложной проблемы с помощью комьюнити.
Сроки и издержки. Благодаря опыту и отлаженным процессам, внедрение платформы пройдет быстрее и в разы дешевле, чем аналогичный проект, который вы будете реализовывать своими силами. Не придётся тратить ресурсы на наём, координацию, проектирование и при этом расходовать дорогостоящее время ведущих экспертов.
В качестве итога
Цикл зрелости технологии обработки больших данных прошли всего за 3 года — от теорий использования в 2011 до первых платформ для предиктивной аналитики, BI и анализа данных в 2014.
При этом горизонт развития тут совершенно фантастический, ведь, как мы писали ранее, данные находятся буквально везде. Сегодня никакого удивления не вызывают фильмы-катастрофы, где учёные с помощью массива данных предсказывают такие глобальные процессы, как климатические изменения и стихийные бедствия. И не возникает сомнений, что завтра мы научимся делать нечто подобное и в реальности.
Нет, речь не идёт о некоем аналоге Скайнета, скорее, о цифровом помощнике, который поможет взглянуть на свою компанию по-новому. Помните, как Стив Джобс решил пересобрать представление о мобильном телефоне с помощью новых технологий? Возможно, платформа данных поможет вашему бизнесу совершить похожую прорывную трансформацию. Так что не надо бояться пробовать новое и идти в ногу со временем.
Но главное — в 2022 году, в отличие от 2014, вы можете опробовать новое решение, а не рисковать вслепую. Как? — с помощью этой демо-версии. Экспериментируйте на здоровье!