17 июня 2022

Бигдата вокруг нас. И что с того?

Про большие данные что-то да слышали все. Но что это такое и для чего нужно, имеет представление далеко не каждый. А ведь они, и в самом деле, вокруг нас. Так что стоит разобраться, что вообще корректно называть "бигдатой" и как бизнес, работающий не в IT-отрасли, может извлечь из больших данных пользу.

Принадлежность данных к большим (да, бывают и маленькие) определяется по формуле 3V:

Volume — объём.
Velocity — скорость.
Variety — многообразие.

Что она означает? Согласно этой формуле, большие данные — это совокупность разных данных, поступающих из разнообразных источников и генерируемых непрерывно. Объём и интенсивность появления этих данных настолько велики, что для их обработки и хранения требуются специальные технологии.

При этом данные передаются в самых разных форматах и поступают от самых разных источников — из соцсетей, с сайта, датчиков, камер видеонаблюдения или других протоколирующих систем. В общем, отовсюду, где генерируется некая информация, которую нужно записать и где-то хранить для последующего анализа.

Как бизнес может использовать большие данные?

Весь мир можно относительно точно описать с помощью разных данных: цветов, значений атмосферного давления, температуры, влажности воздуха, букв, цифр, интенсивности солнечного излучения, геопозиции и т.д. Если упростить — каждую конкретную ситуацию мы представляем в виде набора неких признаков, которые её характеризуют.

В случае с Big data этих признаков очень много, они разнообразные и ёмкие, что позволяет строить более правдоподобные модели происходящего.

Анализ больших данных используется для предиктивной аналитики, изучения потребительского поведения, персонализации, оптимизации логистических цепочек и рекламных кампаний. При этом его можно использовать практически везде: от розничной и онлайн-торговли до строительства и производства.

С помощью платформ данных бизнес может вырабатывать решения, которые помогут снизить издержки, повысить прибыль, автоматизировать рутину и упростить процессы, которые отнимают много времени у квалифицированных специалистов.

Пара примеров.

Страховой кооператив NTUC Income использует платформу по обработке и анализу данных, чтобы автоматизировать рабочие процессы и снизить долю ручного труда. Анализ больших данных помогает компании принимать важные решения — устанавливать цены на продукты и обеспечивать адекватные резервы для страхового портфеля.

До внедрения платформы аналитики компании постоянно сталкивались с несогласованностью данных в конечном анализе и отчетах. Другой проблемой была неэффективность некоторых инструментов обработки при работе с огромными объемами информации. Поэтому специалистам приходилось вручную настраивать представления данных для потребителей внутри компании.

Все эти проблемы решились, когда NTUC Income внедрили единое решение по работе с данными. Автоматизация и объединение разрозненных процессов значительно снизили время на рутинные задачи, а в некоторых случаях сократили несколько дней ручной работы до одного часа.

Dtc-проект Gymashark, полностью полагающийся на цифровые методы продвижения, принимает маркетинговые решения, основываясь на анализе данных. Они используют множество разных источников, чтобы получить целостное представление о клиентах, и рекомендовать им продукты, которые лучше всего соответствуют их запросам.

С помощью платформы данных проект успешно автоматизирует свой маркетинг. Например, планирует расположение всплывающих окон на сайте и в приложении. Раньше этот процесс занимал примерно 2 недели, а после внедрения анализа ускорился в 37 раз — за 5 минут платформа сравнивает 5 разных мест на сайте и определяет лучшее для каждого объявления. Также компания использует автоматизацию, анализируя партнерский маркетинг, рынки и эффективность продаж по продуктам.

Как устроены платформы по обработке и анализу данных?

Как же работают эти «машины инсайтов»? Технически платформа состоит из четырех больших блоков. Они содержат программные компоненты, связи между этими компонентами и процессы, обеспечивающие работу блока.

Первичное получение данных. Этот блок обеспечивает сбор данных из источников и постановку их в очередь обработки.
Обработка данных. Во втором блоке происходит главная «магия» — данные обрабатываются и готовятся к использованию.
Хранение данных и аналитика. Задачи третьего блока — хранение сырых и обработанных данных, создание отчетов и дашбордов на основе готовых запросов.
Инфраструктурное обеспечение платформы. Платформу по обработке данных можно представить в виде завода с набором конвейеров. Но конвейеры даже на самом технологически продвинутом предприятии иногда надо ремонтировать и обновлять. Именно эти задачи решает четвёртый блок.

Любой блок — это несколько процессов. Для работы каждого из них необходимо своё ПО, которое настраивает специалист по работе с данными. В целом платформа — это сложная система со множеством взаимосвязей, и чем она больше, тем сложнее и дороже в эксплуатации.

Сложно ли внедрить платформу обработки и хранения данных?

Процесс внедрения платформы тесно связан с data driven-подходом в бизнесе, и интегрировать её без цифровизации процессов в компании бессмысленно. Начать надо с ТЗ и цели — чего вы хотите добиться\достичь с помощью анализа данных?

Важно помнить, что работа с данными — это, прежде всего, инвестиции. Они не дают мгновенного эффекта. Вся аналитика проходит в несколько этапов, от выдвижения гипотез через их визуализацию к тестам и окончательному решению, что нужно поменять в бизнес-модели.

Готовьтесь к тому, что кроме денег, придётся инвестировать и время ваших самых высококвалифицированных сотрудников. Примерная команда для внедрения выглядит следующим образом:

Data-стратег — регулирует процессы и контролирует ситуацию в целом.
Директор по данным — решает управленческие вопросы.
Аналитик — собирает метрики и следит за важными показателями.
Исследователь — разрабатывает алгоритмы машинного обучения.
Инженер — работает с программным обеспечением.
Стюард — следит за качеством наборов данных.
Архитектор — проектирует хранилища данных.

Процесс внедрения проходит по следующим этапам:

Детальное описание и анализ существующей проблемы или процесса, который нужно автоматизировать.
Экономическое обоснование внедрения.
Разработка технического задания.
Разработка стандартов и инструкций, написание документации.
Проектирование платформы.
Установка, настройка и конфигурация ПО.
Развертывание платформы в облаке или на собственных серверах.
Обучение персонала и организация технической поддержки.

Как видите, даже если отвести на каждый этап минимальные идеальные сроки — неделю, внедрение займет не меньше двух месяцев.

В целом интеграция и настройка платформы — серьезная нагрузка для отдела RnD и специалистов компании. Она будет занимать значительное время ваших лучших экспертов и отнимать его у других проектов. Прибавьте сюда затраты на серверы или облачные ресурсы, сопутствующие траты, и тогда у вас появится приблизительное представление о стоимости такого проекта.

А дальше для результативной работы платформы понадобится персонал. Вот минимальный состав команды эксплуатации:

Программист — для написания необходимых адаптеров.
Дата-инженер — для создания ETL-процессов и подключение источников данных.
DataOps-инженер — для конфигурирования ПО и технического сопровожденияработы платформу.

"Зачем мне это всё?"

Конечная цель работы с большими данными — это польза для бизнеса. Например, выявление неочевидных закономерностей.

Для аналитики данных платформа интегрируется со специализированными системами. Их принято называть BI — Business intelligence. Это довольно широкое понятие, которое включает в себя не только цифровую составляющую — приложения и технологии, но и способы и методы "извлекать" полезную информацию из данных. В целом работа “бизнес-разведки” сводит всю информацию о компании в единую систему, готовую для анализа и построения гипотез.

Возьмем распространенную проблему — пользователи редко возвращаются в приложение и не делают повторных покупок. Менеджер по продукту думает, что внедрение пуш-уведомлений решит проблему, и хочет быстро протестировать это предположение. Поможет в этом BI-система.

Для теста аналитик создаст план измерений, куда занесет все метрики, которые необходимо отслеживать, чтобы подтвердить или опровергнуть эту гипотезу. Например, количество кликов по пушу и процент конверсий в повторную покупку. И настроит на эти метрики автоматическое получение данных из приложения. Когда тест закончится, аналитик сможет сделать вывод о его эффективности и окончательном внедрении новой фичи в продукт.

Как снизить затраты на внедрение?

Если вы пришли к выводу, что внедрение платформы обработки больших данных стоит всех этих вышеописанных усилий, стоит подумать о готовом решении. Кроме очевидной выгоды в виде экономии на разработке есть и другие преимущества такого варианта.

Опишем их на примере нашей платформы по обработке и анализу данных.

Адаптивность. С одной стороны, у нашей платформы сформировалась типовая архитектура, отработанная на проектах, которые мы реализовывали для наших клиентов. Это позволяет фактически убрать затраты на проектирование. С другой, она может оперативно масштабироваться или изменяться под любую бизнес-задачу.

Простота в обслуживании. Мы используем ПО с открытым кодом. И это не только отменяет vendor lock, но и снижает издержки. Всегда можно нанять подходящего специалиста или найти решение сложной проблемы с помощью комьюнити.

Сроки и издержки. Благодаря опыту и отлаженным процессам, внедрение платформы пройдет быстрее и в разы дешевле, чем аналогичный проект, который вы будете реализовывать своими силами. Не придётся тратить ресурсы на наём, координацию, проектирование и при этом расходовать дорогостоящее время ведущих экспертов.

В качестве итога

Цикл зрелости технологии обработки больших данных прошли всего за 3 года — от теорий использования в 2011 до первых платформ для предиктивной аналитики, BI и анализа данных в 2014.

При этом горизонт развития тут совершенно фантастический, ведь, как мы писали ранее, данные находятся буквально везде. Сегодня никакого удивления не вызывают фильмы-катастрофы, где учёные с помощью массива данных предсказывают такие глобальные процессы, как климатические изменения и стихийные бедствия. И не возникает сомнений, что завтра мы научимся делать нечто подобное и в реальности.

Нет, речь не идёт о некоем аналоге Скайнета, скорее, о цифровом помощнике, который поможет взглянуть на свою компанию по-новому. Помните, как Стив Джобс решил пересобрать представление о мобильном телефоне с помощью новых технологий? Возможно, платформа данных поможет вашему бизнесу совершить похожую прорывную трансформацию. Так что не надо бояться пробовать новое и идти в ногу со временем.

Но главное — в 2022 году, в отличие от 2014, вы можете опробовать новое решение, а не рисковать вслепую. Как? — с помощью этой демо-версии. Экспериментируйте на здоровье!