Бигдата вокруг нас. И что с того?

Про большие данные что-то да слышали все. Но что это такое и для чего нужно, имеет представление далеко не каждый. А ведь они, и в самом деле, вокруг нас. Так что стоит разобраться, что вообще корректно называть "бигдатой" и как бизнес, работающий не в IT-отрасли, может извлечь из больших данных пользу.


Принадлежность данных к большим (да, бывают и маленькие) определяется по формуле 3V:

Volume — объём.
Velocity — скорость.
Variety — многообразие.

Что она означает? Согласно этой формуле, большие данные — это совокупность разных данных, поступающих из разнообразных источников и генерируемых непрерывно. Объём и интенсивность появления этих данных настолько велики, что для их обработки и хранения требуются специальные технологии. 

При этом данные передаются в самых разных форматах и поступают от самых разных источников — из соцсетей, с сайта, датчиков, камер видеонаблюдения или других протоколирующих систем. В общем, отовсюду, где генерируется некая информация, которую нужно записать и где-то хранить для последующего анализа.

Как бизнес может использовать большие данные?

Весь мир можно относительно точно описать с помощью разных данных: цветов, значений атмосферного давления, температуры, влажности воздуха, букв, цифр, интенсивности солнечного излучения, геопозиции и т.д. Если упростить — каждую конкретную ситуацию мы представляем в виде набора неких признаков, которые её характеризуют.

В случае с Big data этих признаков очень много, они разнообразные и ёмкие, что позволяет строить более правдоподобные модели происходящего.

Анализ больших данных используется для предиктивной аналитики, изучения потребительского поведения, персонализации, оптимизации логистических цепочек и рекламных кампаний. При этом его можно использовать практически везде: от розничной и онлайн-торговли до строительства и производства.
С помощью платформ данных бизнес может вырабатывать решения, которые помогут снизить издержки, повысить прибыль, автоматизировать рутину и упростить процессы, которые отнимают много времени у квалифицированных специалистов.

Пара примеров.

Страховой кооператив NTUC Income использует платформу по обработке и анализу данных, чтобы автоматизировать рабочие процессы и снизить долю ручного труда. Анализ больших данных помогает компании принимать важные решения — устанавливать цены на продукты и обеспечивать адекватные резервы для страхового портфеля.

До внедрения платформы аналитики компании постоянно сталкивались с несогласованностью данных в конечном анализе и отчетах. Другой проблемой была неэффективность некоторых инструментов обработки при работе с огромными объемами информации. Поэтому специалистам приходилось вручную настраивать представления данных для потребителей внутри компании.

Все эти проблемы решились, когда NTUC Income внедрили единое решение по работе с данными. Автоматизация и объединение разрозненных процессов значительно снизили время на рутинные задачи, а в некоторых случаях сократили несколько дней ручной работы до одного часа.

Dtc-проект Gymashark, полностью полагающийся на цифровые методы продвижения, принимает маркетинговые решения, основываясь на анализе данных. Они используют множество разных источников, чтобы получить целостное представление о клиентах, и рекомендовать им продукты, которые лучше всего соответствуют их запросам.

С помощью платформы данных проект успешно автоматизирует свой маркетинг. Например, планирует расположение всплывающих окон на сайте и в приложении. Раньше этот процесс занимал примерно 2 недели, а после внедрения анализа ускорился в 37 раз — за 5 минут платформа сравнивает 5 разных мест на сайте и определяет лучшее для каждого объявления. Также компания использует автоматизацию, анализируя партнерский маркетинг, рынки и эффективность продаж по продуктам.

Как устроены платформы по обработке и анализу данных?

Как же работают эти «машины инсайтов»? Технически платформа состоит из четырех больших блоков. Они содержат программные компоненты, связи между этими компонентами и процессы, обеспечивающие работу блока.

  1. Первичное получение данных. Этот блок обеспечивает сбор данных из источников и постановку их в очередь обработки.

  2. Обработка данных. Во втором блоке происходит главная «магия» — данные обрабатываются и готовятся к использованию. 

  3. Хранение данных и аналитика. Задачи третьего блока — хранение сырых и обработанных данных, создание отчетов и дашбордов на основе готовых запросов.

  4. Инфраструктурное обеспечение платформы. Платформу по обработке данных можно представить в виде завода с набором конвейеров. Но конвейеры даже на самом технологически продвинутом предприятии иногда надо ремонтировать и обновлять. Именно эти задачи решает четвёртый блок.

Любой блок — это несколько процессов. Для работы каждого из них необходимо своё ПО, которое настраивает специалист по работе с данными. В целом платформа — это сложная система со множеством взаимосвязей, и чем она больше, тем сложнее и дороже в эксплуатации. 

Сложно ли внедрить платформу обработки и хранения данных?

Процесс внедрения платформы тесно связан с data driven-подходом в бизнесе, и интегрировать её без цифровизации процессов в компании бессмысленно. Начать надо с ТЗ и цели — чего вы хотите добиться\достичь с помощью анализа данных?

Важно помнить, что работа с данными — это, прежде всего, инвестиции. Они не дают мгновенного эффекта. Вся аналитика проходит в несколько этапов, от выдвижения гипотез через их визуализацию к тестам и окончательному решению, что нужно поменять в бизнес-модели.

Готовьтесь к тому, что кроме денег, придётся инвестировать и время ваших самых высококвалифицированных сотрудников. Примерная команда для внедрения выглядит следующим образом:

  • Data-стратег — регулирует процессы и контролирует ситуацию в целом.

  • Директор по данным — решает управленческие вопросы.

  • Аналитик — собирает метрики и следит за важными показателями.

  • Исследователь — разрабатывает алгоритмы машинного обучения.

  • Инженер — работает с программным обеспечением.

  • Стюард — следит за качеством наборов данных.

  • Архитектор — проектирует хранилища данных.
     

Процесс внедрения проходит по следующим этапам: 

  1. Детальное описание и анализ существующей проблемы или процесса, который нужно автоматизировать.

  2. Экономическое обоснование внедрения.

  3. Разработка технического задания.

  4. Разработка стандартов и инструкций, написание документации.

  5. Проектирование платформы.

  6. Установка, настройка и конфигурация ПО.

  7. Развертывание платформы в облаке или на собственных серверах.

  8. Обучение персонала и организация технической поддержки.
     

Как видите, даже если отвести на каждый этап минимальные идеальные сроки — неделю, внедрение займет не меньше двух месяцев. 

В целом интеграция и настройка платформы — серьезная нагрузка для отдела RnD и специалистов компании. Она будет занимать значительное время ваших лучших экспертов и отнимать его у других проектов. Прибавьте сюда затраты на серверы или облачные ресурсы, сопутствующие траты, и тогда у вас появится приблизительное представление о стоимости такого проекта. 

А дальше для результативной работы платформы понадобится персонал. Вот минимальный состав команды эксплуатации:

  • Программист — для написания необходимых адаптеров.

  • Дата-инженер — для создания ETL-процессов и подключение источников данных.

  • DataOps-инженер — для конфигурирования ПО и технического сопровожденияработы  платформу.

"Зачем мне это всё?"

Конечная цель работы с большими данными — это польза для бизнеса. Например, выявление неочевидных закономерностей.

Для аналитики данных платформа интегрируется со специализированными системами. Их принято называть BI — Business intelligence. Это довольно широкое понятие, которое включает в себя не только цифровую составляющую — приложения и технологии, но и способы и методы "извлекать" полезную информацию из данных. В целом работа “бизнес-разведки” сводит всю информацию о компании в единую систему, готовую для анализа и построения гипотез.

Возьмем распространенную проблему — пользователи редко возвращаются в приложение и не делают повторных покупок. Менеджер по продукту думает, что внедрение пуш-уведомлений решит проблему, и хочет быстро протестировать это предположение. Поможет в этом BI-система.

Для теста аналитик создаст план измерений, куда занесет все метрики, которые необходимо отслеживать, чтобы подтвердить или опровергнуть эту гипотезу. Например, количество кликов по пушу и процент конверсий в повторную покупку. И настроит на эти метрики автоматическое получение данных из приложения. Когда тест закончится, аналитик сможет сделать вывод о его эффективности и окончательном внедрении новой фичи в продукт.

Как снизить затраты на внедрение?

Если вы пришли к выводу, что внедрение платформы обработки больших данных стоит всех этих вышеописанных усилий, стоит подумать о готовом решении. Кроме очевидной выгоды в виде экономии на разработке есть и другие преимущества такого варианта. 

Опишем их на примере нашей платформы по обработке и анализу данных.

Адаптивность. С одной стороны, у нашей платформы сформировалась типовая архитектура, отработанная на проектах, которые мы реализовывали для наших клиентов. Это позволяет фактически убрать затраты на проектирование. С другой, она может оперативно масштабироваться или изменяться под любую бизнес-задачу.

Простота в обслуживании. Мы используем ПО с открытым кодом. И это не только отменяет vendor lock, но и снижает издержки. Всегда можно нанять подходящего специалиста или найти решение сложной проблемы с помощью комьюнити.

Сроки и издержки. Благодаря опыту и отлаженным процессам, внедрение платформы пройдет быстрее и в разы дешевле, чем аналогичный проект, который вы будете реализовывать своими силами. Не придётся тратить ресурсы на наём, координацию, проектирование и при этом расходовать дорогостоящее время ведущих экспертов.

В качестве итога

Цикл зрелости технологии обработки больших данных прошли всего за 3 года — от теорий использования в 2011 до первых платформ для предиктивной аналитики, BI и анализа данных в 2014.

При этом горизонт развития тут совершенно фантастический, ведь, как мы писали ранее, данные находятся буквально везде. Сегодня никакого удивления не вызывают фильмы-катастрофы, где учёные с помощью массива данных предсказывают такие глобальные процессы, как климатические изменения и стихийные бедствия. И не возникает сомнений, что завтра мы научимся делать нечто подобное и в реальности.

Нет, речь не идёт о некоем аналоге Скайнета, скорее, о цифровом помощнике, который поможет взглянуть на свою компанию по-новому. Помните, как Стив Джобс решил пересобрать представление о мобильном телефоне с помощью новых технологий? Возможно, платформа данных поможет вашему бизнесу совершить похожую прорывную трансформацию. Так что не надо бояться пробовать новое и идти в ногу со временем.

Но главное — в 2022 году, в отличие от 2014, вы можете опробовать новое решение, а не рисковать вслепую. Как? — с помощью этой демо-версии. Экспериментируйте на здоровье!

Готовы обсудить проект?

Ответим на заявку в ближайшие 24 часа. А еще мы можем проконсультировать вас по телефону +7 800 555-91-99, электронной почте info@itsumma.ru или в Telegram-чате.

Свяжитесь со мной здесь
Свяжитесь со мной здесь
❗️Имя не может быть пустым
❗️Телефон не может быть пустым
❗️Email не может быть пустым