Как Hoff создал масштабируемое хранилище данных и улучшил продуктовую аналитику

Как Hoff создал масштабируемое хранилище данных и улучшил продуктовую аналитику

Сеть гипермаркетов Hoff пересобрала корпоративное ecom-хранилище данных (Data Warehouse, DWH) на сервисах платформы данных Yandex Cloud. Компания улучшила веб-аналитику, сократила объем данных почти в два раза и уменьшила время на подготовку отчетов до 20 минут.

Предпосылки проекта

В облаке Hoff хранились 93 ТБ данных об активности 17 миллионов покупателей продукции бренда — действиях пользователей на сайте, событиях на сайте и в мобильном приложении, конверсии в покупки. Они находились в хранилище с запутанной структурой, при работе с которым возникали ошибки. Это хранилище не отвечало растущим запросам бизнеса: работа с сырыми данными обходилась компании в $3000 в месяц, а штат аналитиков было необходимо постоянно расширять. Компания хотела выработать единые принципы для хранения и обработки данных, внедрить решение, которое легко масштабировать, навести порядок в данных и настроить регулярную проверку качества данных. Для решения этих задач Hoff обратился к разработчику eCommerce‑решений Aero.

Аудит хранилища и миграция в облако

Первым этапом проекта стал анализ существующей архитектуры: данные из более чем 10 источников использовались для 155 различных дашбордов и 42 отчётов, содержащих 1938 расчетных полей. Команда провела реверс‑инжиниринг: начиная с дашбордов отслеживали путь данных к источникам, выявляли последовательности и правила преобразования. По итогам аудита Hoff избавился от 30 Тб устаревших данных.

После аудита команда начала переносить данные. Новым хранилищем стал Yandex Object Storage, где были созданы скрипты для различных вариантов выгрузки данных.

Выбор сервисов и архитектуры для нового DWH

Специалисты Aero предложили использовать для нового хранилища данных набор управляемых сервисов платформы данных Yandex Cloud на базе технологий Grenplum и Clickhouse — инструментов с открытым исходным кодом. Преимущество их использования заключается в том, что DWH (Data Warehouse) можно переносить на любую инфраструктуру без необходимости полной пересборки.

Для проекта команда Hoff и Aero выбрала модель хранения Data Vault 2.0. Суть этой модели в том, что весь массив данных разделяется на логические части — хабы, линки и сателлиты, что упрощает любые доработки системы. Ядром DWH стала база Greenplum. Она позволяет быстро изменять, фильтровать и связывать данные. С помощью пайплайнов в Airflow команда настроила автоматическое обновление данных по расписанию.

После этого создали витрины данных, на основе которых строится визуализация. Одна витрина данных может быть источником для множества дашбордов. Раньше каждый аналитик компании обрабатывал сырые данные из хранилища на основании собственной экспертизы и формировал из данных отчёт. Этого хватало для текущих задач компании, но предварительная обработка информации помогла формировать такие отчёты намного быстрее.

Помимо этого, команда Aero создала с нуля систему автоматических уведомлений специально для этого проекта. С помощью трехцветной системы маркировки сотрудники Hoff могут легко оценить состояние отчётов: какие данные актуальны, где необходима проверка, а где обнаружены ошибки.

Какие результаты получил Hoff?

– Общий объем хранилища уменьшился почти в два раза — с 93 ТБ до 51 ТБ

– Сократили время на подготовку отчётов. До реализации проекта это могло занимать несколько дней, сейчас — не более 20 минут

– Скорость реагирования на ошибки увеличилась в 3 раза

– Данные надежно хранятся в Yandex Cloud с соблюдением необходимых стандартов безопасности

Вернуться назад