АШАН — один из крупнейших ритейлеров. Компания внедряет ML-алгоритмы, которые напрямую влияют на эффективность бизнеса. Например, помогают прогнозировать спрос, определять оптимальную цену и повышать лояльность.
В АШАН разработали ML-алгоритмы и запустили пилотный проект на собственной инфраструктуре. Но для промышленной эксплуатации она не подходила — требовалось масштабировать ресурсы и автоматизировать процессы. Компания решила построить в облаке единую платформу для тестирования и тренировки ML-моделей, ad hoc-отчетов и исследований — Big Data Platform.
Такую платформу можно было развернуть On-Premise или в облаке. В итоге остановились на публичном облаке VK Cloud.
– Затраты на построение платформы в облаке в первые два года ниже, чем при развертывании на собственных мощностях. На горизонте пяти лет, по оценкам компании, затраты на On-Premise и Cloud накопительным итогом равны между собой
– Облачную инфраструктуру легко масштабировать — аналитики могут быстро получить нужные ресурсы для работы с ML-моделями
– В облаке инструменты для работы с данными преднастроены и доступны по модели as-a-Service
В АШАН использовали эффективные практики для построения архитектуры Big Data-платформы, в итоге она выглядит так.

– Данные загружают в Hadoop из внутренних и внешних источников. Для загрузки используют Sqoop, Talend, а также Kafka
– С помощью Spark данные обрабатывают и строят витрины для аналитиков. Витрины и детальные данные, которые часто используют, передаются в ClickHouse — она быстро отдает результаты
– Spark работает поверх Hadoop, но с ростом числа ML-моделей планируют поднять отдельный кластер Spark, где будут развернуты алгоритмы, и запускать его из Kubernetes
– Для ad hoc-запросов и построения тяжелых витрин данные планируют передавать в Arenadata DB (преднастроенный облачный сервис). Она позволяет объединять большие объемы данных и строить массивные таблицы
– Arenadata DB позволит организовать лабораторию данных для различных департаментов компании. Они смогут проводить исследования, использовать ad hoc-аналитику и ad hoc-репортинг
– В будущем предполагается использовать Kubernetes для построения ETL-потоков и тренировки ML-моделей
– В облаке развернут Airflow — оркестратор, позволяющий выстраивать сложные цепочки взаимозависимых процессов, следующих друг за другом, и GitLab для поддержки процессов CI/CD
– Решение реализовано в закрытом контуре внутри облака, установлен криптошлюз и МЭ Check Point для организации VPN, чтобы никто не мог зайти из внешнего интернета
Облачная Big Data Platform позволяет решать все задачи компании по работе с данными: можно использовать ИИ и машинное обучение, тестировать гипотезы и формировать ad hoc-отчеты. В компании ожидают, что масштабирование ML-решений позволит сократить излишние запасы в магазинах на 5%, увеличить продажи — на 2%.
VK Cloud — платформа с широким набором облачных сервисов для эффективной разработки и работы с данными для компаний любого масштаба, которые строят ИТ-решения в облаке. Компания предоставляет инфраструктурные и платформенные сервисы, экспертную поддержку, кастомные и частные инсталляции, а также помогает мигрировать в облако.