АШАН построил платформу для машинного обучения на базе VK Cloud

АШАН — один из крупнейших ритейлеров. Компания внедряет ML-алгоритмы, которые напрямую влияют на эффективность бизнеса. Например, помогают прогнозировать спрос, определять оптимальную цену и повышать лояльность.

В АШАН разработали ML-алгоритмы и запустили пилотный проект на собственной инфраструктуре. Но для промышленной эксплуатации она не подходила — требовалось масштабировать ресурсы и автоматизировать процессы. Компания решила построить в облаке единую платформу для тестирования и тренировки ML-моделей, ad hoc-отчетов и исследований — Big Data Platform.

Такую платформу можно было развернуть On-Premise или в облаке. В итоге остановились на публичном облаке VK Cloud.

– Затраты на построение платформы в облаке в первые два года ниже, чем при развертывании на собственных мощностях. На горизонте пяти лет, по оценкам компании, затраты на On-Premise и Cloud накопительным итогом равны между собой

– Облачную инфраструктуру легко масштабировать — аналитики могут быстро получить нужные ресурсы для работы с ML-моделями

– В облаке инструменты для работы с данными преднастроены и доступны по модели as-a-Service

В АШАН использовали эффективные практики для построения архитектуры Big Data-платформы, в итоге она выглядит так.

– Данные загружают в Hadoop из внутренних и внешних источников. Для загрузки используют Sqoop, Talend, а также Kafka

– С помощью Spark данные обрабатывают и строят витрины для аналитиков. Витрины и детальные данные, которые часто используют, передаются в ClickHouse — она быстро отдает результаты

– Spark работает поверх Hadoop, но с ростом числа ML-моделей планируют поднять отдельный кластер Spark, где будут развернуты алгоритмы, и запускать его из Kubernetes

– Для ad hoc-запросов и построения тяжелых витрин данные планируют передавать в Arenadata DB (преднастроенный облачный сервис). Она позволяет объединять большие объемы данных и строить массивные таблицы

– Arenadata DB позволит организовать лабораторию данных для различных департаментов компании. Они смогут проводить исследования, использовать ad hoc-аналитику и ad hoc-репортинг

– В будущем предполагается использовать Kubernetes для построения ETL-потоков и тренировки ML-моделей

– В облаке развернут Airflow — оркестратор, позволяющий выстраивать сложные цепочки взаимозависимых процессов, следующих друг за другом, и GitLab для поддержки процессов CI/CD

– Решение реализовано в закрытом контуре внутри облака, установлен криптошлюз и МЭ Check Point для организации VPN, чтобы никто не мог зайти из внешнего интернета

Облачная Big Data Platform позволяет решать все задачи компании по работе с данными: можно использовать ИИ и машинное обучение, тестировать гипотезы и формировать ad hoc-отчеты. В компании ожидают, что масштабирование ML-решений позволит сократить излишние запасы в магазинах на 5%, увеличить продажи — на 2%.

VK Cloud — платформа с широким набором облачных сервисов для эффективной разработки и работы с данными для компаний любого масштаба, которые строят ИТ-решения в облаке. Компания предоставляет инфраструктурные и платформенные сервисы, экспертную поддержку, кастомные и частные инсталляции, а также помогает мигрировать в облако.

Назад к новостям »