В принятии бизнес-решений важны точные и актуальные данные. Однако обработка больших данных часто требует значительных затрат на разработку собственных решений или внедрение готовых инструментов. В этой статье рассматриваются инструменты для работы с Big Data, в том числе на платформе Cloud.ru Evolution.
Тренды Big Data в России
Сегодня данные — это новое золото, и их объемы стремительно растут. Наблюдаются следующие тренды:
1. Индустрия больших данных в России переживает пик роста, и это направление продолжает развиваться. Компании, которые умеют эффективно работать с данными, получают преимущество на рынке.
2. Организации, использующие легаси-решения, сталкиваются с их стремительным устареванием и вынуждены искать новые архитектурные подходы.
3. Работа с большими данными больше не ограничивается лишь крупным бизнесом. Средний и малый бизнес тоже вовлекается в этот процесс.
Сложности с инструментами для Big Data
Для работы с большими данными важно быть быстрее и эффективнее конкурентов. Однако это нелегко, и найти надежные инструменты и инфраструктуру для работы с данными непросто. Нужны специалисты: дата-сайентисты, дата-инженеры и аналитики. В условиях кадрового дефицита они обойдутся недешево. Обучение сотрудников также требует времени и денег, без гарантии окупаемости.
В таких условиях облачные платформы и PaaS-сервисы — наиболее экономичный вариант использования Big Data, особенно для малого и среднего бизнеса.
Платформа для работы с Big Data: что в ней должно быть
Чтобы понять, что выбрать — свои инструменты или готовые решения, надо разобраться, какие элементы понадобятся для создания системы обработки данных. Хороший пример показывают крупнейшие поставщики облачных услуг, которые успешно работают на мировом рынке, хотя часто недоступны в РФ.
Если рассмотреть платформу данных любого гиперскейлера, она обычно включает:
1. Сервисы для хранения данных (Storage).
2. Сервисы для обработки (Compute).
3. Инструменты для визуализации данных (BI).
4. Инструменты для оркестрации (Orchestration).
5. Средства управления данными (Data Governance).
6. Инфраструктуру для машинного обучения на больших данных (ML).
Любой жизнеспособный инструмент содержит эти шесть составляющих, а в идеале выполняет и другие функции. Исходя из этих принципов развивается Evolution Data Platform в компании Cloud.ru.
Платформа поддерживает архитектуру микросервисов — это важно для работы приложений, так как многие из них запускаются в контейнерах. Контейнерные сервисы должны гибко масштабироваться: увеличивать используемые ресурсы или наоборот — переходить в режим минимальной нагрузки. Так реализуется scaling, upscaling или «скейлинг в 0» — это нулевое использование ресурсов для экономии, когда приложения отключены или на них нет нагрузки.
У Cloud.ru есть несколько compute-сервисов — облачных решений с вычислительными мощностями, которые позволяют обрабатывать данные. Из этих compute-сервисов можно использовать Evolution Spark, Evolution Managed Trino на SQL-движке Trino и Evolution Managed Metastore.
Что должна уметь Data Platform, чтобы работа на ней была удобной
На платформе легко работать с данными, если на ней есть легкий импорт и интеграция с другими облаками и источниками. Ниже — о том, как Data Platform объединяет данные из различных источников с помощью Trino и Spark.
Trino — это массивно-параллельный аналитический SQL-движок, он обрабатывает большие объемы данных из разных источников. DBeaver — клиентское приложение SQL, которое поддерживает множество систем управления базами данных (СУБД) и выступает как инструмент для их администрирования. Metastore хранит таблицы с описанием данных, а Spark — фреймворк распределенной обработки больших данных.
Предположим, в компании данные о продажах и клиентах расположены в разных местах:
— PostgreSQL: марки машин.
— PostgreSQL: марки машин, которые есть в продаже.
— CSV-файл: страны-производители автомобилей.
— CSV-файл: информация о заказах — например, дата и номер заказа, локация, ФИО покупателей.
— CSV-файл: сведения о продажах — суммы сделок, допродажи, менеджер, который провел сделку.
Сопоставлять всю эту информацию вручную — долго, а порой и невозможно: данные могут занимать сотни и тысячи строк. Далее — описание того, как объединить эти данные, на примерах сервисов Evolution Managed Trino и Evolution Managed Metastore. Инструкция будет понятна джуниору, но обсудить ее можно с IT-отделом своей компании. А если не хочется вдаваться в детали, можно перейти к последнему абзацу.

Как объединяются данные из разных источников через сервисы на платформе Cloud.ru Evolution
Пошаговый алгоритм, как объединить данные, на примере сервисов Cloud.ru Evolution:
1. В Evolution Managed Trino — развернуть инстанс Trino и создать подключения к базам данных (БД), чтобы объединить данные из двух баз PostgreSQL с использованием простого SQL-запроса.
2. CSV-файлы в S3-хранилище содержит информацию о брендах авто и странах-производителях. Metastore будет хранить описательную часть данных, создается описательная часть данных, это новое подключение к Metastore надо добавить в инстанс Trino. На этом шаге можно обогатить данные, объединив сведения из двух БД с данными из S3-хранилища.
3. Преобразовать данные с помощью Evolution Spark. В Spark-инстансе создать задачу — она запустит Python-скрипт, сохранить результат как объединенный CSV-файл и таблицу Metastore, к которой можно будет обратиться.
4. Информацию из шагов 1–3 объединить с таблицей, созданной с помощью Spark. Чтобы это сделать, SQL-скриптом в DBeaver надо сгруппировать сведения по авто и продажам. По итогу выйдут подробные данные о продажах авто каждого бренда.
5. Можно разнообразить данные статистикой по популярным среди покупателей цветам машин. Эти сведения хранятся, к примеру, на Evolution Managed ArenadataDB. Чтобы это сделать, надо создать подключение в Trino и объединить данные также из ArenadataDB — или другого источника, на котором хранятся данные.
Такой алгоритм позволяет собрать большие данные, которые потом можно использовать для целей бизнеса: проводить A/B-тесты, собирать дашборды, прогнозировать продажи, планировать акции, составлять персонализированные предложения для разных сегментов аудитории.
Работа с Big Data требует ответственности, особенно когда ситуация на рынке быстро меняется. Чтобы адаптироваться, можно инвестировать в разработку собственных инструментов анализа, воспользоваться готовыми сервисами или протестировать Data Platform. Это позволит:
— получить базовые инструменты для работы с Big Data, инструкции по их использованию;
— настроить сценарии, подходящие конкретному бизнесу;
— быстро получить доступ к решениям, оптимизированным под ваши задачи, без необходимости разрабатывать все самостоятельно.