⚙️ Архитектура AI-платформы

Технический фундамент, на котором работают все AI-инициативы Opella — от прогнозирования цепочки поставок до генерации контента.


Принципы проектирования

Единая, не разрозненная. Одна платформа данных обслуживает все домены. Никаких локальных выгрузок данных в каждой команде. Никакого расхождения между системами.

Cloud-native с первого дня. Построена для масштаба, эластичности и географической распределённости, которая нужна Opella в 100 странах.

Governance с самого начала. Владение данными, SLA по качеству и контроль доступа — не послесловие, а часть архитектуры. Без governance озеро данных превращается в болото данных.

Независимость от типа модели. Платформа поддерживает как классический ML (прогнозирование, классификация, обнаружение аномалий), так и LLM (GenAI-контент, NLP для PV, регуляторная аналитика) через единую инфраструктуру.


Полная схема платформы

Перетаскивай и масштабируй для изучения. Анимированные рёбра показывают направление потоков данных.


Разбор по слоям

Источники данных

Все операционные системы: ERP (SAP), CRM (Salesforce), WMS, рыночные данные (IQVIA, синдицированные данные продаж), данные продаж аптек, платформы потребительских исследований.

Слой приёма данных

Потоковый и пакетный приём.

Озеро данных (сырая зона)

Все данные поступают сюда первыми в исходном формате — ничего не изменяется. Партиционирование по исходной системе, домену, рынку и дате. Облачное объектное хранилище (AWS S3 или Azure Data Lake Storage Gen2).

Хранилище данных

Кураторские, управляемые, готовые для бизнеса таблицы. Трансформации управляются dbt с автоматическими тестами качества. Snowflake или BigQuery в качестве движка. Этот слой запрашивают аналитики и BI-инструменты (Looker, Power BI) — не сырое озеро.

Feature Store

Предвычисленные, версионированные ML-признаки, общие для нескольких моделей.

Пример: «Сезонный индекс Doliprane во Франции» вычисляется один раз и используется моделью прогнозирования спроса, моделью коммерческого скоринга и моделью аналитики закупок. Устраняет дублирование вычислений и обеспечивает консистентность.

ML-платформа

Обучение моделей (по расписанию и по событию), отслеживание экспериментов (MLflow), версионирование, шлюзы оценки и сервинг через REST API. Модели деплоятся как версионированные API-эндпоинты, которые потребляют приложения доменов. Предыдущая версия всегда доступна для мгновенного отката.

LLM-слой

Управляемый инференс LLM (OpenAI GPT-4o / Anthropic Claude) с Retrieval-Augmented Generation (RAG) для доменных баз знаний.

Применения:

Приложения доменов

Пользовательский уровень — тонкие потребители возможностей платформы. Дашборды цепочки поставок, инструменты триажа PV, рабочие процессы генерации контента, приложения приоритизации визитов. Приложения не содержат бизнес-логику — они вызывают API платформы.


MLOps-пайплайн

Данные → Feature Engineering → Обучение → Шлюз оценки → Staging → Production
            ↑                                                            ↓
            └──────────── Мониторинг + Обнаружение дрейфа ──────────────┘

Governance и этика

АспектПодход
Конфиденциальность данныхPII маскируется при приёме; GDPR-совместимость по дизайну во всех 100 рынках
Объяснимость моделейSHAP-значения для всех продакшн-моделей, задействованных в бизнес-решениях
Надзор человекаВсе регулируемые решения (отчётность PV, досье, подпись QC) требуют одобрения человека
Мониторинг предвзятостиМетрики справедливости для моделей, влияющих на людей (HR-инструменты, скоринг торговых представителей)
Цепочка аудитаПолная прослеживаемость: источник данных → трансформация → признак → модель → решение