⚙️ Архитектура AI-платформы
Технический фундамент, на котором работают все AI-инициативы Opella — от прогнозирования цепочки поставок до генерации контента.
Принципы проектирования
Единая, не разрозненная. Одна платформа данных обслуживает все домены. Никаких локальных выгрузок данных в каждой команде. Никакого расхождения между системами.
Cloud-native с первого дня. Построена для масштаба, эластичности и географической распределённости, которая нужна Opella в 100 странах.
Governance с самого начала. Владение данными, SLA по качеству и контроль доступа — не послесловие, а часть архитектуры. Без governance озеро данных превращается в болото данных.
Независимость от типа модели. Платформа поддерживает как классический ML (прогнозирование, классификация, обнаружение аномалий), так и LLM (GenAI-контент, NLP для PV, регуляторная аналитика) через единую инфраструктуру.
Полная схема платформы
Перетаскивай и масштабируй для изучения. Анимированные рёбра показывают направление потоков данных.
Разбор по слоям
Источники данных
Все операционные системы: ERP (SAP), CRM (Salesforce), WMS, рыночные данные (IQVIA, синдицированные данные продаж), данные продаж аптек, платформы потребительских исследований.
Слой приёма данных
Потоковый и пакетный приём.
- Kafka — потоковые события: данные IoT-датчиков, отчёты о нежелательных явлениях, сигналы потребительского поведения
- Fivetran / Airbyte — пакетные коннекторы: ERP, CRM, поставщики рыночных данных
- Schema registry — обеспечивает соблюдение контрактов данных между производителями и потребителями
Озеро данных (сырая зона)
Все данные поступают сюда первыми в исходном формате — ничего не изменяется. Партиционирование по исходной системе, домену, рынку и дате. Облачное объектное хранилище (AWS S3 или Azure Data Lake Storage Gen2).
Хранилище данных
Кураторские, управляемые, готовые для бизнеса таблицы. Трансформации управляются dbt с автоматическими тестами качества. Snowflake или BigQuery в качестве движка. Этот слой запрашивают аналитики и BI-инструменты (Looker, Power BI) — не сырое озеро.
Feature Store
Предвычисленные, версионированные ML-признаки, общие для нескольких моделей.
Пример: «Сезонный индекс Doliprane во Франции» вычисляется один раз и используется моделью прогнозирования спроса, моделью коммерческого скоринга и моделью аналитики закупок. Устраняет дублирование вычислений и обеспечивает консистентность.
ML-платформа
Обучение моделей (по расписанию и по событию), отслеживание экспериментов (MLflow), версионирование, шлюзы оценки и сервинг через REST API. Модели деплоятся как версионированные API-эндпоинты, которые потребляют приложения доменов. Предыдущая версия всегда доступна для мгновенного отката.
LLM-слой
Управляемый инференс LLM (OpenAI GPT-4o / Anthropic Claude) с Retrieval-Augmented Generation (RAG) для доменных баз знаний.
Применения:
- Триаж нежелательных явлений в PV (NLP-извлечение + классификация тяжести)
- Генерация маркетингового контента (безопасный для бренда, соответствующий требованиям)
- Проверка соответствия маркировки нормативным требованиям
- Запросы к данным на естественном языке («Каковы были продажи Allegra в Германии в прошлом месяце?»)
Приложения доменов
Пользовательский уровень — тонкие потребители возможностей платформы. Дашборды цепочки поставок, инструменты триажа PV, рабочие процессы генерации контента, приложения приоритизации визитов. Приложения не содержат бизнес-логику — они вызывают API платформы.
MLOps-пайплайн
Данные → Feature Engineering → Обучение → Шлюз оценки → Staging → Production
↑ ↓
└──────────── Мониторинг + Обнаружение дрейфа ──────────────┘
- Обучение: Переобучение по расписанию (еженедельно для прогнозирования спроса, ежемесячно для оттока)
- Шлюз оценки: Модель переходит в продакшн только при соответствии метрик заданному порогу
- Мониторинг: Дрейф данных и производительность модели отслеживаются непрерывно в продакшне
- Откат: Предыдущая версия деплоится за минуты при деградации качества
Governance и этика
| Аспект | Подход |
|---|---|
| Конфиденциальность данных | PII маскируется при приёме; GDPR-совместимость по дизайну во всех 100 рынках |
| Объяснимость моделей | SHAP-значения для всех продакшн-моделей, задействованных в бизнес-решениях |
| Надзор человека | Все регулируемые решения (отчётность PV, досье, подпись QC) требуют одобрения человека |
| Мониторинг предвзятости | Метрики справедливости для моделей, влияющих на людей (HR-инструменты, скоринг торговых представителей) |
| Цепочка аудита | Полная прослеживаемость: источник данных → трансформация → признак → модель → решение |