⚙️ Архитектура AI-платформы

Технический фундамент, на котором работают все AI-инициативы Opella — от прогнозирования цепочки поставок до генерации контента.

Принципы проектирования

Единая, не разрозненная. Одна платформа данных обслуживает все домены. Никаких локальных выгрузок данных в каждой команде. Никакого расхождения между системами.

Cloud-native с первого дня. Построена для масштаба, эластичности и географической распределённости, которая нужна Opella в 100 странах.

Governance с самого начала. Владение данными, SLA по качеству и контроль доступа — не послесловие, а часть архитектуры. Без governance озеро данных превращается в болото данных.

Независимость от типа модели. Платформа поддерживает как классический ML (прогнозирование, классификация, обнаружение аномалий), так и LLM (GenAI-контент, NLP для PV, регуляторная аналитика) через единую инфраструктуру.

Полная схема платформы

Перетаскивай и масштабируй для изучения. Анимированные рёбра показывают направление потоков данных.

ERP / SAP

CRM / Продажи

Рыночные данные

Внешние API

IoT · Датчики

⚡ Слой приёма данных (Kafka · Fivetran)

🗄 Озеро данных (Сырая зона — S3 / ADLS)

🏛 Хранилище данных (Snowflake / BigQuery)

⚙️ Feature Store (переиспользуемые признаки)

🤖 ML-платформа (обучение · сервинг · MLflow)

🧠 LLM-слой (GenAI · RAG)

📦 Supply Chain Прогнозирование

⚖️ Триаж PV Автоматизация

📱 Генерация контента

🤝 Приоритизация визитов

React Flow

Разбор по слоям

Источники данных

Все операционные системы: ERP (SAP), CRM (Salesforce), WMS, рыночные данные (IQVIA, синдицированные данные продаж), данные продаж аптек, платформы потребительских исследований.

Слой приёма данных

Потоковый и пакетный приём.

Kafka — потоковые события: данные IoT-датчиков, отчёты о нежелательных явлениях, сигналы потребительского поведения
Fivetran / Airbyte — пакетные коннекторы: ERP, CRM, поставщики рыночных данных
Schema registry — обеспечивает соблюдение контрактов данных между производителями и потребителями

Озеро данных (сырая зона)

Все данные поступают сюда первыми в исходном формате — ничего не изменяется. Партиционирование по исходной системе, домену, рынку и дате. Облачное объектное хранилище (AWS S3 или Azure Data Lake Storage Gen2).

Хранилище данных

Кураторские, управляемые, готовые для бизнеса таблицы. Трансформации управляются dbt с автоматическими тестами качества. Snowflake или BigQuery в качестве движка. Этот слой запрашивают аналитики и BI-инструменты (Looker, Power BI) — не сырое озеро.

Feature Store

Предвычисленные, версионированные ML-признаки, общие для нескольких моделей.

Пример: «Сезонный индекс Doliprane во Франции» вычисляется один раз и используется моделью прогнозирования спроса, моделью коммерческого скоринга и моделью аналитики закупок. Устраняет дублирование вычислений и обеспечивает консистентность.

ML-платформа

Обучение моделей (по расписанию и по событию), отслеживание экспериментов (MLflow), версионирование, шлюзы оценки и сервинг через REST API. Модели деплоятся как версионированные API-эндпоинты, которые потребляют приложения доменов. Предыдущая версия всегда доступна для мгновенного отката.

LLM-слой

Управляемый инференс LLM (OpenAI GPT-4o / Anthropic Claude) с Retrieval-Augmented Generation (RAG) для доменных баз знаний.

Применения:

Триаж нежелательных явлений в PV (NLP-извлечение + классификация тяжести)
Генерация маркетингового контента (безопасный для бренда, соответствующий требованиям)
Проверка соответствия маркировки нормативным требованиям
Запросы к данным на естественном языке («Каковы были продажи Allegra в Германии в прошлом месяце?»)

Приложения доменов

Пользовательский уровень — тонкие потребители возможностей платформы. Дашборды цепочки поставок, инструменты триажа PV, рабочие процессы генерации контента, приложения приоритизации визитов. Приложения не содержат бизнес-логику — они вызывают API платформы.

MLOps-пайплайн

Данные → Feature Engineering → Обучение → Шлюз оценки → Staging → Production
            ↑                                                            ↓
            └──────────── Мониторинг + Обнаружение дрейфа ──────────────┘

Обучение: Переобучение по расписанию (еженедельно для прогнозирования спроса, ежемесячно для оттока)
Шлюз оценки: Модель переходит в продакшн только при соответствии метрик заданному порогу
Мониторинг: Дрейф данных и производительность модели отслеживаются непрерывно в продакшне
Откат: Предыдущая версия деплоится за минуты при деградации качества

Governance и этика

Аспект	Подход
Конфиденциальность данных	PII маскируется при приёме; GDPR-совместимость по дизайну во всех 100 рынках
Объяснимость моделей	SHAP-значения для всех продакшн-моделей, задействованных в бизнес-решениях
Надзор человека	Все регулируемые решения (отчётность PV, досье, подпись QC) требуют одобрения человека
Мониторинг предвзятости	Метрики справедливости для моделей, влияющих на людей (HR-инструменты, скоринг торговых представителей)
Цепочка аудита	Полная прослеживаемость: источник данных → трансформация → признак → модель → решение