Бизнес-контекст
Самый срочный AI-вызов Opella носит структурный характер: данные компании десятилетиями жили в системах Sanofi. После отделения в апреле 2025 года Opella строит независимую инфраструктуру данных с нуля. Гаурав Шах (Global Head of Data, Analytics & AI) назвал «взрыв объёма и скорости данных» главным вызовом ближайшего времени.
Без единой платформы данных все остальные AI-инициативы строятся на песке.
Текущее состояние:
- Данные разбросаны по множеству унаследованных ERP-систем (число поставщиков ERP снижено на 65%, но работа продолжается)
- Несоответствие между системами — один и тот же SKU называется по-разному на разных рынках
- Нет единого источника правды для спроса, запасов, продаж или данных о потребителях
- AI-команды из разных доменов работают на локальных выгрузках данных
Видение платформы
Единая платформа данных как единственный источник правды для всей AI-работы и аналитики в Opella — принимающая данные из всех операционных систем, управляемая, кураторская и доступная бизнес-командам через self-service инструменты.
Архитектурные слои
Слой приёма данных Коннекторы ко всем исходным системам: SAP (ERP), WMS, Salesforce (CRM), IQVIA и синдицированные рыночные данные, фиды sell-out аптек, платформы потребительских исследований. Kafka для потоков; Fivetran / Airbyte для пакетного приёма.
Озеро данных (сырая зона) Все данные поступают сюда первыми в исходном формате. Партиционирование по исходной системе, домену, рынку и дате. Облачное объектное хранилище (AWS S3 или Azure Data Lake Storage).
Хранилище данных / Lakehouse Кураторские, управляемые, готовые для бизнеса таблицы. Трансформации управляются dbt с автоматическими тестами качества. Snowflake или BigQuery в качестве движка. Именно этот слой запрашивают аналитики и BI-инструменты.
Feature Store Предвычисленные, версионированные ML-признаки, общие для нескольких моделей. Пример: «Сезонный индекс Doliprane во Франции» вычисляется один раз и используется как моделью прогнозирования спроса, так и моделью коммерческого скоринга. Устраняет дублирование вычислений и обеспечивает консистентность.
Self-Service аналитика Бизнес-пользователи запрашивают данные через BI-инструмент (Looker, Power BI) без написания SQL. Поверх — AI-слой запросов на естественном языке.
AI-возможности
1. Автоматизация качества данных — Волна 1
Автоматическое профилирование входящих данных, обнаружение аномалий, пропущенных значений, дрейфа схемы и межсистемных несоответствий. Оповещение дата-инженеров до того, как плохие данные достигнут потребителей downstream.
2. Метаданные и каталог данных — Волна 1
AI-ассистированная каталогизация всех дата-ассетов: что существует, что означает, кто владеет, насколько свежо, кто использует. Обязательное условие для принятия self-service.
3. Естественный язык в SQL — Волна 2
Бизнес-пользователи задают вопросы на обычном языке («Каковы были продажи Doliprane во Франции в прошлом квартале по сравнению с предыдущим годом?») — LLM генерирует и выполняет SQL, возвращает результаты с понятным объяснением.
4. Автоматическая генерация инсайтов — Волна 2
Проактивное выявление аномалий и трендов для релевантных стейкхолдеров без необходимости их запрашивать. Пример: «Sell-out Allegra в Германии упал на 18% за неделю — коррелирует с появлением нового дженерика».
Метрики успеха
| Метрика | Цель |
|---|---|
| Подключённые операционные системы | 100% |
| Свежесть данных | < 24ч для всех ключевых наборов данных |
| Охват self-service запросов | > 80% бизнес-запросов без помощи инженеров |
| Оценка качества данных | > 95% на управляемых наборах данных |
| Время подключения нового AI-кейса | < 2 недели (vs. месяцы сейчас) |
Первые 90 дней
- Кросс-доменный воркшоп по инвентаризации данных — каталогизировать все источники, владельцев и проблемы качества
- Развернуть облачное озеро данных (AWS или Azure)
- Построить первый пайплайн приёма: ERP → озеро данных, начиная с Франции
- Определить модель data governance: владение, SLA по качеству, контроль доступа
- Развернуть инструмент каталога данных с AI-ассистированной документацией
- Представить базовый уровень качества данных руководству — зафиксировать отправную точку для отслеживания прогресса