Бизнес-контекст

Самый срочный AI-вызов Opella носит структурный характер: данные компании десятилетиями жили в системах Sanofi. После отделения в апреле 2025 года Opella строит независимую инфраструктуру данных с нуля. Гаурав Шах (Global Head of Data, Analytics & AI) назвал «взрыв объёма и скорости данных» главным вызовом ближайшего времени.

Без единой платформы данных все остальные AI-инициативы строятся на песке.

Текущее состояние:


Видение платформы

Единая платформа данных как единственный источник правды для всей AI-работы и аналитики в Opella — принимающая данные из всех операционных систем, управляемая, кураторская и доступная бизнес-командам через self-service инструменты.

Архитектурные слои

Слой приёма данных Коннекторы ко всем исходным системам: SAP (ERP), WMS, Salesforce (CRM), IQVIA и синдицированные рыночные данные, фиды sell-out аптек, платформы потребительских исследований. Kafka для потоков; Fivetran / Airbyte для пакетного приёма.

Озеро данных (сырая зона) Все данные поступают сюда первыми в исходном формате. Партиционирование по исходной системе, домену, рынку и дате. Облачное объектное хранилище (AWS S3 или Azure Data Lake Storage).

Хранилище данных / Lakehouse Кураторские, управляемые, готовые для бизнеса таблицы. Трансформации управляются dbt с автоматическими тестами качества. Snowflake или BigQuery в качестве движка. Именно этот слой запрашивают аналитики и BI-инструменты.

Feature Store Предвычисленные, версионированные ML-признаки, общие для нескольких моделей. Пример: «Сезонный индекс Doliprane во Франции» вычисляется один раз и используется как моделью прогнозирования спроса, так и моделью коммерческого скоринга. Устраняет дублирование вычислений и обеспечивает консистентность.

Self-Service аналитика Бизнес-пользователи запрашивают данные через BI-инструмент (Looker, Power BI) без написания SQL. Поверх — AI-слой запросов на естественном языке.


AI-возможности

1. Автоматизация качества данных — Волна 1

Автоматическое профилирование входящих данных, обнаружение аномалий, пропущенных значений, дрейфа схемы и межсистемных несоответствий. Оповещение дата-инженеров до того, как плохие данные достигнут потребителей downstream.

2. Метаданные и каталог данных — Волна 1

AI-ассистированная каталогизация всех дата-ассетов: что существует, что означает, кто владеет, насколько свежо, кто использует. Обязательное условие для принятия self-service.

3. Естественный язык в SQL — Волна 2

Бизнес-пользователи задают вопросы на обычном языке («Каковы были продажи Doliprane во Франции в прошлом квартале по сравнению с предыдущим годом?») — LLM генерирует и выполняет SQL, возвращает результаты с понятным объяснением.

4. Автоматическая генерация инсайтов — Волна 2

Проактивное выявление аномалий и трендов для релевантных стейкхолдеров без необходимости их запрашивать. Пример: «Sell-out Allegra в Германии упал на 18% за неделю — коррелирует с появлением нового дженерика».


Метрики успеха

МетрикаЦель
Подключённые операционные системы100%
Свежесть данных< 24ч для всех ключевых наборов данных
Охват self-service запросов> 80% бизнес-запросов без помощи инженеров
Оценка качества данных> 95% на управляемых наборах данных
Время подключения нового AI-кейса< 2 недели (vs. месяцы сейчас)

Первые 90 дней

  1. Кросс-доменный воркшоп по инвентаризации данных — каталогизировать все источники, владельцев и проблемы качества
  2. Развернуть облачное озеро данных (AWS или Azure)
  3. Построить первый пайплайн приёма: ERP → озеро данных, начиная с Франции
  4. Определить модель data governance: владение, SLA по качеству, контроль доступа
  5. Развернуть инструмент каталога данных с AI-ассистированной документацией
  6. Представить базовый уровень качества данных руководству — зафиксировать отправную точку для отслеживания прогресса