Distribuée
AWS Advisory
← Toutes les offres

AI Engineering

Audit IA & Bedrock : architecture, RAG et coûts en 2 semaines

Revue technique d'une plateforme IA générative en production : Bedrock, RAG, agents, eval. Pas un POC, pas un benchmark — un audit prod-ready avec plan d'action.

Le contexte

La plupart des PME que je croise sont passées du POC IA à la production en moins de 6 mois. Bedrock, un RAG bricolé sur OpenSearch ou pgvector, des agents Claude qui appellent des APIs internes — tout ça monté vite, par une équipe qui découvre le terrain au fur et à mesure.

Le résultat est souvent fonctionnel mais fragile : prompts non versionnés, retrieval mal calibré, pas de pipeline d’évaluation, coûts qui dérapent silencieusement, IAM trop laxiste sur Bedrock. Ça tient — jusqu’au premier incident utilisateur ou à la première facture qui sort.

Cet audit est un état des lieux technique sur 2 semaines, focus production. Pas de POC, pas de benchmark de modèles. Le périmètre : ce qui tourne, comment ça tourne, et comment le rendre fiable et économique.

Pour qui

  • Une plateforme IA en production sur AWS (chatbot, RAG, agent, classification)
  • Une stack Bedrock, SageMaker ou un LLM auto-hébergé (Mistral, Llama)
  • Un pipeline RAG sur OpenSearch, pgvector, Pinecone ou équivalent
  • Des agents Bedrock ou des intégrations Anthropic / OpenAI en backend
  • Une facture LLM qui devient visible (> 1 000 €/mois) et difficile à attribuer
  • Une demande client ou interne sur la qualité des réponses (eval, hallucinations, latence)

Ce qui est livré

Semaine 1 — Cartographie & sécurité

  • Inventaire des modèles, prompts, sources de données, agents en production
  • Revue sécurité Bedrock : IAM least-privilege, Guardrails, PrivateLink, encryption KMS, logging
  • Audit des accès cross-account aux modèles et aux index vectoriels
  • Cartographie des coûts inference par modèle, par feature, par client si applicable

Semaine 2 — Qualité, performance, plan d’action

  • Audit RAG : stratégie de chunking, qualité du retrieval, ranking, taux de pertinence
  • Setup d’un pipeline d’évaluation reproductible (eval suite, ground truth, métriques)
  • Analyse latence + coût par requête, identification des leviers d’optimisation
  • Plan d’action 30/60/90 jours chiffré et priorisé sur les 5 axes : sécurité, qualité, coût, latence, opérabilité
  • Cadrage optionnel d’une bascule entre modèles (Claude ↔ Mistral ↔ Llama) avec impact estimé

Ce qui n’est pas inclus

  • L’implémentation des recommandations (relève du retainer mensuel ou d’une mission spécialisée)
  • L’entraînement d’un modèle custom ou fine-tuning à partir de zéro
  • La conformité réglementaire AI Act — c’est l’objet de l’offre dédiée AI Act
  • Le benchmark commercial entre fournisseurs LLM (peut être ajouté en mission complémentaire)

Prix et délais

4 500 € forfait, 2 semaines entre kick-off et remise du livrable.

L’audit s’enchaîne naturellement avec un retainer mensuel pour piloter l’exécution du plan d’action si besoin.

Pourquoi Distribuée

6 certifications AWS dont 3 Professional/Specialty (Solutions Architect Pro, DevOps Pro, Security Specialty), Generative AI Developer Professional en cours. DevSecOps senior. L’angle Distribuée sur l’IA, c’est l’exigence d’un environnement critique appliquée à une stack souvent montée à la va-vite.

Démarrer la mission

15 minutes pour cadrer votre périmètre.

Sans engagement. On regarde ensemble vos systèmes IA en production et on qualifie le ROI de l'audit.

Réserver 15 min