Audit IA & Bedrock sur AWS : architecture, RAG et coûts en 2 semaines

Revue technique d'une plateforme IA générative en production : Bedrock, RAG, agents, eval. Pas un POC, pas un benchmark — un audit prod-ready avec plan d'action.

Le contexte

La plupart des PME que je croise sont passées du POC IA à la production en moins de 6 mois. Bedrock, un RAG bricolé sur OpenSearch ou pgvector, des agents Claude qui appellent des APIs internes — tout ça monté vite, par une équipe qui découvre le terrain au fur et à mesure.

Le résultat est souvent fonctionnel mais fragile : prompts non versionnés, retrieval mal calibré, pas de pipeline d’évaluation, coûts qui dérapent silencieusement, IAM trop laxiste sur Bedrock. Ça tient — jusqu’au premier incident utilisateur ou à la première facture qui sort.

Cet audit est un état des lieux technique sur 2 semaines, focus production. Pas de POC, pas de benchmark de modèles. Le périmètre : ce qui tourne, comment ça tourne, et comment le rendre fiable et économique.

Pour qui

Une plateforme IA en production sur AWS (chatbot, RAG, agent, classification)
Une stack Bedrock, SageMaker ou un LLM auto-hébergé (Mistral, Llama)
Un pipeline RAG sur OpenSearch, pgvector, Pinecone ou équivalent
Des agents Bedrock ou des intégrations Anthropic / OpenAI en backend
Une facture LLM qui devient visible (> 1 000 €/mois) et difficile à attribuer
Une demande client ou interne sur la qualité des réponses (eval, hallucinations, latence)

Ce qui est livré

Semaine 1 — Cartographie & sécurité

Inventaire des modèles, prompts, sources de données, agents en production
Revue sécurité Bedrock : IAM least-privilege, Guardrails, PrivateLink, encryption KMS, logging
Audit des accès cross-account aux modèles et aux index vectoriels
Cartographie des coûts inference par modèle, par feature, par client si applicable

Semaine 2 — Qualité, performance, plan d’action

Audit RAG : stratégie de chunking, qualité du retrieval, ranking, taux de pertinence
Setup d’un pipeline d’évaluation reproductible (eval suite, ground truth, métriques)
Analyse latence + coût par requête, identification des leviers d’optimisation
Plan d’action 30/60/90 jours chiffré et priorisé sur les 5 axes : sécurité, qualité, coût, latence, opérabilité
Cadrage optionnel d’une bascule entre modèles (Claude ↔ Mistral ↔ Llama) avec impact estimé

Ce qui n’est pas inclus

L’implémentation des recommandations (relève du retainer mensuel ou d’une mission spécialisée)
L’entraînement d’un modèle custom ou fine-tuning à partir de zéro
La conformité réglementaire AI Act — c’est l’objet de l’offre dédiée AI Act
Le benchmark commercial entre fournisseurs LLM (peut être ajouté en mission complémentaire)

Prix et délais

4 500 € forfait, 2 semaines entre kick-off et remise du livrable.

L’audit s’enchaîne naturellement avec un retainer mensuel pour piloter l’exécution du plan d’action si besoin.

Pourquoi Distribuée

6 certifications AWS dont 3 Professional/Specialty (Solutions Architect Pro, DevOps Pro, Security Specialty), Generative AI Developer Professional en cours. DevSecOps senior. L’angle Distribuée sur l’IA, c’est l’exigence d’un environnement critique appliquée à une stack souvent montée à la va-vite.

Audit IA & Bedrock : architecture, RAG et coûts en 2 semaines