AI Engineering
Audit IA & Bedrock : architecture, RAG et coûts en 2 semaines
Revue technique d'une plateforme IA générative en production : Bedrock, RAG, agents, eval. Pas un POC, pas un benchmark — un audit prod-ready avec plan d'action.
Le contexte
La plupart des PME que je croise sont passées du POC IA à la production en moins de 6 mois. Bedrock, un RAG bricolé sur OpenSearch ou pgvector, des agents Claude qui appellent des APIs internes — tout ça monté vite, par une équipe qui découvre le terrain au fur et à mesure.
Le résultat est souvent fonctionnel mais fragile : prompts non versionnés, retrieval mal calibré, pas de pipeline d’évaluation, coûts qui dérapent silencieusement, IAM trop laxiste sur Bedrock. Ça tient — jusqu’au premier incident utilisateur ou à la première facture qui sort.
Cet audit est un état des lieux technique sur 2 semaines, focus production. Pas de POC, pas de benchmark de modèles. Le périmètre : ce qui tourne, comment ça tourne, et comment le rendre fiable et économique.
Pour qui
- Une plateforme IA en production sur AWS (chatbot, RAG, agent, classification)
- Une stack Bedrock, SageMaker ou un LLM auto-hébergé (Mistral, Llama)
- Un pipeline RAG sur OpenSearch, pgvector, Pinecone ou équivalent
- Des agents Bedrock ou des intégrations Anthropic / OpenAI en backend
- Une facture LLM qui devient visible (> 1 000 €/mois) et difficile à attribuer
- Une demande client ou interne sur la qualité des réponses (eval, hallucinations, latence)
Ce qui est livré
Semaine 1 — Cartographie & sécurité
- Inventaire des modèles, prompts, sources de données, agents en production
- Revue sécurité Bedrock : IAM least-privilege, Guardrails, PrivateLink, encryption KMS, logging
- Audit des accès cross-account aux modèles et aux index vectoriels
- Cartographie des coûts inference par modèle, par feature, par client si applicable
Semaine 2 — Qualité, performance, plan d’action
- Audit RAG : stratégie de chunking, qualité du retrieval, ranking, taux de pertinence
- Setup d’un pipeline d’évaluation reproductible (eval suite, ground truth, métriques)
- Analyse latence + coût par requête, identification des leviers d’optimisation
- Plan d’action 30/60/90 jours chiffré et priorisé sur les 5 axes : sécurité, qualité, coût, latence, opérabilité
- Cadrage optionnel d’une bascule entre modèles (Claude ↔ Mistral ↔ Llama) avec impact estimé
Ce qui n’est pas inclus
- L’implémentation des recommandations (relève du retainer mensuel ou d’une mission spécialisée)
- L’entraînement d’un modèle custom ou fine-tuning à partir de zéro
- La conformité réglementaire AI Act — c’est l’objet de l’offre dédiée AI Act
- Le benchmark commercial entre fournisseurs LLM (peut être ajouté en mission complémentaire)
Prix et délais
4 500 € forfait, 2 semaines entre kick-off et remise du livrable.
L’audit s’enchaîne naturellement avec un retainer mensuel pour piloter l’exécution du plan d’action si besoin.
Pourquoi Distribuée
6 certifications AWS dont 3 Professional/Specialty (Solutions Architect Pro, DevOps Pro, Security Specialty), Generative AI Developer Professional en cours. DevSecOps senior. L’angle Distribuée sur l’IA, c’est l’exigence d’un environnement critique appliquée à une stack souvent montée à la va-vite.
Démarrer la mission
15 minutes pour cadrer votre périmètre.
Sans engagement. On regarde ensemble vos systèmes IA en production et on qualifie le ROI de l'audit.
Réserver 15 min