L’un des enjeux majeurs de l’IA en Entreprise réside actuellement dans l’automatisation des tâches. L’IA est perçue comme un levier permettant d’automatiser certaines étapes d’un processus, réduisant ainsi les coûts opérationnels associés. Il est important de bien connaitre les limites actuelles et comprendre la nécessité de tests rigoureux.
(Podcast disponible en fin d’article)
Fiabilité des Processus et Exigences pour les Applications GenAI
Par définition, un processus doit être fiable, c’est-à-dire qu’il doit atteindre son objectif, quels que soient le contexte et les différentes situations possibles.
De même, une application de GenAI destinée à automatiser une tâche se doit d’être fiable, à l’instar d’une application informatique métier traditionnelle, en exécutant une tâche avec précision.
En cas d’exécution incorrecte, le processus devrait idéalement détecter l’erreur et prévoir une série d’actions pour ajuster, corriger voire remplacer l’opération défaillante.
Évolution de la Digitalisation et Spécificités de la GenAI
Les applications traditionnelles (ERP, CRM, etc.) ont significativement contribué à la digitalisation des processus ces dernières années, intégrant les règles métier nécessaires et nécessitant une formation des utilisateurs.
L’IA pourrait ainsi être envisagée comme une extension naturelle de cette évolution.
Cependant, ignorer deux caractéristiques fondamentales de la GenAI l’empêcherait d’être un prolongement direct de cette digitalisation :
- Non-déterminisme des résultats : Contrairement aux applications classiques, les applications de GenAI ne produisent pas des résultats identiques à chaque utilisation, même avec des prompts identiques.
- Potentiel d’hallucinations : Elles peuvent générer des résultats complètement erronés sans aucun avertissement.
Nature Probabiliste de la GenAI vs. Déterminisme des Applications Métier
Les applications de GenAI sont intrinsèquement probabilistes, contrairement aux applications métier traditionnelles qui sont déterministes et exécutent des instructions non ambiguës en s’appuyant sur des bases de données structurées.
Certes les applications traditionnelles ne soient pas exemptes de bugs (liés à des erreurs humaines en amont) mais ils sont toujours explicables. Il est crucial de comprendre que les applications de GenAI fonctionnent sur des principes fondamentalement différents, basés sur des probabilités et une certaine variabilité.
En d’autres termes, elles activent des fonctions de type « random » dans certains de leurs traitements, ce qui permet d’obtenir des résultats de très haute qualité mais avec un contrôle moindre mais sans qu’on sache expliquer comment, et donc remonter à la cause de l’erreur.
Dario Amodei, PDG d’Anthropic, un acteur majeur aux côtés d’OpenAI, a récemment souligné l’urgence de s’attaquer à ce problème (voir son post d’avril 2025).
Défis d’Intégration pour les DSI
Cette situation représente un défi considérable pour les Directions des Systèmes d’Information (DSI) souhaitant intégrer l’IA au-delà des phases de Proof of Concept (POC).
Comment gérer l’introduction d’une solution qui, par nature, peut générer des erreurs et ne produira pas toujours les mêmes résultats avec les mêmes données d’entrée ?
Nécessité d’une Méthodologie d’Intégration Spécifique
Cette seule interrogation justifie le développement d’une méthodologie d’intégration totalement nouvelle, dont il n’existe pas encore de référence. Chez IA-match, nous avons initié une réflexion sur ce problème et identifié les premiers principes clés :
- Intégration de processus de test : Ajouter à l’application un processus de test, impliquant soit une intervention humaine, soit l’application d’un test de vraisemblance par une application traditionnelle basée sur des règles métier, soit une combinaison des deux approches si le test seul ne suffit pas. Cette étape pourrait a minima faire gagner du temps aux utilisateurs en identifiant les anomalies les plus évidentes.
- Conception privilégiant le RAG (Retrieval-Augmented Generation) : Concevoir des applications de GenAI intégrant au maximum la génération augmentée par récupération. Pour simplifier, le RAG contraint l’application de GenAI à appliquer des règles déterministes issues de l’entreprise, réduisant ainsi les erreurs et augmentant la fiabilité des résultats lorsque les données d’entrée exploitent des données internes.
- Parallélisation et comparaison des résultats : Faire fonctionner deux applications de GenAI en parallèle et comparer systématiquement leurs résultats via une troisième application. Celle-ci détecterait les écarts significatifs et les soumettrait à une vérification manuelle. Bien que potentiellement coûteuse, cette approche pourrait se justifier par la valeur ajoutée de l’application de GenAI.
- Implémentation de solutions de détection d’hallucinations : Mettre en œuvre des solutions logicielles spécialisées dans la détection d’hallucinations, dont certaines sont proposées par des éditeurs privés (Comet, Genezio, Radicalbit MLOps Platform) et d’autres en open source (RefChecker, SelfCheckGPT, FacTool, Lynx (Patronus AI), EdinburghNLP/awesome-hallucination-detection).
L’outil en ligne https://demo.exa.ai/ permet également de tester la fiabilité des réponses en cherchant des références sur Internet.
Limites Actuelles et Nécessité de Tests Rigoureux
Ces solutions ne sont pas parfaites tant que le niveau d’explicabilité de la GenAI ne progressera pas, ce qui, selon les experts, pourrait prendre 5 à 10 ans. Quelle que soit l’approche retenue, l’étape cruciale de test avant mise en production ne pourra être contournée.
Ces tests soulèvent également des questions méthodologiques. Comme le souligne Dario Amodei, il pourrait être nécessaire de concevoir une étape de « brain scan » en mettant en place deux équipes : une « équipe rouge » cherchant à provoquer des hallucinations et une « équipe bleue » analysant la nature de ces défaillances.
Importance de l’Étape d’Industrialisation et de Tests Exhaustifs
Nous considérons que ces sujets sont fondamentaux pour l’étape d’industrialisation de la GenAI. Les POC doivent dès à présent intégrer la mise en place de garde-fous et contribuer à l’ajustement des méthodologies de test.
Il est en effet trop facile de mener un POC en se limitant à une utilisation isolée d’un processus complet.
À titre de comparaison, cela reviendrait à vouloir commercialiser un médicament sur la base de tests limités sur quelques animaux, en contournant les protocoles de tests progressifs réglementaires pour l’humain.
Nous comprenons la nécessité de susciter l’enthousiasme des comex avec des démonstrations spectaculaires.
Les applications de GenAI y excellent. Cependant, le risque de dérapage est trop important pour ne pas tempérer cet enthousiasme par une approche prudente et surtout exhaustive sur tous les aspects. Une telle approche permettra une évaluation plus juste de la réelle valeur ajoutée.
Podcast
En complément de cet article, vous pouvez également écouter le podcast que nous avons préparé sur le sujet :