Vous êtes data scientist dans une startup fintech. Un email client arrive, bourré de jargon bancaire. L’urgence presse, vous êtes alors sous pression et pour gagner du temps vous lancez ChatGPT afin d’extraire les infos clés, ce qui vous apparait comme une excellent idée sur le coup. Mais voilà, pas de bol ? Il hallucine un montant fictif, et par richchet provoque une décision erronée … résultat: un grand n’importe quoi. Vous pensez que c’est ridicule ? je dirais, pas vraiment car tout le monde peut vivre ce type d’histoire et quand ça arrive je peux vous assurer qu’il faut alors revoir & repenser notre « fétichisme IA ». Dans cet article, j’aimerai débattre d’une utilisation saine de l’IA, avec limites claires, bon sens en bandoulière, et un retour aux classiques comme regex et machine learning simple qui font toujours sens. En gros et pour faire simple comment éviter de prendre un bazooka pour tuer une mouche quand en plus on risque de la manquer !
Note: qu’on ne se trompe pas j’adore l’IA et l’utilise d’ailleurs tous les jours ! l’idée de cet article n’est donc certainement pas de dénigrer la technologie mais plutot d’alimenter la reflexion sur son usage à bon escient.
Le piège du « tout-IA » : mon flop personnel
Tout a commencé avec un projet de parsing d’emails clients (un cas d’usage typique mais qui bizarrement reste toujours d’actualité). Mon besoin était donc simple je devais extraire adresses, montants et dates. Evidemment je me suis dit que j’allais avoir une approche « moderne ». J’ai donc pris un LLM (GPT-4o dans mon cas de figure). Ensuite j’ai construit un prompt ingénieux avec une sortie JSON-like. Le résultat semblait à la hauteur de mon plaisir tech: ça marchait à 85% du temps… bon, jusqu’au jour où un email mal orthographié (« m0ntant 1500€ » au lieu de « montant ») devient « montant 15000€ ». Hop un cas d’hallucination pure, mais que d’heures perdues à comprendre l’origine du problème et je ne parle pas des conséquences que cela aurait pu avoir d’un point de vue business.
Le problème est simple. L’IA générative est probabiliste, pas déterministe. Elle excelle en créativité, mais foire sur la précision absolue. Résultat : on gaspille du compute, des API calls chers (0,01€/1000 tokens), et on perd la confiance. Jetez un coup d’oeil à l’étude de varonis, c’est assez bluffant.
Les héros oubliés : regex et ML classique à la rescousse
Revenons aux bases qui ne trahissent jamais et pour ce parsing email, je vais donc adopter une approche différente (plus traditionnelle):
-
Regex en action : Pour capter un email, on cherche un motif fixe comme « quelquechose@domaine.com ». Règle simple : lettres/chiffres avant @, puis nom.domaine. Exemple sur « contact@banque.fr » → match parfait, 100% sûr, sans ambiguïté. Pour un montant : on traque « 1 500,50 € » ou « 1500€ » avec des chiffres, virgules, points et symbole €. Résultat : extrait net, zéro erreur sur 10 000 emails tests.
-
Machine Learning simple en action : Imaginez 1 000 emails labellisés manuellement (« demande prêt », « réclamation »). L’algo (comme Naive Bayes) apprend des mots-clés : « prêt » → catégorie finance. Nouveau email avec « virement urgent » ? Classé en 0,1 seconde à 98% de précision, sans réentraînement massif.
Exemple concret dans la vraie vie : sur 500 emails fintech, regex a extrait 95% des adresses/montants sans faille. Le Machine Learning (ML) a trié les catégories restantes. Total : 2 minutes de setup vs heures de debug IA.
Bonnes pratiques : l’IA en mode « sidekick », pas super-héros
Pour éviter le ridicule:
- Règle #1 : Commencez simple. Regex/ML pour 80% des cas (règle Pareto). IA seulement pour ambiguïtés (ex. : phrases floues comme « environ 2k€ »).
- Règle #2 : Hybridez. Regex d’abord pour nettoyer (adresses propres), ML ensuite pour classer, IA en dernier recours (20% des cas). Comme dans la classification Varonis : regex + LLM pour données structurées. varonis
- Règle #3 : Mesurez et limitez. Trackez précision (F1-score), coût, latence. Si regex fait 99%, pourquoi IA à 92% ?
- Exemple : Une banque française (ondt je ne citerai pas le nom) parse +1M transactions/mois. Regex/ML gèrent 95%, IA les 5% narratifs. Économie : 50k€/an en API.
| Approche | Précision | Coût | Use case idéal | Limites |
|---|---|---|---|---|
| Regex | 100% (déterministe) | Quasi nul | Formats fixes (dates, emails) | Pas de sémantique |
| ML classique | 95-98% | Faible (train one-shot) | Classification labellisée | Besoin data |
| LLM (IA générative) | 85-95% | Élevé (API) | Contexte nuancé | Hallucinations, black box varonis |
Conclusion : l’équilibre, clé de la vraie innovation
L’IA brille en exploration (génération d’idées, protos rapides), mais les classiques assurent la prod fiable. Mon mantra post-flop : « IA pour accélérer, pas remplacer le bon sens ». Prochain projet ? Hybride total.
Pour ceux qui ont besoin d’un récap sur les techniques dites traditionnelles & efficace: je vous conseille mon livre : The Art of data Alchemy
