Benoit Cayla


A propos de Benoit Cayla

Ingénieur en informatique avec plus de 20 ans d’expérience dans la gestion et l’utilisation de données, Benoit CAYLA a mis son expertise au profit de projets très variés tels que l’intégration, la gouvernance, l’analyse, l’IA, la mise en place de MDM ou de solution PIM pour le compte de diverses entreprises spécialisées dans la donnée (dont IBM, Informatica et Tableau). Ces riches expériences l’ont naturellement conduit à intervenir dans des projets de plus grande envergure autour de la gestion et de la valorisation des données, et ce principalement dans des secteurs d’activités tels que l’industrie, la grande distribution, l’assurance et la finance. Également, passionné d’IA (Machine Learning, NLP et Deep Learning), l’auteur a rejoint Blue Prism en 2019 et travaille aujourd’hui en tant qu’expert data/IA et processus. Son sens pédagogique ainsi que son expertise l’ont aussi amené à animer un blog en français (datacorner.fr) ayant pour but de montrer comment comprendre, analyser et utiliser ses données le plus simplement possible.

Mon livre sur la préparation des données est disponible en avant première (MEAP)!

Après des mois de travail acharné et de passion, je suis ravi(e) de partager une nouvelle exceptionnelle : le livre Data Preparation for AI and Analytics est maintenant disponible dans le programme MEAP (Manning Early Access Program) ! 🎉 📖 Pourquoi ce livre ? La préparation des données est une étape cruciale pour réussir tout projet de données, qu’il s’agisse de tableaux de bord, de modèles d’IA ou d’analyses avancées. Mais c’est aussi l’un des plus grands défis, un peu comme démêler une guirlande lumineuse pendant les fêtes 🎄. Avec ce livre, j’ai voulu rendre cette étape plus simple, plus […]


Introduction au RAG (Retrieval Augmented Generation) 3

Suite à l’un de mes précédent article sur le RAG (Retrieval Augmented Generation), et quelques commentaires pertinents de lecteurs, je me dois d’aller plus dans le détail sur cette technologie. En fait je vais faire mieux que cela, et je vais décomposer pierre par pierre cette technique et vous montrer qu’elle n’est pas très complexe finalement.
Commençons par un article explicatif, et les prochain seront eux focalisés sur la mise en oeuvre étape par étape.


Document chunking !

Le document chunking est une pratique courante en intelligence artificielle qui prend de plus en plus d’importance avec la démocratisation des LLM et dutraitements de données textuelles via NLP en général. Son objectif est de permettre le découpage de vastes ensembles de documents en segments plus petits. Cette méthode ou technique facilite grandement l’analyse et le traitement des informations permettant aux algorithmes d’IA d’opérer de manière plus efficiente sur des portions de texte réduites. L’objectif est de réduire la surcharge d’informations et les problèmes de performance liés au traitement de documents entiers. De plus, cette segmentation permet de réduire la complexité des tâches d’analyse, en offrant une approche plus gérable pour les modèles d’IA.


Profiler vos données tout simplement avec Python et Pandas

Il existe bien sur beaucoup de librairies (comme Pandas Profiling ou plutôt ydata-profiling dorénavant) et surtout beaucoup d’outils qui permettent plus ou moins simplement d’effectuer une analyse structurelle de vos données (on se limitera ici d’un profiling de table).

Mais voilà, parfois une approche minimaliste suffit amplement. Rien ne nécessite la mise en place d’une artillerie lourde et couteuse en ressource ! L’idée de cet article est de vous montrer qu’avec la simple (mais très riche) librairie Pandas vous avez déjà de quoi vous satisfaire amplement.


ExYPro, La méthodologie de Process Mining

La « Process Intelligence » fait référence à la collecte, à l’analyse et à l’interprétation des données générées par les processus (c’est-à-dire les journaux ou logs) ainsi que les diverses activités métiers au sein d’une organisation dans le but d’améliorer l’efficacité, la productivité et les performances globales.