Benoit Cayla


A propos de Benoit Cayla

Ingénieur en informatique avec plus de 20 ans d’expérience dans la gestion et l’utilisation de données, Benoit CAYLA a mis son expertise au profit de projets très variés tels que l’intégration, la gouvernance, l’analyse, l’IA, la mise en place de MDM ou de solution PIM pour le compte de diverses entreprises spécialisées dans la donnée (dont IBM, Informatica et Tableau). Ces riches expériences l’ont naturellement conduit à intervenir dans des projets de plus grande envergure autour de la gestion et de la valorisation des données, et ce principalement dans des secteurs d’activités tels que l’industrie, la grande distribution, l’assurance et la finance. Également, passionné d’IA (Machine Learning, NLP et Deep Learning), l’auteur a rejoint Blue Prism en 2019 et travaille aujourd’hui en tant qu’expert data/IA et processus. Son sens pédagogique ainsi que son expertise l’ont aussi amené à animer un blog en français (datacorner.fr) ayant pour but de montrer comment comprendre, analyser et utiliser ses données le plus simplement possible.

Les sacs de mots 4

Pour faire suite à mon article sur la gestion des chaînes de caractères, voici un premier volet qui va nous permettre d'avoir une approche progressive du traitement de ce type de données. Loin de toute approche sémantique (qui fera l'objet d'un post ultérieur) nous allons aborder ici la technique des sacs de mots


Gérer les chaînes de caractères

Si vous désirez avoir une approche analytique de vos données, vous avez bien sur été confronté à la difficulté d'exploiter des chaînes de caractères. A tel point que bien souvent vous avez certainement dû en mettre de coté certaines. Manque d'outillage, complexité de gérer des sémantiques complexes … Dans cet article (premier d'une série) nous allons aborder ces problèmes et surtout voir comment les résoudre.