Faut-il avoir peur des Data Sciences ?
Data Science … ça vous évoque quelque-chose ? non ? et si je vous dit : Intelligence artificielle, Machine Learning, Deep Learning, etc. je suis sur que ça vous parle maintenant. En effet, difficile d’échapper à ce concert de terminologies en ce moment n’est-ce pas ?
Mais qu’est-ce que ça peut bien vouloir dire tout ça en réalité ? qu’est-ce que cela cache ? Au delà de l’effet de mode et du fait que tout le monde utilise ou pratique ces termes bien souvent on se rend compte que le mythe n’est pas si flou. Par contre les communications autour du sujet se sont diffusées comme une trainée de poudre malheureusement sans réelle intention de vulgarisation. Volontarisme industriel ou simple méconnaissance ? ce n’est pas le débat ici mais …
Résultat: vous êtes perdu ? ou pire vous commencez à avoir peur de ce nouveau monde qui s’offre – ou plutôt – s’impose à vous ?
Le pire c’est que si vous travaillez dans la donnée ou dans l’informatique … ces concepts vous parlent vaguement, mais au final vous ne maîtrisez pas toutes les capacités et limites potentielles que cela apporte. En gros vous êtes comme moi il y a quelques mois 🙂
A vrai dire et en toute honnêteté je n’ai pas encore de réponses à toutes mes questions. Évidemment chacun ira de sa théorie. Axant son analyse sur une approche technologique ou même philosophique (en suivant des Pionniers comme Azimov, Turing, etc.). Bref, ce n’est pas mon objectif initial je vous rassure.
Mon idée, au travers de ce blog et plus particulièrement autour de ce premier article d’une longue série je l’espère, est de partager avec vous ma découverte de ce monde fabuleux des Data Sciences et plus particulièrement du Machine Learning.
Pourquoi les Data Sciences ?
Et bien oui pourquoi ? Tout simplement parce que cela fait 20 ans que je travaille sur les données. Je sais en effet les collecter, les transporter, les nettoyer, les diffuser … bref les manipuler. Mais j’ai une grande frustration en la matière : Je ne sais pas (ou peu) leur donner une réelle valeur! J’aimerais pouvoir travailler l’information et la faire parler. Mieux la comprendre est parfois une évidence mais en déduire des tendances, des groupes et des prédictions : Ouhaa ! et bien cet aspect là me semble passionnant car les portes qu’il ouvre sont infinies.
Maintenant si on commence à regarder de près les différents articles autour de la Data Science et du Machine learning en particulier, on se rend vite compte que ce monde est plus complexe qu’il y parait. En fait il ne s’agit pas d’un monde mais de la croisée de 3 mondes :
- Les mathématiques (Aïe ça fait 20 ans que j’en n’ai plus fait)
- L’informatique
- Et le métier, en gros le savoir faire et la connaissance autour d’un sujet bien particulier et concret (finance, médecine, sécurité, etc.)
Aïe, on va devoir harmoniser ces 3 univers qui n’ont pas pour habitude d’être liés !
Les Data Sciences, OK mais par où commencer ?
Le défi s’annonce difficile, mais à y « googler » de près on se rend vite compte qu’internet regorge de documentation et de MOOC sur le sujet. Chouette je me lance tête baissée dans un premier niveau de documentation (wikipédia et autres articles) sur le sujet. Ces première lectures confirment ma première impression … le sujet est vaste, très vaste même. N’est-ce pas non plus ce qui le rend aussi passionnant ?
Ces première lectures terminées, je me lance dans une recherche de MOOC afin de rentrer dans le vif du sujet. Excellente nouvelle il en existe plusieurs et gratuits qui plus est ! Je ne citerais qu’eux (en Français & Anglais) :
- FUN (Fondamentaux pour le Big Data)
- OpenClassrooms
- Udacity
- Google IA (Cours d’initiation au Machine Learning)
C’est quand on commence à suivre les cours que l’on se rend compte de ce qu’est vraiment la croisée des 3 univers cités plus haut.
En effet chaque Mooc va aborder le sujet plutôt en partant de telle ou telle facette.
A titre d’exemple le Mooc FUN par exemple est très adapté au matheux. Il aborde d’un point de vue très universitaire le sujet sous un prisme théorique. Il vous plonge en effet très vite directement dans des équations, statistiques et autres probabilités. A vrai dire c’est une approche qui ne me convenait pas. Ingénieur de formation et d’esprit je préfère en effet aborder un sujet sous l’angle de l’expérimentation … pour ensuite mieux le comprendre via la théorie. Je ne suis donc pas allé jusqu’au bout la première fois, et y suis revenu plus tard quand les choses étaient plus claires dans ma tête. Bref, c’est juste une question d’appétence. Et puis c’est aussi ça la beauté des Mooc : on peut y picorer ce que l’on y souhaite 😉
Je suis donc passé à un autre Mooc (celui de Google notamment) qui m’a d’ailleurs surpris par sa qualité ! Bref si vous aimez comme moi une approche qui démarre par des éléments concret je vous le recommande (celui d’Udacity est pas mal non plus en la matière).
Faites comme moi lancez-vous dans l’aventure 🙂 ou alors suivez moi dans la mienne …
Ingénieur en informatique avec plus de 20 ans d’expérience dans la gestion et l’utilisation de données, Benoit CAYLA a mis son expertise au profit de projets très variés tels que l’intégration, la gouvernance, l’analyse, l’IA, la mise en place de MDM ou de solution PIM pour le compte de diverses entreprises spécialisées dans la donnée (dont IBM, Informatica et Tableau). Ces riches expériences l’ont naturellement conduit à intervenir dans des projets de plus grande envergure autour de la gestion et de la valorisation des données, et ce principalement dans des secteurs d’activités tels que l’industrie, la grande distribution, l’assurance et la finance. Également, passionné d’IA (Machine Learning, NLP et Deep Learning), l’auteur a rejoint Blue Prism en 2019 et travaille aujourd’hui en tant qu’expert data/IA et processus. Son sens pédagogique ainsi que son expertise l’ont aussi amené à animer un blog en français (datacorner.fr) ayant pour but de montrer comment comprendre, analyser et utiliser ses données le plus simplement possible.