Vous avez dit Open Data … oui mais où ?   Mise à jour récente !


Si l’Open Data est bel et bien une réalité, il n’est pas toujours aisé de trouver des jeux de données exploitables. Souvent trop agrégés, très mal préparés, ou pire difficilement accessibles … il est bien difficile de faire ses courses. Dans tout les cas, se constituer un jeu de données, ou tout simplement en compléter/enrichir un existant devient vite un parcours du combattant.

L’idée de ce billet est donc simple : fournir une liste (non exhaustive) de plusieurs sites qui vous fourniront gratuitement des données. Pour le reste, et bien à vous de jouer 😉

Allons-y :

  • Geonames.com c’est le site incontournable pour toutes les données géolocalisées. Vous y trouverez à télécharger dans la section dump des listes de pays, régions, villes, etc.
  • Les données de l’OCDE sont aussi très pratiques et téléchargeables au format CSV sur le site. Emploi, agriculture, éducation, etc. bref vous trouverez de tout ici. Un seul regret ces données sont souvent trop agrégées …
  • Kaggle bien sur est un incontournable !
  • Tableau via Tableau Public offre aussi un grand nombre de jeux de données
  • L’UCI publie aussi plusieurs centaines de data sets
  • Gap Minder vous propose des jeux de données vraiment intéressants. Un site de référence pour les curieux sur la société!
  • Inévitablement vous irez sur le site de l’Open Data Français afin d’y récupérer les données « officielles ».
  • Son pendant américain data.gov
  • L’ONU
  • Et bien sûr l’européen !
  • Au fait, qui a dit que Paris n’avait pas son Open Data ?
  • J’aime beaucoup ce site aussi qui outre des données ouverte référence des logiciels, et autres services utiles et gratuits : Framasoft. Ce site propose en outre un service de référencement Open-Data : Framalibre.
  • Si vous cherchez des données sur la nourriture allez sur OpenFoodFacts
  • Météo France aussi à son Open Data !
  • La SNCF aussi d’ailleurs.
  • La banque mondiale publie aussi ses données.
  • Pour les données sur les entreprises, évidemment il faut se référer au greffe du tribunal de commerce.
  • Le vin
  • La bière (malheureusement ce site est en cours de réactualisation sinon allez voir là)
  • Et pour les fans de cinéma, impossible de passer à côté de la référence IMDB.

Outre ces principaux sites, il en existe bien sûr une multitude d’autres.

En fait vous en trouverez beaucoup via votre moteur de recherche mais pour trouver les meilleurs filons, il vous faudra aussi aller chercher dans GitHub.

A titre d’exemple :

Il y a aussi les portails comme (attention car ceux-ci ne fournissent pas toujours les données gratuitement, certains services peuvent en effet devenir payant) :

Et le phénomène grandit de jour en jour. A vrai dire, on trouve même de tout et n’importe quoi … attention donc à vérifier la crédibilité des sources de données !

Un autre soucis que l’on rencontre souvent est de ne pouvoir récupérer ses données tant désirées. Vous les avez sous les yeux, dans votre navigateur … mais impossible de les télécharger. Le format des données récupérées ne convient pas ou alors le mode de récupération n’est pas adapté (synchrone, asynchrone, besoin d’appel de services, etc.). Aïe ! il vous faudra parfois être créatif pour récupérer le Saint Graal.

Dans tous les cas vous n’échapperez pas à de la préparation de données !

Bref, le monde de l’Open Data est et reste une jungle dans laquelle il faut s’aventurer équipé sans quoi vous ne ferez pas grand chose !

Bon courage donc et n’hésitez pas à m’envoyer vos liens si vous trouvez de nouveaux bijoux.


A propos de Benoit Cayla

Ingénieur en informatique avec plus de 20 ans d’expérience dans la gestion et l’utilisation de données, Benoit CAYLA a mis son expertise au profit de projets très variés tels que l’intégration, la gouvernance, l’analyse, l’IA, la mise en place de MDM ou de solution PIM pour le compte de diverses entreprises spécialisées dans la donnée (dont IBM, Informatica et Tableau). Ces riches expériences l’ont naturellement conduit à intervenir dans des projets de plus grande envergure autour de la gestion et de la valorisation des données, et ce principalement dans des secteurs d’activités tels que l’industrie, la grande distribution, l’assurance et la finance. Également, passionné d’IA (Machine Learning, NLP et Deep Learning), l’auteur a rejoint Blue Prism en 2019 et travaille aujourd’hui en tant qu’expert data/IA et processus. Son sens pédagogique ainsi que son expertise l’ont aussi amené à animer un blog en français (datacorner.fr) ayant pour but de montrer comment comprendre, analyser et utiliser ses données le plus simplement possible.

Laissez un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *