Intelligence Artificielle - datacorner par Benoit Cayla

Comprendre ce qu’est le RAG - Suite à l'un de mes précédent article sur le RAG (Retrieval Augmented Generation), et quelques commentaires pertinents de lecteurs, je me dois d'aller plus dans le détail sur cette technologie. En fait je vais faire mieux que cela, et je vais décomposer pierre par pierre cette technique et vous montrer qu'elle n'est pas très complexe finalement. Commençons par un article explicatif, et les prochain seront eux focalisés sur la mise en oeuvre étape par étape.
Document chunking ! - Le document chunking est une pratique courante en intelligence artificielle qui prend de plus en plus d'importance avec la démocratisation des LLM et dutraitements de données textuelles via NLP en général. Son objectif est de permettre le découpage de vastes ensembles de documents en segments plus petits. Cette méthode ou technique facilite grandement l'analyse et le traitement des informations permettant aux algorithmes d'IA d'opérer de manière plus efficiente sur des portions de texte réduites. L'objectif est de réduire la surcharge d'informations et les problèmes de performance liés au traitement de documents entiers. De plus, cette segmentation permet de réduire la complexité des tâches d'analyse, en offrant une approche plus gérable pour les modèles d'IA.
Utiliser (facebook) BART pour faire un résumé (4 méthodes !) - Dans cet article nous allons voir de 4 manière différente comment utiliser le LLM BART pour résumer un texte.
Premiers pas vers un RAG en augmentant un LLM avec un fichier pdf (en 5 mins chrono) - Les LLMs ne sont entrainés qu'avec des données dites "génériques" ce qui ne répond pas toujours à nos attentes. Dans cet article nous allons voir comment influencer la réponse de notre LLM à partir de données provenant d'un simple fichier pdf.
Faites vos premiers pas avec un LLM - Vous avez entendu parlé de LLM, vous aimeriez construire des applications autour de ces nouveaux usages. Mais comment ? Grâce à Hugging Face, LangChain et Python rien de plus simple ... suivez le guide.
Profiler vos données tout simplement avec Python et Pandas - Il existe bien sur beaucoup de librairies (comme Pandas Profiling ou plutôt ydata-profiling dorénavant) et surtout beaucoup d'outils qui permettent plus ou moins simplement d'effectuer une analyse structurelle de vos données (on se limitera ici d'un profiling de table). Mais voilà, parfois une approche minimaliste suffit amplement. Rien ne nécessite la mise en place d'une artillerie lourde et couteuse en ressource ! L'idée de cet article est de vous montrer qu'avec la simple (mais très riche) librairie Pandas vous avez déjà de quoi vous satisfaire amplement.
Introduction à LIME (XAI) - Dans cet article je vous propose de découvrir l'outil de XAI (eXplainable AI) très utilisé qu'est LIME. Avec Google colab, et au travers d'un cas pratique guidé pas à pas vous allez voir comment il est simple et pratique d'utiliser cette librairie avec Python.
Filtrer vos données avec la Variance - Dans cet article nous allons voir une technique très simple pour filtrer vos colonnes (features) dés lors que vous modéliser votre modèle de Machine Learning.
Evaluez l’importance des variables (« Feature Importance ») - Le Machine Learning fait sans doute peur aujourd'hui à cause de son coté boite noire. L'approche "mathématiques" (statistiques / Probabilités) fait peur car nous comprenons difficilement la raison des choix du modèle qui a été conçu. Dans cet article nous allons voir comment ces approches statistiques permettent de trouver quelles variables permettent de déterminer ce ou ces choix du modèle. Car c'est finalement bien là l'essence du Machine Learning: trouver les éléments/variables qui on conduit à faire un choix ou prendre une décision non ?
YOLO (Partie 4) Réduire le scope de détection - Dans cet article nous allons voir une astuce qui permet de réduire le scope de détection des objets en utilisant YOLO v4.

Modélisation

Descente de Gradient Stochastique (SGD) & Learning Rate - Une fois terminé l'article sur la descente de gradient, je me suis rendu compte qu'il manquait deux points important. Le premier concerne l'approche stochastique dés lors que l'on a des jeux de données trop importants, le second étant de voir très concrètement ce qui se produit quand on choisit mal la valeur du learning rate. Je vais donc profiter de cet article pour finalement continuer l'article précédent 😉
La descente de gradient - Comment parler de Machine Learning ou même de Deep Learning sans aborder la - fameuse - descente de gradient ? Il y a beaucoup d'articles sur ce sujet bien sur mais bien souvent il faut lire plusieurs afin de bien en comprendre tous les mécanismes. Souvent trop mathématiques ou pas assez, je vais essayer surtout ici d'expliquer son fonctionnement en douceur et pas à pas afin de tenter une démystification du sujet.
Biais & Variance … dilemme ou compromis ? - Dés lors que vous allez commencer à mettre au point des modèles de Machine Learning vous aller vous confronter au délicat problème d'équilibre dans l'ajustement du biais et de la variance. Dans cet article je vous explique simplement comment mieux les comprendre et les ajuster.
Les chaînes de Markov - Si cette méthode de "prédiction" basée sur les probabilités et les états/transitions a eu ses heures de gloire, elle semble aujourd'hui moins à la mode. Dans cet article nous reviendrons sur les principes fondamentaux des chaines de Markov et leur application en Python.
Analyse de sentiments sur des critiques de cinéma - L'objectif de cet article est de montrer au travers d'un cas concret et français la méthode pour effectuer une analyse de sentiments avec Python.
Se lancer dans l’Auto-ML avec AutoGluon - Découvrez l'Auto-ML avec AutoGluon. Simple accélarateur ou véritable révolution dans la manière de créer des modèles de machine learning ? faites-vous une idée par la pratique ...
Keras au secours du Titanic ? - Dans cet article nous allons voir par la pratique si le deep learning via keras pourra nous aider à trouver les survivants du Titanic plus efficacement que les algorithmes classiques.
Publier vos modèles de Machine Learning avec Flask ! - Dans cet article nous verrons comment installer et surtout utiliser le micro-framework Python Flask. très utile pour publier vos modèles de Machine learning en REST !
La persistance des modèles de Machine Learning - Dans ce court article vous verrez comment en quelques lignes de code Python vous pouvez sauvegarder votre modèle et le rappeler.
CatBoost ! - Découvrez dans cet article comment utiliser le dernier né des algorithmes de boosting de gradient Open-Source : le CatBoost !

Analyse

Profiler vos données tout simplement avec Python et Pandas - Il existe bien sur beaucoup de librairies (comme Pandas Profiling ou plutôt ydata-profiling dorénavant) et surtout beaucoup d'outils qui permettent plus ou moins simplement d'effectuer une analyse structurelle de vos données (on se limitera ici d'un profiling de table). Mais voilà, parfois une approche minimaliste suffit amplement. Rien ne nécessite la mise en place d'une artillerie lourde et couteuse en ressource ! L'idée de cet article est de vous montrer qu'avec la simple (mais très riche) librairie Pandas vous avez déjà de quoi vous satisfaire amplement.
dataprep.eda : un nouveau venu dans l'analyse de données - Dans cet article je vous montre comment utiliser le nouvel arrivé de l'analyse de données avec Python : datapre.eda
Explorer vos données avec DataExplore (1ère partie) - Découvrez dans cet article comment utiliser l'outil Open Source DataExplore pour visualiser et même manipuler vos données.
Analysez vos données sans effort avec ydata-profiling (anciennement Pandas-profiling) - Analysez vos données sans effort avec la librairie Python pandas_profiling.
Corrélation de variables - Cet article vous montre comment détecter des liens (corrélations) entre des variables d'observation.
Test d'Orange (Outil de Data Science) - Découvrez dans cet article en forme de tuto comment ce petit outil Open-Source de Data-sciences peut vous faire gagner beaucoup de temps !
Traiter des données de localisation - Découvrez dans cet article comment utiliser, nettoyer et visualiser simplement des données géo-localisées avec Python.
Le Profiling - Découvrez comment les outils d'analyse de données peuvent vous aider à préparer votre modèle de Machine Learning ou tout simplement garantir le succès de vos projets data.

Deep Learning

Faites vos premiers pas avec un LLM - Vous avez entendu parlé de LLM, vous aimeriez construire des applications autour de ces nouveaux usages. Mais comment ? Grâce à Hugging Face, LangChain et Python rien de plus simple ... suivez le guide.
YOLO (Partie 4) Réduire le scope de détection - Dans cet article nous allons voir une astuce qui permet de réduire le scope de détection des objets en utilisant YOLO v4.
YOLO (Partie 3) Non Maxima Suppression (NMS) - Nous allons voir dans cet article comment supprimer ces cadres détectés en double avec YOLO avec la technique dite de NMS.
YOLO (Partie 2) Utilisez YOLO avec OpenCV - Dans cet article nous allons voir pas à pas comment utiliser le réseau de neurones YOLO avec son implémentation dans OpenCV. Suivez le guide 😉
YOLO (Partie 1) Introduction à YOLO avec Darknet - Nous allons voir dans cet article, comment avec le réseau de neurones YOLO nous pourrons très simplement détecter plusieurs objets dans une photo. L'objectif n'est pas d'entrer dans le détail de l'implémentation de ce réseau de neurones (beaucoup plus complexe qu'un simple CNN séquentiel) mais plutôt de montrer comment utiliser l'implémentation qui a été réalisée en C++ et qui se nomme Darknet.
VGG et Transfer Learning - Dans cet article nous allons aborder le concept de Transfer Learning ... ou comment éviter de refaire un apprentissage long et consommateur en réutilisant partiellement un réseau de neurones pré-entrainé. Pour ce faire nous utiliserons un réseau qui fait référence en la matière : VGG-Net (vgg16).
Fake news ? - Je vous propose dans cet article de créer un réseau de neurones à convolution pour faire du NLP, et pour les données j'utiliserai un jeu de données que vous pouvez trouver simplement dans les datasets Kaggle : FrenchFakeNewsDetector. Vous l'avez compris l'objectif est double: d'une part voir comment on pourra utiliser la technique de convolution avec des vecteurs (1 dimension au lieu d'images à 2+ dimensions) et d'autre part de faire du NLP avec des données en Français.
Traitement d’images (partie 7: Les Réseaux de neurones à convolution – CNN) - Dans cet article nous allons voir pas à pas comment créer et utiliser un réseau de neurone convolutif (CNN) pour classifier des images.
Comprendre les réseaux de neurones avec Tensorflow Playground - Dans cet article je vous propose de découvrir un outil génial qui vous permet de mieux comprendre comment fonctionne un réseau de neurones et l'impact réel de ses principaux paramétrages.
Se lancer dans l’Auto-ML avec AutoGluon - Découvrez l'Auto-ML avec AutoGluon. Simple accélarateur ou véritable révolution dans la manière de créer des modèles de machine learning ? faites-vous une idée par la pratique ...

NLP

Utiliser (facebook) BART pour faire un résumé (4 méthodes !) - Dans cet article nous allons voir de 4 manière différente comment utiliser le LLM BART pour résumer un texte.
Premiers pas vers un RAG en augmentant un LLM avec un fichier pdf (en 5 mins chrono) - Les LLMs ne sont entrainés qu'avec des données dites "génériques" ce qui ne répond pas toujours à nos attentes. Dans cet article nous allons voir comment influencer la réponse de notre LLM à partir de données provenant d'un simple fichier pdf.
Faites vos premiers pas avec un LLM - Vous avez entendu parlé de LLM, vous aimeriez construire des applications autour de ces nouveaux usages. Mais comment ? Grâce à Hugging Face, LangChain et Python rien de plus simple ... suivez le guide.
Introduction à l’API NLP Cloud - NLPCloud.io est une API permettant de facilement utiliser le NLP en production. L'API se base sur les modèles pré-entrainés de spaCy et Hugging Face (basés sur les transformers). Dans et article nous verrons comment utiliser cet API en quelques lignes ...
Fake news ? - Je vous propose dans cet article de créer un réseau de neurones à convolution pour faire du NLP, et pour les données j'utiliserai un jeu de données que vous pouvez trouver simplement dans les datasets Kaggle : FrenchFakeNewsDetector. Vous l'avez compris l'objectif est double: d'une part voir comment on pourra utiliser la technique de convolution avec des vecteurs (1 dimension au lieu d'images à 2+ dimensions) et d'autre part de faire du NLP avec des données en Français.
Analyse de sentiments sur des critiques de cinéma - L'objectif de cet article est de montrer au travers d'un cas concret et français la méthode pour effectuer une analyse de sentiments avec Python.
Du NLP avec Python NLTK - Découvrez dans cet article comment faire du NLP simplement avec Python et NLTK.
Tuto : Le NLP avec SpaCy ! - Découvrez dans une approche simple et progressive comment faire du NLP simplement avec la librairie Python SpaCy !

Outils & Publication

Gradio : une interface web pour le Machine Learning - Dans ce tuto je vous propose de découvrir un petit framework open source ultra simple à mettre en place et à utiliser et qui vous permettra de créer une interface pour vos modèles de Machine Learning. Suivez le guide ...
Comprendre les réseaux de neurones avec Tensorflow Playground - Dans cet article je vous propose de découvrir un outil génial qui vous permet de mieux comprendre comment fonctionne un réseau de neurones et l'impact réel de ses principaux paramétrages.
Test d'Orange (Outil de Data Science) - Découvrez dans cet article en forme de tuto comment ce petit outil Open-Source de Data-sciences peut vous faire gagner beaucoup de temps !
Google Colaboratory - Vous adorez Jupyter mais n'avez as envie de l'installer localement. Vous avez besoin de puissance et de GPU sans frais ni contraintes ? Google Colaboratory est fait pour vous. Suivez-moi dans ce tuto pour l'utiliser rapidement.
Python Pandas – Tuto (Partie N°2) - Découvrez dans cette deuxième partie de mon tutoriel Pandas comment notamment utiliser les fonctions ensemblistes (simili SQL).
Python Pandas – Tuto (Partie N°1) - Ce petit tuto a pour but de vous mettre le pied à l'étrier avec librairie Pandas qui permet de manipuler des données facilement en Python.
Machine Learning : s’outiller pour démarrer - Vous vous lancez dans le machine learning ? comment s'équiper et que lire ? voici les réponses que je tente de vous apporter dans cet article.