Texte

Ces articles sont consacrés autour du traitement de la donnée de type texte (continue, discrete, numérique, date, texte, etc.). Des articles, trucs et astuces … Tout pour mieux comprendre et traiter ce type d’information.


Introduction au RAG (Retrieval Augmented Generation) 2

Suite à l’un de mes précédent article sur le RAG (Retrieval Augmented Generation), et quelques commentaires pertinents de lecteurs, je me dois d’aller plus dans le détail sur cette technologie. En fait je vais faire mieux que cela, et je vais décomposer pierre par pierre cette technique et vous montrer qu’elle n’est pas très complexe finalement.
Commençons par un article explicatif, et les prochain seront eux focalisés sur la mise en oeuvre étape par étape.


Document chunking !

Le document chunking est une pratique courante en intelligence artificielle qui prend de plus en plus d’importance avec la démocratisation des LLM et dutraitements de données textuelles via NLP en général. Son objectif est de permettre le découpage de vastes ensembles de documents en segments plus petits. Cette méthode ou technique facilite grandement l’analyse et le traitement des informations permettant aux algorithmes d’IA d’opérer de manière plus efficiente sur des portions de texte réduites. L’objectif est de réduire la surcharge d’informations et les problèmes de performance liés au traitement de documents entiers. De plus, cette segmentation permet de réduire la complexité des tâches d’analyse, en offrant une approche plus gérable pour les modèles d’IA.


Fake news ?

Je vous propose dans cet article de créer un réseau de neurones à convolution pour faire du NLP, et pour les données j’utiliserai un jeu de données que vous pouvez trouver simplement dans les datasets Kaggle : FrenchFakeNewsDetector. Vous l’avez compris l’objectif est double: d’une part voir comment on pourra utiliser la technique de convolution avec des vecteurs (1 dimension au lieu d’images à 2+ dimensions) et d’autre part de faire du NLP avec des données en Français.