Préparation

Après avoir analysé les données, il faut les retravailler afin de pouvoir modéliser et entrainer correctement son modèle de Machine Learning. Dans ces articles datacorner aborde les différentes techniques qui permettent de faire ce travail le plus simplement possible.


Document chunking !

Le document chunking est une pratique courante en intelligence artificielle qui prend de plus en plus d’importance avec la démocratisation des LLM et dutraitements de données textuelles via NLP en général. Son objectif est de permettre le découpage de vastes ensembles de documents en segments plus petits. Cette méthode ou technique facilite grandement l’analyse et le traitement des informations permettant aux algorithmes d’IA d’opérer de manière plus efficiente sur des portions de texte réduites. L’objectif est de réduire la surcharge d’informations et les problèmes de performance liés au traitement de documents entiers. De plus, cette segmentation permet de réduire la complexité des tâches d’analyse, en offrant une approche plus gérable pour les modèles d’IA.


Evaluez l’importance des variables (« Feature Importance ») 2

Le Machine Learning fait sans doute peur aujourd’hui à cause de son coté boite noire. L’approche « mathématiques » (statistiques / Probabilités) fait peur car nous comprenons difficilement la raison des choix du modèle qui a été conçu. Dans cet article nous allons voir comment ces approches statistiques permettent de trouver quelles variables permettent de déterminer ce ou ces choix du modèle. Car c’est finalement bien là l’essence du Machine Learning: trouver les éléments/variables qui on conduit à faire un choix ou prendre une décision non ?


Découper ses données 2

Le découpage du jeu de données dans un projet de Machine Learning est une étape très importante qu'il ne faut pas négliger faute de quoi vous risquer de sur évaluer votre modèle (over-fitting) ou tout simplement le contraire (under fitting). Dans cet article nous allons parcourir les étapes indispensables à cette opération délicate.


Gérer les chaînes de caractères

Si vous désirez avoir une approche analytique de vos données, vous avez bien sur été confronté à la difficulté d'exploiter des chaînes de caractères. A tel point que bien souvent vous avez certainement dû en mettre de coté certaines. Manque d'outillage, complexité de gérer des sémantiques complexes … Dans cet article (premier d'une série) nous allons aborder ces problèmes et surtout voir comment les résoudre.