Intéressé par les OCR ? découvrez comment utiliser Tesseract (OCR Open Source) en ligne de commande mais aussi via Python.
Débuter avec TesseractCatégorie : Préparation
Après avoir analysé les données, il faut les retravailler afin de pouvoir modéliser et entrainer correctement son modèle de Machine Learning. Dans ces articles datacorner aborde les différentes techniques qui permettent de faire ce travail le plus simplement possible.
Découper ses données
Le découpage du jeu de données dans un projet de Machine Learning est une étape très importante qu'il ne faut pas négliger faute de quoi vous risquer de sur évaluer votre modèle (over-fitting) ou tout simplement le contraire (under fitting). Dans cet article nous allons parcourir les étapes indispensables à cette opération délicate.
Découper ses donnéesTest d'Orange (Outil de Data Science)
Découvrez dans cet article en forme de tuto comment ce petit outil Open-Source de Data-sciences peut vous faire gagner beaucoup de temps !
Test d'Orange (Outil de Data Science)Gérer les chaînes de caractères
Si vous désirez avoir une approche analytique de vos données, vous avez bien sur été confronté à la difficulté d'exploiter des chaînes de caractères. A tel point que bien souvent vous avez certainement dû en mettre de coté certaines. Manque d'outillage, complexité de gérer des sémantiques complexes … Dans cet article (premier d'une série) nous allons aborder ces problèmes et surtout voir comment les résoudre.
Gérer les chaînes de caractères