Pour faire suite à mon article sur la gestion des chaînes de caractères, voici un premier volet qui va nous permettre d'avoir une approche progressive du traitement de ce type de données. Loin de toute approche sémantique (qui fera l'objet d'un post ultérieur) nous allons aborder ici la technique des sacs de mots
Les sacs de motsCatégorie : Texte
Ces articles sont consacrés autour du traitement de la donnée de type texte (continue, discrete, numérique, date, texte, etc.). Des articles, trucs et astuces … Tout pour mieux comprendre et traiter ce type d’information.
Gérer les chaînes de caractères
Si vous désirez avoir une approche analytique de vos données, vous avez bien sur été confronté à la difficulté d'exploiter des chaînes de caractères. A tel point que bien souvent vous avez certainement dû en mettre de coté certaines. Manque d'outillage, complexité de gérer des sémantiques complexes … Dans cet article (premier d'une série) nous allons aborder ces problèmes et surtout voir comment les résoudre.
Gérer les chaînes de caractèresLe Web Scraping
Le Web Scrapping est une technique bien souvent indispensable pour enrichir ses données brutes. Découvrez comment écrire simplement des scripts Python pour aspirer les données d'un site web.
Le Web ScrapingMNSIT : Reconnaître les chiffres (Partie 2)
Dans ce second volet sur les données MNSIT, nous allons voir comment retoucher et préparer les données pour atteindre 97%.
MNSIT : Reconnaître les chiffres (Partie 2)