Préparation à la phase 2

Publié le 19 Décembre 2012

Dans ce script, on a ajouté deux lignes de codes permettant de concaténer les fichiers dump et contextes de chacune des langues. Ceci nous servira dans la suite du projet, pour pouvoir générer des nuages de mots.

On a créé une nouvelle variable nbdump pour compter les dumps, ainsi qu'un répertoire fichierglobaux puis on a utilisé la commande cat qui permet de concaténer les fichiers spécifiés en argument (dont on a redirigé le résultat vers des fichiers dump et contexte situéss sous le répertoire fichierglobaux)

Préparation à la phase 2
Préparation à la phase 2
Préparation à la phase 2

LES NUAGES DE MOTS

Grâce à ces fichiersglobaux, on peut enfin faire nos nuages de mots! On test deux sites : worditout.com et wordle.net

Worditout nous demande un texte en entrée, et génère automatiquement un nuage de mot, mais...après avoir copié le contenu textuel du dossier ichiersglobaux des contextes en français, on obtient :

Les déterminant étant les mots les plus présent dans le texte, ils ont la plus grande taille de caractère dans notre nuage. Il est possible de supprimer ces déterminants, mais la tâche est plutôt longue, et la taille du texte la rend de plus assez lente.

Préparation à la phase 2

Avec Wordle, la tache est plus simple. On n'a effectivement plus besoin de supprimer les determinants, car le site est "intelligent" et le fait automatiquement. Une fois le nuage généré, on peux choisir l'une des présentations qui s'affiche aléatoirement, mais aussi en modifier la police et la couleur.

On peut également cliquer sur un des mots(occurence plus precisément) du nuage et le supprimer. Cette fonction nous a été très utile pour supprimer un mot(ou deux) trop présent dans le contenu textuel et qui prend donc une propostion écrasante par raport aux autres.

Sur fond noir le nuage sans aucunes modification. Sur fond blanc le nuage après "remove" de "sans-papiers" et "sans papier"
Sur fond noir le nuage sans aucunes modification. Sur fond blanc le nuage après "remove" de "sans-papiers" et "sans papier"

Sur fond noir le nuage sans aucunes modification. Sur fond blanc le nuage après "remove" de "sans-papiers" et "sans papier"

Pour le fichiers "fichierglobaux" des contextes en italien, on a :

A droite, le nuage avec la suppression de "cladestina" et de "immigrazione"A droite, le nuage avec la suppression de "cladestina" et de "immigrazione"

A droite, le nuage avec la suppression de "cladestina" et de "immigrazione"

Le contenu textuel des fichiersglobaux DUMPS étant trop volumineux, on n'a pu en faire des nuages avec wordle. On découvivra donc ce qu'il se passe quand on passera dans le trameur !

Rédigé par Adèle, Anastasia, Dalila

Repost0
Pour être informé des derniers articles, inscrivez vous :
Commenter cet article