Fin de la première phase

Publié le 19 Décembre 2012

Voic la version finale du script permettant de générer un tableau à 9 colonnes. Nous avons ajouté par rapport au précédent les fichiers contextes (initial et utf8) ainsi que le nombre d'occurences de notre motif dans chaque pages.

Pour ce faire:

- commande egrep pour filtrer les contextes d'apparition du motif (stockage du résultat dans contexte-utf8.txt)

- programme minigrepmultilingue pour convertir le précédent résultat en html

- commande wc pour compter les occurrences à partir des fichiers dumps

A noter, sur les ordinateurs de l'ILPGA, il existe plusieurs version de perl, nous avons donc du spécifier dans le script laquelle de ces versions on souhaitait activer (/opt/Activeperl-5.8/bin/perl). On supprime bien sûr ce chemin chez nous, puisque nos ordinateurs ne contiennent qu'une unique version de perl, il est inutile d'indiquer quelle version on active.

Concernant le motif, le problème s'est posé au niveau des fichiers russes: initialement, on avait placé le motif dans le fichier d'entrée du programme, mais il s'est avéré qu'à la sortie, le tableau affichait des dumps vides (et donc des contextes vides aussi, et 0 occurrences...) pour les pages russes. Après consultation de S.Fleury, on s'est rendu compte que le problème venait de l'encodage du fichier d'entrée, qui n'était pas en utf-8, on a donc inséré le motif directement dans le script, qui lui est en utf-8. Problème partiellement résolu... La plupart des pages sont maintenant bien dumpées (donc contextes et nombre d'occurences OK), mais certains dumps restent mystérieusement vides, malgré la présence du motif dans la page initiale (résolution en cours...)

Fin de la première phase

script pour tableau à 9 colonnes

Rédigé par Adèle, Anastasia, Dalila

Repost0
Pour être informé des derniers articles, inscrivez vous :
Commenter cet article