Voir la structure thématique d'un document
Par Alain Joannes le dimanche 21 octobre 2007, 12:32 - OUTILS D'ANALYSE - Lien permanent
Pour quelques dizaines d'euros, l'application Theme
Reader dévoile l'anatomie d'un document rédigé en anglais.

Il ne s'agit plus seulement des occurences comparées de certains termes, ni
des proximités de significations qui déterminent les nuages de mots. Le "moteur
de connaissance" développé par CiriLab's
repère , lui aussi, les mots les plus fréquents mais, grâce à une architecture
sophistiquée d'algorithmes, ce scanner textuel reconnaît les structures du
langage humain qui caractérisent les propositions importantes. Ces structures
relèvent à la fois de la rhétorique - une affirmation n'a pas la même
organisation qu'un questionnement - et du regroupement de mots par hiérarchies
de pertinence. Ayant analysé le document, Theme Reader en propose une
visualisation cartographique.
J'ai testé cette application sur un
document de 30 feuillets Word, soit 1294 lignes et 81228 mots.Il s'agit de
l'enquête sur la crise boursière publiée dans "The Economist" du 18 octobre.
Moins de 2 minutes après l'ouverture du corpus par un clic droit sur son
intitulé de fichier, une arborescence horizontale proposait 5 thèmes
structurants:"banques centrales", "marchés financiers","crédit", "inflation" et
"prix". Si les thèmes "inflation" et "prix" peuvent relever du pléonasme, il
n'y a pas lieu de suspecter une grosse erreur d'analyse dans cette vision
d'ensemble.
D'autant qu'au deuxième niveau de l'arborescence, sur la droite, les sous-thèmes "politique monétaire" et "marché" s'accordent bien avec le thème principal des banques centrales. Et il en est de même pour les autres points clefs du texte. Le troisième niveau fonctionne de la même manière avec, à la clef, la possibilité de lire les extraits qui justifient cette arborescence et de les annoter.
L'intérêt de Theme Reader est double:
1 - Il permet de gagner du temps: l'extraction des principaux thèmes des 30
feuillets m'aurait demandé au moins trois heures;
elle s'est faite en quelques dizaines de
secondes. Ce gain de temps devient encore plus décisif quand il s'agit
d'accéder à une fine compréhension de l'enquête. Dans le traitement
conventionnel, il faut la relire plusieurs fois, au moins partiellement, et
prendre des notes; ce qui demande encore plusieurs heures. Avec Theme Reader,
la lecture des fragments significatifs et d'éventuels commentaires demandent
moins de 10 minutes. Il s'agit donc bien, pour le journaliste, de relever le
défi de l'urgence sans renoncer à l'approfondissement. Il s'agit aussi et
surtout de faire face de manière efficiente à la surcharge d'informations.
2 - C'est un outil de travail collaboratif. Les arborescences thématiques d'un document et leurs annotations peuvent être partagées entre les membres d'un même service rédactionnel, ainsi qu'avec les responsables des illustrations et de la mise en page.
Gagner individuellement du temps et travailler en essaim sont deux facteurs essentiels de productivité. Laquelle favorise la réflexion personnelle et collective dans la mesure où la visualisation des idées stimule, beaucoup plus que le texte linéaire, la production de remarques, d'interrogations, d'idées adjacentes.

Commentaires
Deux regrets:
1 - l'application ne s'applique pas à la langue française.
2 - il n'existe pas, à ma connaissance, d'outils de ce genre en français.
Le technologie de Cirilab founctione avec français, l'allemand, l'italien, l'espagnol et l'anglais. Ceci est un exemple de notre technologie en français produite à partir de Mindsystems ThemeReader et MindManager.
Http://demo.cirilab.com/projects/francais/map.htm
Si quelqu'un a des questions sur la capacité de processus texte en français, n'hésitez pas à me contacter directement.
Arnold.Villeneuve@cirilab.com