Journalistiques

Aller au contenu | Aller au menu | Aller à la recherche

jeudi 11 novembre 2010

Une application gratuite pour évaluer les catastrophes naturelles

Earth_alert_logo.jpgApplication légère téléchargeable gratuitement, Earth Alerts complète le dispositif des organismes de surveillance relayés par les agences de presse ou, parfois, par les réseaux de micro-blogging.

Elle s'installe discrètement au pied du bureau et ne se manifeste que pour signaler des évènements nouveaux.
Son interface ressemble à celles des agrégateurs de fils RSS avec, en haut à gauche, une typologie succincte des catastrophes naturelles:

Earth_Alert_tableau_de_bord.jpg
Cette typologie présente l'intérêt de placer tout en haut de la hiérarchie les évènements de portée planétaire. Ce qui ne veut pas dire que les incendies de forêts ou les glissements de terrains qui surviennent aux Etats-Unis ne retiennent pas l'attention.

Dès qu'un phénomène est repéré, il fait l'objet d'une description factuelle très précise. C'est l'occasion, pour le journaliste, de se livrer à une première évaluation de l'importance de l'évènement et de son évolution possible, plausible ou probable. Ici, l'analyse d'une éruption signalée dans la journée du 10 novembre 2010 au Mexique:

Earth_Alert_description.jpg
Cette description peut être éventuellement complétée par une sélection de dépêches uniquement consacrées à cette éruption. La sélection ne se contente pas de grappiller les agences de presse. Elle conduit à des articles de revues scientifiques.
Le journaliste peut compléter son évaluation en sollicitant les cartes de Earth Alerts, afin de voir notamment si le phénomène se produit assez loin ou à proximité d'une zone urbaine très peuplée: :

Earth_Alert_carte_du_Mexique.jpg
Cette carte sommaire incite à aller "voir de plus près" sur Google Earth grâce à une commande qui déclenche automatiquement l'imagerie satellitaire:

Earth_Alert_volcan_Google_earth.jpg
En l'occurrence, la vue plongeante ne raconte que l'itinéraire de coulées qui semblent relativement récentes. D'où l'intérêt de solliciter une photo du monstre dans la collection de Earth Alerts :

Earth_Alert_volcan_Earth_Alert.jpg
Outre ces éléments d'appréciation sur un phénomène particulier, l'application offre une vue générale des évènements les plus récents classés par catégories. Ici, les 314 séismes signalés le 10 novembre 2010 avec leurs amplitudes respectives. Un carré rouge (il n'y en a pas sur cette capture d'écran) désigne un séisme qui a eu lieu dans l'heure écoulée. Les carrés bleus, nombreux ce jour là dans le Pacifique le long de la Californie et en Asie, signalent les séismes enregistrés au cours des dernières vingt-quatre heures:

Earth_Alert_planisphere_des_seismes.jpg
Enfin, "l'image du jour" révèle des documents impressionnants comme cette vision de l'hyperactivité industrielle de la Chine: le nuage brunâtre représente l'accumulation de gaz nitrogène dioxyde au dessus de la plus grande usine planétaire:

Earth_Alert_nuage_sur_la_Chine.jpg
La veille de la publication de ce billet, "l'image du jour" montrait une tempête en train de s'éloigner des côtes nord est des Etats-Unis:

Earth_Alert_tempete_USA.jpg

samedi 14 mars 2009

Extension de Firefox, Gnosis analyse les pages web en anglais

Quand le journaliste pressé (pléonasme) doit sélectionner des documents sur le web afin d'en extraire des données, il peut lire chaque page à priori intéressante, sélectionner les plus pertinentes pour son travail immédiat et classer les autres pour une exploitation ultérieure.

Extension gratuite du navigateur Firefox, Gnosis accomplit cette tâche plus rapidement et mieux.

Gnosis_panneau_colore_lateral.jpgUne fois installé, très facilement, le plug in peut rester invisible ou déployer son tableau de bord, à gauche de la page à inspecter, quand on a choisi cette option dans le menu "affichage".

Ce panneau revêt l'apparence d'une superposition de bandes horizontales colorées; ce sont autant de menus déroulants; ils désignent les seize critères à partir desquels Gnosis radiographie la page web soumise à sa curiosité.

Sur la barre supérieure du tableau de bord, s'alignent les fonctionnalités de cet formidable petit extracteur de données pré-sélectionnées.

Gnosis_barre_de_controle_superieure.jpg

A l'extrême-gauche, le signe "+" dans son carré vert déploie le détail de toutes les données détectées selon les seize critères d'analyse. Juste à côté, le signe "-" dans son petit carré orange referme les tiroirs de Gnosis.
Même fonctionnement pour les deux petits crayons: surligner toutes les données repérées dans la page, surligner les seules données relevant d'un critère repérable dans les code de couleurs,n'en surligner aucune.
Les deux flèches voisines résument le potentiel de productivité de l'application.

Gnosis_titre_de_la_rubrique_du_NYT.jpg
Soit une page du New York Times relatant les déclarations raisonnablement optimistes du principal conseiller économique de Barak Obama. (Ces déclarations m'intéressent car, contrastant avec le pessimisme ambiant, elles esquissent la possibilité d'une sortie de crise et constituent donc une singularité (1).

Gnosis_noms_univers_economique.jpgEn deux ou trois secondes, le cerveau d'un journaliste moyen, pas forcément expert en économie, saisit l'univers dans lequel baigne l'article.

Le cerveau reconnait deux catégories sémantiques: l'une, politique, avec les noms "Bush" et "Obama"; l'autre, économique avec les noms "Summers" et "Krugman", prix Nobel d'économie.

Pour valider cette perception spontanée, la rubrique médias mentionne une référence au Financial Time...

Gnosis_critere_medias_Financial_times.jpg

En sélectionnant, le critère bleu "organisation" et en sollicitant la flèche orientée vers la droite, Gnosis me promène dans le texte sur les seuls termes associés à des organisations.
Productivité accrue par le fait qu'en passant sur le nom d'une organisation - la "Brookings Institution", par exemple - le pointeur fait apparaître une infobulle qui propose trois sources d'approfondissement.

Gnosis_Brookings_Institution.jpg
Un clic sur la suggestion Wikipedia révèle que ce très influent think tank a inspiré les politiques libérales de dérégulation financière tout en étant parfois considéré comme centriste parce que des collaborateurs de Bill Clinton y ont travaillé.

Si le journaliste se méfie de Wikipedia, il doit prendre le temps d'aller faire un tour sur le site du think tank.

Gnosis_page_accueil_de_la_Brookings_institution.jpg

Si le journaliste, évidemment curieux, veut en savoir plus sur le rôle des think tanks anglo-saxons dans la conduite des économies dominantes et, donc, dans les causes de la crise actuelleGnosis_livre.jpg il peut se procurer le récent - 12 février 2009 - et tout à fait passionnant petit livre de Stephen Boucher et Martine Royo, aux éditions Le Félin.

Première remarque: la découverte de l'existence d'un tel gisement de données, d'informations et de réflexions aurait été peu probable, voire impossible, par les canaux de la presse traditionnelle, imprimée ou audiovisuelle. C'est la preuve qu'internet ne tue pas le papier (2) mais peut y conduire.
Deuxième remarque: partir d'une extraction de données sur une page web pour aboutir à un gisement de connaissances après avoir collecté l'information du New-York Times est une manifestation de la sérendipité, providence de la recherche sur le web (3).

Grâce à Gnosis, le journaliste qui cherche à capter des signaux conjoncturels sur l'évolution de la crise économique découvre, en quelques secondes, que le principal conseiller économique de Barak Obama choisi le think tank le plus influent du monde anglo-saxon pour proposer un indicateur de sortie de crise.
Le cerveau du journaliste aurait peut-être trouvé cette "configuration" (ce n'est pas sûr), mais certainement pas de manière aussi fulgurante.

Extraction, approfondissement, élargissement

Outre les noms de personnes citées dans la page, ceux des entreprises et des lieux, l'extension de Firefox capte les adresses électroniques des sites mentionnés ainsi que celles des courriers électroniques.
Autrement dit, dans un délai très bref, le journaliste dispose d'une vision quasiment "anatomique" de la page web. Il peut en approfondir le sens global ou seulement celui de certaines données. Il peut utiliser la collecte de Gnosis pour caractériser un document à conserver, pour en transformer une partie en tags (étiquetage).

Petite réserve: dans son zèle, Gnosis ramasse des données au-delà de l'article sur l'ensemble de la page; c'est ce qu'on appelle du "bruit" mais ces données non pertinentes ne perturbent guère le "signal" que constitue l'ensemble des données pertinentes.

Gros regret: Gnosis ne s'intéresse pas aux pages web rédigées en français. Normal et triste pour l'innovation dans notre pays: Gnosis est le tout petit produit d'une recherche sur le web sémantique menée par la firme Clearforest filiale du groupe Thomson Reuters. Mais l'hégémonie anglo-saxonne sur les contenus étant ce qu'elle est, la perte de sens n'est peut-être pas très grave pour un journaliste curieux.

1) Une singularité est un phénomène à priori important mais qui n'a pas d'explication connue. Les singularités précèdent parfois, pas toujours, les phénomènes émergents qui, eux, peuvent modifier radicalement le cours des choses. Les premières faillites d'établissements de crédits immobiliers, au printemps 2007, ont été des singularités. Ces singularités annonçaient la crise des subprimes, puis la crise du crédit, laquelle a déclenché la récession qui va amener des réformes du système financier international, donc une modification radicale du cours des choses.

2) Un pitoyable journaliste, qui a eu sa petite notoriété à la radio au milieu des années soixante-dix, a récemment utilisé dans le quotidien "Le Monde", ex-journal de référence, l'expression "internet über alles". Le recours à une telle terminologie signifie que ce piètre confrère, aussi inculte qu'obsolète, assimile internet au régime nazi avec toutes les connotations que cette allusion véhicule. La stupidité du propos n'est relevée ici que dans la mesure où elle reflète l'état d'esprit d'un très grand nombre de professionnels de la profession.

3) La sérendipité est l'art de trouver sans cherchant mais en créant quand même les conditions de la trouvaille. La curiosité journalistique devrait comporter une grande part de sérendipité, pratique particulièrement jubilatoire dans ce métier.

vendredi 14 novembre 2008

Pistage visuel des citations qui se répliquent sur le web

Meme_tracker_petit_logo.jpgTrois chercheurs de l'Université Cornell viennent de mettre en ligne un outil de monitorage et de traçabilité des citations dans les sites médiatiques et les blogs.
Le nom de memetracker pose un léger problème de définition car les memes ne se réduisent pas à des extraits de discours et à des framents de phrases. (1) Cependant, l'application mérite mieux qu'une querelle de mots.

Il s'agit d'un dispositif de visualisation de données, technologie de pointe dans laquelle les Américains ont une bonne dizaine d'années d'avance sur l'Europe (2). Les créateurs sont Jure Leskovek - sa thèse en vidéo, commentée avec un accent inoubliable, est ici -, Lars Backstrom, et Jon Kleinberg.

Toutes_citations_confondues_en_negatif.jpg

Memetracker inspecte 900 000 thèmes de récits (stories) repérés sur un million de sites d'information et de blogs. Il extrait de 17 millions de phrases les citations les plus fréquemment reprises au fil des heures et des jours sur le "spectre" de sites et de blogs qui consituent l'échantillon de référence. Les fréquences de citations sont calées sur une ligne temporelle et du croisement entre quantités et durées naissent les courbes ci-dessus (les couleurs du graphiques ont été inversées par moi).

Obama: "Un porc avec un du rouge à lèvres reste un porc"

You_can_put_a_lipstick.jpgPour chaque citation qui se propage amplement sur le web, l'outil permet d'en trouver l'origine. Il mesure la décroissance de sa propagation virale.
Exemple: paraphrasant Sarah Paulin qui s'était dépeinte "en pit-bull avec du rouge à lèvres", Barak Obama a déclaré le 9 septembre 2008: "On a beau mettre du rouge à lèvres sur un porc, ça reste un porc." Le pic révèle un record de reprises juste après le meeting mais la décroissance des reprises est relativement lente parce que les médias et blogs conservateurs ont exploité la phrase d'Obama comme une faute dans la conduite de sa campagne électorale. Ils ont donc fait durer la réplication virale aussi longtemps que possible. C'est l'explication de la "bosse" observée le 16 septembre: les adversaires du candidat démocrate ont essayé de faire rebondir la polémique.

Bush: "Les fondements de notre économie sont sains"

Inversement, la déclaration de George Bush du 24 septembreNotre_economie_est_forte_du_21_au_27_septembre.jpg - "Les fondamentaux de notre économie sont bons" - retombe bien vite en nombre de reprises parce que, dans l'actualité de la crise financière radiographiée à travers les traînes de réplications, une citation chasse l'autre.
Cette déclaration de douze minutes était au demeurant paradoxale puisque le Président pressait le Congrès de voter un plan de secours de 700 milliards de dollars tout en affirmant que l'économie avait de bonnes bases. La suite a d'ailleurs démontré, à travers le changement de stratégie opéré en novembre par le secrétaire d'Etat au Trésor, que le locataire de la Maison-Blanche était, le 24 septembre, dans le flou le plus total. Comme la plupart des dirigeants occidentaux.

La surprise provoquée par l'aggravation soudaine de la crise des subprimes (qui a pourtant commencé en juillet 2007) se lit dans les courbes de citations ayant trait à l'économie. Le memetracker ne décèle rien avant le 27 août. Il s'écoule trois semaines avant que les phrases ayant trait à la conjoncture économique se propagent massivement. Ce qui signifie que les dirigeants n'ont rien vu venir ou n'avaient pas de solution. Le pic de réplication atteint par la phrase du président Bush est dépassé par celui (en bleu) d'une autre déclaration faite un mois plus tard: "Les perspectives de croissance se détériorent."
Total_economie_27_aout_.jpg

Les sites ou blogs qui donnent le ton

L'analyse des cycles hebdomadaires de citations auto-répliquées sur le web révèle que les pointes de reprises se produisent le mercredi.

Cycle_hebdomadaire_pointe_vendredi.jpg
Le memetracker comporte également une fonctionnalité qui mesure "l'influence" des sources d'informations sur la masse des autres sites qui servent d' amplificateur.
Selon que les pics de réplication précèdent ou suivent la publication d'un récit par un site, celui-ci est déphasé (par exemple: publication d'une information 19 heures après le pic de réplication) ou leader, précurseur, (publication, par exemple, d'un récit douze heures avant son pic de réplication).
A travers ces paramètres se révèlent la puissance, la densité de texture, des réseaux qui relaient les sites médiatiques et les blogs conservateurs aux Etats-Unis.

SOURCE: Infosthetics

1) les memes ne se réduisent ni à des petites phrases ni à des particules de buzz. Ce sont des entités socio-culturelles - pièces musicales, tenues vestimentaires, comportements - qui semblent avoir la faculté de se reproduire en se propageant à la manière de certains éléments biologiques. Il existe une Société Francophone de Memetique.

La memetique ou étude des memes est une discipline controversée. Certaines de ses approches sont intéressantes pour le journaliste confronté aux rumeurs. Dans mon livre, pages 89 et 90, je propose une traçabilité en dix occurences du meme des "camions remplis de cadavres" de 1945 à 2005.

Je montre, dans mon blog "Communiquer par l'image" un exemple de ''meme'' dans la photographie d'actualité.

2) En juillet 1997, j'ai vu dans un laboratoire de Stanford une impressionnante visualisation informatique des principaux thèmes abordés par les moyens d'information télévisuels aux heures de grande écoute.

lundi 24 mars 2008

Optimiser les outils européens de monitorage de l'actualité

A l'instar des institutions et firmes américaines qui , comme Media Tenor, scrutent et analysent l'actualité en temps réel, l'Union européenne s'est dotée d'instruments électroniques qui permettent de suivre, soupeser, hiérarchiser, classer et archiver les informations délivrées par les médias. Robustes et sophistiqués, ces outils gagnent à être "détournés" afin d'optimiser le travail journalistique.

EMM__Newsbrief_10_top_stories_.jpg

L'outil Newsbrief se présente comme l'observatoire de ce qui vient de se diffuser et se diffuse en 19 langues. Vision lissée en deux dimensions. La dimension temporelle est fournie par les courbes des dix thèmes les plus importants du moment en termes de nombres d'articles. Pour chaque courbe, une infobulle précise de quoi il retourne. On voit d'heure en heure les sujets gonfler et diminuer dans les priorités médiatiques. La dimension spatiale se déploie en une planisphère dont le code de couleurs indique les points chauds du jaune au rouge. Cette actualité panoramiques se laisse ausculter de plus près par des catégories d'évènements: si on choisit la catégorie "conflits", la carte interactive sélectionne les zones concernées.

EMM_Themes_conflits_carte_interactive.jpg

L'outil News Explorer est une merveille pour les journalistes. Il fonctionne par clusters ou agrégations de critères clefs. Evènements et lieux sont associés avec le coefficient du nombre d'articles qu'ils ont suscités pendant une période donnée. Quand on s'intéresse à un pays, on voit immédiatement combien d'articles sont disponibles. Les cartes interactives proposent quatre fonctions qui sont autant de pistes de recherche: personnalités dont le nom est associé à un pays, récits relatifs à ces personnalités et à ces pays (donc documentation factuelle), nom des organisations en relations avec les thèmes dominants de l'actualité.

EMM_News_Explorer_Sarkozy_carte_interactive.jpg

Exemple d'une personnalité à "explorer", Nicolas Sarkozy, tellement médiatisé qu'on croit tout savoir et n'avoir rien oublié à son sujet. Dans l'actualité du 21 mars vers 14h15, il faisait l'objet de 72 articles publiés dans 19 langues. News Explorer offre une première visualisation des personnes avec lesquelles les articles le mettent le plus souvent en relation directe depuis plusieurs mois. L'élection présidentielle étant encore relativement récente, le nom de Ségolène Royal apparaît 2076 fois dans les documents concernant Nicolas Sarkozy et celui de François Fillon apparaît 2072 fois. Bien entendu, il est possible de retrouver les circonstances, c'est à dire les récits, des péripéties auxquelles les personnages ont été mêlés. Ce n'est pas annecdotique: le nom de Charles Peguy permet de retrouver le discours élyséen qui l'a convoqué.

EMM_News_Explorer_Sarkozy_reseaux_associes_.jpg

Plus intéressant que ces liens de premier niveau, le fait de cliquer sur certains liens fait apparaître d'autres réseaux sémantiques oubliés: Lucie Aubrac dont le nom a sans doute été prononcé ou évoqué dans un discours présidentiel, ou à l'occasion d'une polémique, sur la Résistance. En cliquant sur le nom d'une personne associée, même de manière très fugace, à celui du président de la République, un nouveau réseau "satellite" se déploie. Et ainsi de suite, jusqu'à faire émerger, en une riche texture, les correspondances établies par les médias entre ceux et celles qui "font" l'actualité.

C'est d'ailleurs par un cheminement de réseaux en réseaux que le nom de Dominique de Villepin apparaît avec une synapse vers EADS, donc vers l'affaire Clearstream dont les ramifications pointent vers Jean-Louis Gergorin, le général Rondot, Denis Robert, etc...

EMM_labs_reseaux_dans_l_actu_Pakistan.jpg

Enfin les Laboratoires élaborent des visualisations très synthétiques des thèmes d'actualité et des pays les plus concernés. Ci-dessus, une cartographie de la situation politique au Pakistan. Cette visualisation interactive s'ajuste dans une approche de proximité entre les acteurs et dans une dimension chronologique avec, dans les deux cas, des "nodes" qui renvoient à des évènements décisifs. On peut également identifier d'un seul coup d'oeil es contrées les plus violentes de la planète. Ou aborder le même sujet dans une approche chronologie avec un inventaire des évènements les plus violents en ajustant les critères de comparaison.

EMM_logo_labs.jpgLe monitorage électronique a été développé à l'intention des responsables et des spécialistes travaillant sur les médias au sein des différents organismes de l'Union européenne. Utilisé de cette manière, il peut inciter favoriser le conformisme en incitant les journalistes à s'intéresser en priorité aux évènements qui sont déjà très médiatisés.

De salutaires détournements facilitent la recherche ciblée, par pays ou par thème, la mise en perspective que les moteurs ne permettent pas, une meilleure structuration des articles. Sans oublier le fait , capital, que la documentation disponible n'est pas étroitement hexagonale.

LIEN PERMANENT

dimanche 16 mars 2008

Vaccinations contre l'intox

 Il n'existe pas de logiciel d'aide au discernement. Tant mieux dans la mesure où cette lacune oblige le(s) cerveau(x) (1) à élaborer une méthode susceptible de prémunir les journalistes contre la bêtise, l'irrationalisme, la fourberie mentale, la propagande, la manipulation.

Le "Petit cours d'autodéfense intellectuelle", de Normand Baillargeon (2) peut constituer l'un des piliers d'une méthode de discernement. D'abord, parce que ce livre tonique prône le recul réflexif, la pensée critique et l'autodéfense intellectuelle.

Ce devoir de vigilance pose un sérieux problème au journaliste de l'ère électronique, ère qui se caractérise par la profusion et l'instantanéité. Le journaliste doit prendre le temps de construire et d'étayer sa pensée critique et il doit, en outre, intégrer en permanence les éléments nécessaires à un vrai "recul réflexif"; d'où l'idée (1) d'un wiki ou/et d'une application d'aide au discernement journalistique.

Ensuite, parce que ce livre énumère les outils du scepticisme nécessaire au journalisme. Par exemple, le kit de détection des dérapages perceptifs et conceptuels mis au point par l'astronome Carl Sagan.

Enfin, parce que même s'il est idéologiquement orienté, le travail de Normand Baillargeon est intellectuellement honnête.

Ce travail commence par un inventaire des pièges du langage. Les plus redoutables pour les journalistes sont les moins évidents. Les euphémismes, par exemple, servent "à masquer ou à minorer des idées désagréables" en les affublant de mots aux connotations moins négatives.

Discernement_fake_news.jpg

Un tableau énumère,dans la colonne de gauche, les vocables les plus proches de la réalité d'un conflit armé et ,dans la colonne de droite, leurs euphémismes les plus fréquemment utilisés pour induire les journalistes et leurs audiences en erreur. Sont disséqués de la même manière les "vertus" de l'imprécision, des généralisations hâtives et les fausses analogies, le jargon des pseudo-experts, les distorsions cachées dans les argumentations trop logiques.

Discernement__appareances_may_be_deceptive.jpg

Un autre chapitre, salutaire, est consacré au "terrorisme mathématique" qui utilise le prestige de la science et le fétichisme des chiffres - notamment en économie - pour embrouiller les journalistes et tromper l'opinion. Avant même les grossières erreurs d'interprétation facilitées par la méconnaissance des lois de la statistique, les exemples de falsifications pullulent dans les affirmations des entreprises et des politiciens. Cette intoxication permanente se répand grâce à la presse parce que les journalistes n'ont pas acquis le réflexe de se poser systématiquement quatre questions quand ils ont des données chiffrées à traiter: qui produit ces données ? dans quel but ? selon quelle méthode ? avec quelles définitions ?

Une blague résume ces manipulations banalisées: un comptable est embauché par une grande entreprise parce qu'à la question "Combien font deux et deux ?", il a su répondre: "Combien voulez-vous que çà fasse ?

Discernement_the_weekkly_radio_spin.jpg

Il est devenu évident, par exemple, que les sondages fonctionnent comme des instruments de manipulation parce que les journalistes politiques, passablement paresseux, ne savent ni comment ils sont faits, ni comment les analyser. Ce qui permet aux sondeurs d'orienter l'attention des journalistes dans des directions précises et de téléguider assez facilement l'agenda médiatique. C'est à dire les informations que les audiences recevront.

Discernement_politics_and_PR_political_cancer.jpg

La seconde partie englobe les croyances, la science et les médias. Là encore, le journalisme est directement concerné avec, notamment, l'altération des témoignages par la mésinformation. C'est d'abord "le caractère construit des souvenirs et l'influence que les attentes, désirs et croyances peuvent avoir sur eux." C'est ensuite la possibilité de donner de l'information aux témoins sans qu'ils s'en aperçoivent. (3) Les dissonances cognitives, les prophéties autoréalisatrices, les méfaits de la soumission à l'autorité et au conformisme sont autant de perversions qui menacent le métier d'informer. D'où le puissant remède proposé: la critique des médias formule trente recommandations pour renforcer et entretenir la vigilance citoyenne.

Discernement_logo_Critical_Thinking.jpg

Les mots et leurs pièges cachés, les chiffres et leurs illusions, les croyances déguisées en raisonnements, le fonctionnement des médias: quatre angles possibles pour construire une méthode de discernement à l'usage des journalistes. Méthode appuyée sur des sites et blogs salutaires, tels que ceux-ci, cités dans le livre de Normand Baillargeon:

Sceptiques

Pensée critique

Erreurs mathématiques

Pseudo-sciences

Charlatanisme médical

Risques de la visualisation d'informations quantitatives

LIEN PERMANENT

1) Si d'autres cerveaux veulent se joindre au mien pour élaborer une méthode de discernement, dans un wiki, ou en développant une application à l'intention des journalistes, ils sont les bienvenus.

2) Editions Lux 2005, 2006

3) La revue Sciences Humaines N°192 d'avril 2008 publie un entretien sur la mémoire menteuse avec la psychologue américaine Elizabeth Loftus.

mardi 19 février 2008

Fidel Castro sur le web: outils d'analyses urgentes

Parmi les raisons invoquées par les journalistes technophobes pour justifier leur défiance à l'égard du web, la plus stupide et la plus répandue porte sur la "dictature du temps réel", la "tyrannie de l'urgence".

Outre que cet argument c'est plus recevable depuis la création de France Info en 1987 et surtout depuis l'affaire du détournement de l'Airbus d'Air France en décembre 1994 (1), la rhétorique du "manque de recul" est indigente parce qu'elle ignore - technophobie oblige - l'usage des outils d'analyse adaptés à la rapidité et à la dissémination de l'information sur le web. Outils faciles et souvent gratuits.

Fidel_sur_le_web_logo_Gramma.jpgDémonstration avec la lettre de Fidel Castro qui, fait historique, a été publiée d'abord sur le site web du journal Gramma.( Ce qui apprendra peut-être aux technohophes que le web est une source d'information)

La première alerte du New York Times arrive à 09h08, heure de Paris. Elle mentionne la source internet. Sur Granma Digital, la lettre de Castro à ses compatriotes est rédigée en anglais. En moins de trente secondes, le logiciel néo-zélandais ThemeReader révèle la structure thématique du message.

Fidel_Castro_Theme_Reader.jpg

Le journaliste peut immédiatement prendre connaissance du contenu politique en lisant d'abord tout ce qui concerne la Présidence et le Conseil d'Etat. S'il est intrigué par les relations entre les thèmes "Révolution", "Education" et "Société", il peut découvrir ce qui apparaît comme une esquisse du testament de Fidel Castro. Autrement dit, en moins d'une minute, deux "angles" journalistiques.

Traduit en français et sauvegardé en texte brut sous Word, le document est soumis au logiciel Tropes qui fait apparaître plusieurs univers de références.

Fidel_Castro_th_mes_par_Tropes.jpg
En cliquant sur chacune des sphères, on voit apparaître Fidel_Castro_style_narratif.jpgles phrases qui forment la texture des univers qu'elles symbolisent. Le logiciel va plus loin en fournissant des indications de style qui peuvent être très utiles par la suite. On découvre, en effet, que le style de cette lettre de départ à la retraite est plutôt narratif: le président cubain raconte sa décision. Peut-être un troisième angle.

En tous cas, une empreinte précieuse pour, à l'avenir, reconnaître le style Castro dans des documents dont l'origine ne serait pas certifiée. Cette identification par les caractéristiques intimes d'un document est vitale pour la crédibilité journalistique.

Fidel_Castro_occurrences_2___5_noir_et_blanc.jpgPour vérifier que les deux précédents logiciels n'égarent pas trop l'évaluation journalistique, recours aux deux petits outils mis au point par l'universitaire Jean Véronis. Le "Dico" montre bien la même hiérarchie des mots les plus fréquents; mais le mot "état" apparaît deux fois dans le relevé lexical. Le logicel "Contextes" confirme qu'il s'agit bien de l'Etat comme institution politique (5 occurrences) et de l'état de santé (2 occurrences).

Les outils rapidement mobilisés pour évaluer la lettre de Castro sont encore plus "productifs" ( = gain de temps et de qualité) sur des textes longs. En fait, plus les documents sont énormes et touffus - comme le projet de traité européen soumis à référendum en 2005 - plus les logiciels sont performants. Ils apportent une valeur ajoutée au traitement de l'information en suggérant des approfondissements et des comparaisons qu'une simple lecture n'autorise guère.

Ces logiciels sont performants dans les situations d'urgence, évidemment, mais aussi pour mener de salutaires investigations textuelles. Aller au-delà de l'effet produit par certains mots pour explorer les tournures, les relations parfois cachées entre les différents thèmes d'un discours, ses contradictions internes, comparer plusieurs discours du même président de la République à plusieurs mois de distance mais sur le même thème (le thème du pouvoir d'achat en France, par exemple), tout cela permet de déceler les intentions réelles d'un homme ou d'une femme de pouvoir. Or, les intentions trahies par la structure intime d'un discours sont évidemment les plus intéressantes, puisque ce sont celles que l'orateur ne souhaitait pas dévoiler (2).

LIEN PERMANENT

1) Lors du détournement d'un Airbus d'Air France du 24 au 26 décembre 1994, la chaîne LCI alors dirigée par Jérôme Bellay diffusait sans interruption les images filmées depuis un lieu particulièrement bien choisi par un JRI de la chaîne de télévision. Le problème est que les journalistes de radio racontaient en direct ce qu'ils voyaient sur les images diffusées par LCI. Et, à bord de l'avion, les preneurs d'otages écoutaient les radios. Or, à un moment donné, on a pu entrevoir sur ces images des hommes du GIGN ramper vers l'avion dans le but évident de donner l'assaut. Les terroristes ne pouvaient pas les voir mais les journalistes de radio pouvaient tout "raconter", ce qui aurait sans doute entraîné un massacre. Jérôme Bellay et sa petite équipe d'alors - peu de monde à la rédaction pour cause de fêtes de fin d'année - n'ont pas subi "la dictature du temps réel." Ils l'ont maîtrisée en demandant au JRI posté dans un hangar de modifier légèrement son cadrage.

2) L'analyse par un logiciel du discours par lequel Jacques Chirac révélait la dissolution de l'Assemblée nationale en 1997 a montré que le président de la République ne croyait pas trop à la nécessité de cette dissolution et se déchargeait par avance de ses conséquences politiques.

mercredi 28 novembre 2007

Explorer des séquences audio et vidéo

Pluggd_logo.jpgConçu pour le marketing et la publicité, le moteur Pluggd mérité d'être détourné à des fins journalistiques. Il fonctionne sur une technologie de reconnaissance de la parole, exploitée notamment par les outils numériques de traduction ainsi que par différents dispositifs de surveillance et d'espionnage.

Rien d'illégal, ni même de répréhensible, dans l'usage qu'un journaliste peut faire de cette technologie. Au contraire: Pluggd est un outil de productivité pour la collecte, l'analyse et la vérification des contenus audiovisuels qui prolifèrent désormais sur le web.

Le principe de Pluggd est celui du dérushage semi automatique: le logiciel reconnait, dans des documents audio ou vidéo, les mots qui caractérisent une séquence de la manière la plus pertinente. S'agissant d'une séquence vidéo, il y a de fortes chances pour que les mots ainsi détectés correspondent aux images recherchées. Dans le schéma ci-dessous, les termes les plus pertinents sont en orange; les moins pertinents sont en bleu.

Pluggd_graphique_fonctionnement.jpg

La recherche du thème intéressant est évidemment rapide puisque l'on fait avancer le curseur de zone orange en zone orange sans s'attarder sur les zones bleues. Ainsi, le mot "internet" est localisé en qelques secondes dans une émission de 27 minutes.

Pluggd_d_mo_sur_une__mission_de_27_minutes.jpg

C'est un outil d'analyse: on voit très vite de quoi traite principalement un document qui peut développer plusieurs thèmes.

Pluggd_jeune_femme_demo_video.jpg

Ce peut-être aussi, dans certains cas, un outil de vérification. Si une rumeur se répand à propos de ce qui aurait été dit dans une séquence diffusée sur YouTube ou sur DailyMotion, le journaliste est en mesure d'évaluer rapidement et facilement le contenu exact et son contexte.

Lien permanent

lundi 22 octobre 2007

ThemeReader en français

J'ai écrit,dans un commentaire à ma note précédente, que l'application ThemeReader ne fonctionnait qu'en anglais. Vice Président de CiriLab, Arnold Villeneuve a réagi en me donnant la solution du problème auquel je m'étais heurté pour cartographier un texte en français.

Il suffit de renommer le fichier à scanner en lui donnant un intitulé constitué d'un seul mot, sans espace ni caractères spéciaux.
Vérification avec un article assez urgent sur la pouvoir d'achat:

17h20 : captation d'un dossier de six feuillets sur le site du mensuel "Sciences Humaines". Nouvelle formulation du nom du fichier Word, élimination de quelques caractères spéciaux dans le corps du texte.

17h21 :apparition des six thèmes dominants : "revenu", "achat", "ménages", "consommation", "salaires", "revenu disponible" dans une arborescence à deux niveaux.

Theme_reader_en_fran_ais.jpg

17h22 : lecture de notes détaillées au troisième niveau de l'arborescence pour vérifier la pertinence de la cartographie thématique. La logique qui mène du thème dominant "Revenu" aux sous-thèmes "Pauvreté" et "Seuil de pauvreté" était de bonne augure mais il ne faut pas se fier aveuglément aux logiciels.

ThemeReader_en_Fran_ais_2.jpg

Six feuillets assimilés et mémorisés en moins deux minutes. Le fait de lire à la moyenne de 20 secondes par feuillet importe moins que la compréhension intime de la totalité du texte et surtout sa mémorisation avec accès rapide aux notions clefs.

Dans un travail collaboratif, la cartographie éventuellement annotée de ThemeReader aurait pu être envoyée à un(e) documentaliste pour la recherche de statistiques sur l'évolution du revenu disponible au cours des cinq dernières années et à un secrétaire de rédaction pour trouver les illustrations les plus pertinentes.

ThemeReader fonctionne bien en français.

Lien permanent

dimanche 21 octobre 2007

Voir la structure thématique d'un document

Pour quelques dizaines d'euros, l'application Theme Reader dévoile l'anatomie d'un document rédigé en anglais.

Theme_reader_crise_financi_re_1.jpg

Il ne s'agit plus seulement des occurences comparées de certains termes, ni des proximités de significations qui déterminent les nuages de mots. Le "moteur de connaissance" développé par CiriLab's repère , lui aussi, les mots les plus fréquents mais, grâce à une architecture sophistiquée d'algorithmes, ce scanner textuel reconnaît les structures du langage humain qui caractérisent les propositions importantes. Ces structures relèvent à la fois de la rhétorique - une affirmation n'a pas la même organisation qu'un questionnement - et du regroupement de mots par hiérarchies de pertinence. Ayant analysé le document, Theme Reader en propose une visualisation cartographique.

Theme_reader_crise_financi_re_2.jpgJ'ai testé cette application sur un document de 30 feuillets Word, soit 1294 lignes et 81228 mots.Il s'agit de l'enquête sur la crise boursière publiée dans "The Economist" du 18 octobre. Moins de 2 minutes après l'ouverture du corpus par un clic droit sur son intitulé de fichier, une arborescence horizontale proposait 5 thèmes structurants:"banques centrales", "marchés financiers","crédit", "inflation" et "prix". Si les thèmes "inflation" et "prix" peuvent relever du pléonasme, il n'y a pas lieu de suspecter une grosse erreur d'analyse dans cette vision d'ensemble.

D'autant qu'au deuxième niveau de l'arborescence, sur la droite, les sous-thèmes "politique monétaire" et "marché" s'accordent bien avec le thème principal des banques centrales. Et il en est de même pour les autres points clefs du texte. Le troisième niveau fonctionne de la même manière avec, à la clef, la possibilité de lire les extraits qui justifient cette arborescence et de les annoter.

L'intérêt de Theme Reader est double:

1 - Il permet de gagner du temps: l'extraction des principaux thèmes des 30 feuillets m'aurait demandé au moins trois heures; Theme_reader_crise_financi_re_3.jpgelle s'est faite en quelques dizaines de secondes. Ce gain de temps devient encore plus décisif quand il s'agit d'accéder à une fine compréhension de l'enquête. Dans le traitement conventionnel, il faut la relire plusieurs fois, au moins partiellement, et prendre des notes; ce qui demande encore plusieurs heures. Avec Theme Reader, la lecture des fragments significatifs et d'éventuels commentaires demandent moins de 10 minutes. Il s'agit donc bien, pour le journaliste, de relever le défi de l'urgence sans renoncer à l'approfondissement. Il s'agit aussi et surtout de faire face de manière efficiente à la surcharge d'informations.

2 - C'est un outil de travail collaboratif. Les arborescences thématiques d'un document et leurs annotations peuvent être partagées entre les membres d'un même service rédactionnel, ainsi qu'avec les responsables des illustrations et de la mise en page.

Gagner individuellement du temps et travailler en essaim sont deux facteurs essentiels de productivité. Laquelle favorise la réflexion personnelle et collective dans la mesure où la visualisation des idées stimule, beaucoup plus que le texte linéaire, la production de remarques, d'interrogations, d'idées adjacentes.

Lien permanent

mardi 25 septembre 2007

Les plumes des politiques

Les outils lexicaux font gagner du temps et donnent de la profondeur aux traitements journalistiques de l'actualité politique.
Sur son blog "Technologies du langage", l'universitaire Jean Véronis vient de publier trois notes passionnantes sur les discours prononcés par les principaux candidats à la récente élection présidentielle.

Les_discours_de_Sarkozy.jpg

Graphismes à l'appui - ci-dessus l'arborescence des discours prononcés par Nicolas Sarkozy - il démontre que le candidat de l'UMP a eu recours à quatre rédacteurs différents pour ses soixante-trois déclarations publiques. Ségolène Royal a problablement utilisé trois talents, Jean-Marie Le Pen deux. François Bayrou semble avoir assumé personnellement l'essentiel de sa production, peut-être en utilisant des notes de ses collaborateurs.

Cette approche scientifique de la matière première politique est, pour le journaliste, une aide à la lucidité. Au début des années quatre-vingt un autre chercheur, Dominique Labbé, avait mis à jour deux langages sensiblement différents dans les discours de Francois Mitterrand. En 1997, j'ai dévoilé sur LCI la fréquence anormale d'un segment répétitif - "Tous ensemble, nous devons..." - dans le discours de Jacques Chirac essayant d'expliquer pourquoi il dissolvait l'Assemblée nationale.

Compte tenu des techniques d'analyse de l'époque, le livre de Dominique Labbé avait été publié plusieurs années après l''installation de François Mitterrand à l'Elysée. Mon analyse du discours de Jacques Chirac (onze minutes) avait mobilisé le logiciel "Sphynx" pendant une bonne partie de la nuit mais le résultat avait pu être diffusé le lendemain du discours dans l'émission que je produisais, "Le club de l'Opinion".
Pour les discours de la récente campagne électorale, Jean Véronis a travaillé sur un énorme corpus, dont cent vingt neuf discours de Nicolas Sarkozy prononcés avant, pendant et après la campagne électorale afin de bien identifier les traces stylistiques et autres tournures qui désignent un style, donc un individu, aussi sûrement que les empreintes génétiques. Normalement, un tel travail scientifique ne devrait être publié que dans plusieurs mois. C'est la raison pour laquelle son auteur se montre prudent.
Cependant, grâce aux outils informatiques et aux blogs d'experts comme celui de Jean Véronis, le journaliste se voit proposer des "angles" originaux et surtout une matière à réflexion cruciale pour sa compréhension des personnages et pour les analyses qu'il proposera aux lecteurs, auditeurs, téléspectateurs, internautes.
Il ne s'agit pas de reprocher aux responsables politiques de s'en remettre à d'autres pour écrire leurs discours. Il s'agit de comprendre pourquoi un homme comme Nicolas Sarkozy utilise quatre "plumes" différentes, comment il les utilise et dans quelles perspectives plausibles.
Note N°1: méthodologie
Note N°2: le cas Sarkozy
Note N°3: les cas Ségolène Royal, Françaois Bayrou, Jean-Marie Le Pen

Lien permanent

jeudi 23 août 2007

Cartographie politique

Visualisation scientifique des courants électoraux

Lire la suite...

vendredi 22 juin 2007

Approfondissements

Explorateurs sémantiques

Lire la suite...

Résumer les documents

Aller vite à l'essentiel

Lire la suite...