Anticiper est, pour le journaliste, une périlleuse tentation doublée d’une
délicieuse contrainte.
Tentation périlleuse parce qu’elle est cause d’égarements qui ruinent une
crédibilité.
Contrainte délicieuse parce qu’à la différence des historiens, les journalistes
ne peuvent pas travailler comme si ce qu’ils observent était achevé; cependant,
si des faits ultérieurs valident une hypothèse, ils apportent la preuve à
posteriori que le journaliste avait bien compris la nature et la portée d'une
situation ou d'un phénomène.
Trois initiatives expérimentales (1) pourraient aider les professionnels de
l’information à conjurer les risques de l’anticipation tout en leur permettant
d’affûter leur évaluation des évènements.
Le fait que ces travaux se basent essentiellement sur les données fournies par
les moteurs de recherche incite à la prudence car si les économistes se
trompent si souvent dans leurs prévisions c’est bien parce qu’ils considèrent
que l’avenir se lit dans le passé. A tort, évidemment.
Il n’y a cependant rien d'inutile à mobiliser la logique des algorithmes et la
puissance des processeurs afin de détecter,dans certaines activités du web, des
signes qui peuvent être annonciateurs.
Le Time Explorer de Yahoo
A Barcelone, le laboratoire de recherches de Yahoo a mis au point un
«explorateur
du temps» qui, tout en n’étant pas globalement satisfaisant,
délivre des fragments de résultats intéressants.
La matière première de cette application en ligne est constituée, pour
l’instant, de 1,8 millions d’articles publiés par le New York Times entre 1987
et 2007 (2). Time Explorer extrait de cette masse de documents des
faits, des lieux, des noms et des dates et, en fonction de la requête, signale
les plus pertinents sur une ligne temporelle.
Deux registres sont disponibles, le passé et le futur:

Le corpus étant limité à la production éditoriale d’un seul organe de
presse, l’affichage des articles anciens s’avère forcément décevant.
Les résultats peuvent quand même remettre en mémoire des faits ou des analyses
injustement oubliés.
Mêmes remarques pour les résultats obtenus dans le registre du futur. Les
algorithmes ayant enregistré les dates contenues dans les articles, ils
restituent ces prévisions dans toutes leurs fragilités:

Là encore, le rappel des prévisions, même anciennes, n’est pas complètement
inutile. S’intéresser par exemple à la possibilité que la Chine se substitue à
la France comme première destination mondiale du tourisme en 2020 représente
une anticipation journalistiquement intéressante: effectuer des recherches,
vérifier certaines assertions, organiser des enquêtes publiables
immédiatement.
La sérendipité peut même s'inviter, comme dans le cas de la Yougoslavie où le
lien, à priori incompréhensible, entre Slobodan Milosevic et Saddam Hussein
révèle que le premier a vendu, lui aussi, des armes au second.

Le pisteur de grippe de Google
L’approche prédictive de Google repose sur la confrontation entre ce que
cherchent les internautes et les données constatées sur l’objet de ces
requêtes.
Le moteur publie un indicateur des grandes
tendances repérées parmi les milliards de questions qui lui sont
posées.
Impossible, bien sûr, de lier le nombre de requêtes sur la grippe à la
probabilité d’une intensification de la maladie, pour la simple et excellente
raison que des millions d’internautes se renseignent sans être malades.
Afin de construire une modélisation acceptable, Google cherché les corrélations
entre les volumes saisonniers de termes liées à la grippe et les nombres de cas
de grippe effectivement enregistrés par les organismes de surveillance
épidémiologique.

En haut, un extrait des données brutes collectées par Google
(septembre-octobre 2010), données que chacun peut importer dans un tableur. En
dessous, la visualisation de ces données.
Deux remarques:
1 – C’est sans doute abuser de la bonne volonté des algorithmes que de les
faire travailler sur des phénomènes saisonniers comme la grippe: elle survient
plutôt en novembre-décembre qu’en juillet-août et les allergies sont plus rares
en décembre qu’en juin.
2 – Il est probable que le nombre de requêtes sur la grippe augmente quand la
presse en parle beaucoup, comme ce fut le cas pour la pandémie H1N1, ce qui
rend peu fiable le paramètre des données de recherches « spontanées
».
La démarche de Google n’est cependant pas vouée à l’impasse car, d’une part,
les « nano-données » qui forment la granularité (= texture plus ou
moins fine) des bases de données les plus fécondes génèrent forcément des
corrélations inédites et robustes; et, d’autre part, les outils de détection de
ces précieuses corrélations ne peuvent que se perfectionner dans les quelques
années qui viennent, tant les enjeux sont importants.
Recorded Future cherche les corrélations
invisibles
Google investit (en même temps que la CIA) dans une entreprise innovante qui a
à peine plus d’un an d’existence, Recorded Future.
A la différence des moteurs de recherche qui exploitent les liens pour classer
les pages web, le moteur d’analyse temporelle de Recorded Future cherche dans
les contenus les corrélations invisibles (car non explicitées dans le langage
HTML) entre des personnes, des entreprises, des lieux, des évènements.
Au cœur de cette technologie linguistique, un moteur d’indexation de données en
flux capte les tweets, les billets, les articles de presse, les actualisations
de sites d’entreprises et de sites officiels.
La collecte est répartie entre différentes catégories de faits :
catastrophes, décisions politiques, lancements de produits, résultats
financiers, fusions d’entreprises.
Ces données sont toutes reliées à des dates, des personnes, des lieux, des
pays, des institutions, des entreprises.
Etude cas: les documents qui pouvaient permettre de
prévoir
l'attentat perpétré en Ouganda par un groupe terroriste
somalien.
Autre type d'exploitation possible: Ce qui se dit sur le web à propos des
candidats aux élections de la mi-mandat d'Obama aux Etats-Unis:

Parmi les fonctionnalités linguistiques du moteur figure l’analyse des
sentiments, positifs ou négatifs exprimés sur un thème donné. Analyse qu'il est
intéressant de confronter aux évolutions des sondages dans un scrutin sensible,
comme celui du Nevada:

Le moteur linguistique d'indexation en flux repère plusieurs corrélations
dans la compétition très serrée du Nevada. D'abord entre les fluctuations des
sondages et la mesure de l'attention accordée sur le web à chacun des
candidats: le candidat démocrate sortant a fait parler de lui, ce qui a un
impact sur les sondages et dans la répartition des sentiments positifs ou
négatifs - lignes du bas - entre lui et sa rivale républicaine.
L’accès aux outils en ligne est payant pour les gouvernements, les institutions
et les entreprises. Ci-dessous, un exemple de visualisation dans laquelle
apparaissent les fameuses corrélations - autres que celles des liens hypertexte
recensés par les moteurs - entre des individus, des entreprises, des
pays.

Recorded Future délivre gratuitement une lettre d’information qui, sur
des thèmes donnés, peut faire partie d’un dispositif de veille.
Un journaliste normalement constitué ne devrait pas, en effet, rester
insensible à la manière dont la firme a conçu son interface
d'interrogation:

L’utilité journalistique de ces trois approches prometteuses englobe:
- la détection de phénomènes émergents.
- la préparation documentaire et logistique de reportages et d'enquêtes sur des
phénomènes ou des évènements hautement probables.
- Sans oublier ce qui impose aux journalistes lucidité et modestie:
l'opportunité de confronter la perception des faits à un moment donné aux
évolutions possibles de l’actualité.
1) Human Computer Interaction and
Information Retrieval
2)
Le laboratoire de Recherche et Développement du New York
Times


Ainsi, aucun individu moyennement cultivé
ne pourra donner la moindre signification à cette cartographie de l'actualité
mondiale le vendredi 18 avril à 16h20. Un journaliste normalement constitué
doit pouvoir y reconnaître des "sujets" de cette journée.(S'il en est
incapable, il n'a rien à faire dans ce métier.)




Un
terminal mobile connecté aux réseaux sans fil et capable de déployer un film
numérique qui remplacera le papier. C'est le futur quotidien d'information
selon Scott Adams.
imagine 