Cinq moteurs de recherche innovants pour compléter Google
Par Alain Joannes le mardi 19 mai 2009, 17:35 - METHODES DE COLLECTE - Lien permanent
L'innovation s'intensifie dans la détection, l'exploration et l'exploitation
des gisements de contenus. Voici cinq applications susceptibles d'enrichir la
recherche d'informations et la validation des sources en complétant
Google.
Je les propose dans l'ordre séquentiel des quatre opérations auquel tout
journaliste opérant sur le web devrait se consacrer s'il est soucieux de
préserver sa crédibilité. En attendant que les organes de presse hexagonaux
veuillent bien créer la fonction de recherchiste-vérificateur qui est enseignée
depuis pas mal de temps au Québec.
Ce qui suit peut être considéré comme l'ébauche d'un dispositif à enrichir avec
d'autres applications.
I - Recherches étendues
Cleeki est un collecteur de mots-clés. Il
considère chaque mot sélectionné sur une page web comme un élément d'une
requête. Il suffit de proposer ce mot à un moteur, un annuaire ou une base de
données comme Wikipedia pour déclencher une recherche sur une de ces
ressources.
![]()
Cleeki est capable de ratisser plusieurs mots-clés et de les lancer dans une
requête dans plusieurs directions simultanées. Il propose enfin des mots-clés
qui ne sont pas présents dans la page examinée mais qui peuvent, selon lui,
suggérer une extension de la recherche.
II - Recherches approfondies
Exploredge m'a été
signalé par Mohamed Chelbi lors d'une récente formation sur la recherche et la
veille au CAPJC de
Tunis. Cet outil de recherche experte, métamoteur intelligent à
vocation encyclopédique, est tout simplement fantastique et il est
français.

Exploredge mobilise une vingtaine de moteurs dont les résultats pour une
requête sont soumis aux technologies de traitement sémantique des contenus. Des
interventions humaines en mode collaboratif améliorent grandement la pertinence
et la précision des résultats.
Concrètement, l'approche
sémantique fait émerger les mots, les notions, les associations d'idées, les
suggestions avec une puissance dont le cerveau humain est incapable sur des
laps de temps très courts.
Les interventions humaines vérifient, valident, classent et hiérarchisent les
réponses des moteurs, ce dont les algorithmes ne sont pas capables avec une
telle intelligence (= compréhension) de la requête.
Les suggestions d'approfondissements et d'affinements apparaissent dans un
volet latéral gauche. Elles sont classées dans une arborescence logique. A la
date de mise en ligne de cette note, dix domaines étaient structurés - dont
l'intelligence économique et la veille - et onze autres étaient en cours de
validation. A la fin de l'année, Exploredge proposera une centaine de centres
d'intérêt comprenant chacun entre 500 et 1000 termes.
Sous le métamoteur, une encyclopédie est donc en expansion, alimentée par des
contributeurs volontaires Les journalistes qui auront la sagacité d'inclure
Exploredge dans leur panoplie d'investigations sur le web n'ont qu'à s'inscrire
afin de recevoir la lettre d'information, sans omettre de s'abonner au
blog dédié.
III - Vérification des faits
Wolfram alpha
s'annonce comme un outil journalistique assez révolutionnaire dans la mesure où
il semble vouloir combiner la puissance de Google et l'exhaustivité de
Wikipedia.

Son ambition n'est rien moins que de rendre toute connaissance immédiatement
consultable par ordinateur. C'est un projet à long terme mais il suffit de
tester les premières catégories proposées - par exemple, celle de la culture et
des médias - pour comprendre qu'une technologie puissante est au service
d'objectifs originaux, avec des résultats "non substituables", d'ores et déjà
sans concurrence possible.
True knowledge
ressemble à Exploredge, en moins puissant et en moins précis. Mieux vaut
l'utiliser comme vérificateur factuel que comme moteur.

Plus que jamais nécessaire au sein des rédactions, la fonction de facts
checker associée à une expertise de recherche et de veille a besoin de
bases de données "interrogeables" comme True Knowledge pour éviter ce qui vient
d'arriver à plusieurs quotidiens britanniques: reprise aveugle d'une fausse
citation glissée dans Wikipedia par un étudiant en sociologie qui étudie la
fiabilité journalistique.
IV - Validation des sources
Touchgraph est la providence du
journaliste ou du documentaliste chargé de valider les sources d'information.
Cette opération consiste notamment à mesurer l'écart entre ce qu'un site, ou un
blog, prétend être et ce qu'il est réellement. Si l'écart est nul, le gisement
d'informations mérite d'être validé. Si l'écart est significatif, la rédaction
doit être avertie de son manque de fiabilité, voire de sa nocivité.
Plusieurs outils, dont certaines fonctionnalités de Google, permettent de
confronter les contenus avec leur environnement matérialisé par les liens
entrants: un blog qui se prétend juridique mais vers lequel pointent des liens
sans rapport avec le droit doit être exclu, à priori, des ressources
rédactionnelles.

Comme outil de validation, Touchgraph est une merveille. L'alliance de la
sémantique et de la visualisation de données dévoile, dans le cas de ce blog,
différents univers agrégés en constellations.

En "zoomant" sur une de ces constellations de sites ou de blog, un coup d'oeil
suffit pour vérifier le voisinage du blog correspond bien à sa ligne
éditoriale: l'information, le journalisme à l'ère électronique.
Dans un volet latéral, à
gauche de la remarquable interface graphique, apparait la liste des sites qui,
à un moment, ou à un autre, ont pointé vers le blog "journalistiques".
Un aperçu de ces sites ou blogs permet de se faire une idée de la raison pour
laquelle ils se sont intéressés à tel ou tel billet. Il suffit de cliquer sur
l'adresse du visiteur pour en savoir davantage.
Cette maquette de dispositif de recherche-vérification-validation peut
accueillir bien d'autres moteurs, ainsi que des applications greffées sur les
navigateurs comme Gnosis
ou Surf
Canyon.
Voir aussi: "Comment j'évalue
l'actualité"
Commentaires
Bonjour,
Je me demandais au niveau d'outils comme WolframeAlpha si ce genre d'outil n'est pas un peu inertique ? S'ils n'ont pas tendance à rester sur certains faits "périmés" et à occulter les actualisations ? Je pense à des domaines à évolution rapide comme l'actualité, l'informatique, etc.
Une autre question concernant la validation des sources, j'ai l'impression que le procédé à pour conséquence de rendre moins fiable dans la mesure qui est faite un site d'information qui serai mis dans les favoris d'un auteur de blog de musique par exemple, est ce que cela ne viendrai pas fausser la perception des choses ?
Bonne journée
A propos de Wolframe Alpha: dans l'état actuel de ce moteur, vous avez raison. Mais je vous invite à relire le premier paragraphe de ma note et notamment la fin de ce premier paragraphe où il est écrit "en complétant Google".
Je n'ai jamais écrit, ni pensé, que ces applications devaient remplacer Google qui reste incontournable pour sa puissance et sa rapidité, notamment pour "les domaines à évolution rapide comme l'actualité, l'informatique, etc..." Google ne me pose qu'un seul problème: c'est une fabrique de conformisme. Or, le conformisme des journalistes est, selon moi, le mal qui tue la presse française. Google contribue puissamment à l'aggravation de ce mal de deux manières:
- la "Google democracy" qui consiste à placer en tête des résultats affichés les sites ou les blogs vers lesquels pointent le plus de liens (avec des "ajustements" manuels qui ne sont pas toujours très transparents). J'ai un nombre incalculable de raisons de penser que les sites les plus visités ne sont pas les plus intéressants pour un journaliste normalement constitué, c'est à dire un peu curieux et soucieux d'originalité.
- la paresse des infonautes dont on sait qu'ils ne regardent que la première page de Google et qu'ils ne s'intéressent qu'au six premiers résultats de cette page. Le greffon "Surf Canyon" me prouve quotidiennement qu'il y a des trésors dans les récoltes de Google , mais ils sont enfouis très en profondeur dans les pages de résultats, là ou les infonautes - et les journalistes - ne vont jamais.
Ma conclusion sur votre première remarque: oui Wolfram Alpha est plus inerte, moins rapidement actualisé que Google et d'autres moteurs, mais la vocation de Wolfram Alpha est ailleurs: dans la fiabilité des sources, dans la profondeur de l'information ou plutôt dans ce qui permet de passer de l'information à la connaissance puis au savoir. Ce que la paresse journalistique ignore..
Sur la validation des sources: elle ne consiste surtout pas à établir qu'un site d'information est journalistiquement intéressant au prétexte qu'un blog de musique a placé ce site dans ses favories. Surtout pas. On ne parle pas de la même chose.
La validation des sources est une activité qui, selon moi, doit avoir un objectif de productivité. (Encore une notion que les journalistes français récusent, ce qui les entraîne vers une déqualification suicidaire.)
Si un(e) documentaliste ou un(e) journaliste passe un peu de temps à vérifier quelques critères comme la fiabilité, la pertinence et l'actualisation en utilisant des méthodes que je développe dans mon livre (Cornell, Berkeley entre autres), la source ainsi validée n'aura pas à être recherchée et évaluée quand la rédaction aura besoin de cette source dans une situation d'urgence.
Merci de votre réponse.
A propos de la validation des sources, mon idée était plutôt que suite à l'évaluation du consensus des sujets entre un site et les liens qui y mènent, un site d'information (qu'il soit bon ou mauvais) se trouve évalué avec une note moins bonne proportionnellement au nombre de sites hors sujet qui pointent dessus et cela indépendament de la qualité réelle du site, je vois cela comme une limite de pertinence du résultat donné par l'outil.
Je comprend que c'est une considération secondaire par rapport à la démarche de validation des sources qui est une approche sur le contenu et où l'esprit humain est plus accéré, de plus votre ne démarche ne consiste absolument pas à s'en tenir à ce seul résultat. Un outil tel que celui que vous mentionnez n'est qu'un outil au service d'une analyse globale comme vous l'avez expliquez dans votre article, pas un distributeur de sésames à suivre les yeux fermés chose que vous avez tout à fait réussi à faire comprendre dans votre article.