Face aux multiples scandales liés à la désinformation ayant éclaboussé les géants du Web ces dernières années, Google, Facebook, Twitter et les autres n’ont eu d’autre choix que de réagir et proposer des solutions pour lutter contre ce phénomène.
Lire aussi :
La veille et la recherche d'information à l'ère des « fake news » et de la désinformation
Tirer parti du fact-checking et du journalisme d'investigation pour la veille et la recherche d information
Les outils de veille et de recherche professionnels face à la fiabilité des sources
Ces start-ups qui investissent le champ de l'évaluation des sources et contenus
Comment évaluer la fiabilité des sources dans des pays dont on ne connaît pas la langue ?
Google reste un des outils de recherche indispensables pour la veille et la recherche d’information. Et le moins que l’on puisse dire, c’est qu’il n’a pas été épargné par les critiques sur son rôle dans la diffusion d’«infox» (voir glossaire) au cours des dernières années : sites douteux, conspirationnistes, racistes, sexistes, révisionnistes etc. très bien classés dans les résultats voire même utilisés dans les featured snippets, accusations de maintenir les internautes dans une bulle de filtres en proposant des résultats personnalisés et adaptés au profil de l’internaute, etc.
Il est vrai qu’aux débuts des featured snippets, ces résultats en position zéro qui extraient des éléments d’une page Web jugée pertinente afin d’apporter directement la réponse à la question de l’internaute, il n’était pas rare de voir émerger des contenus de sites plus que douteux et champions dans la diffusion de fake news.
Il faut dire que ces sites, qui diffusent des infox, avec une intention de nuire, maîtrisent souvent parfaitement les codes du Web et sont généralement très bons en matière de référencement.
Sans qu’on les retrouve nécessairement dans les featured snippets, il n’était pas rare non plus de voir apparaître des sites douteux sur la première page de résultats de Google.
Cette présence de résultats véhiculant des infox dans la première page s’expliquait également par une raison très simple : depuis plusieurs années déjà, Google essaye de comprendre l’intention de l’utilisateur afin de lui fournir des résultats en adéquation avec ses besoins. Le risque est alors de faire ressortir des résultats qui disent à l’internaute ce qu’il a envie d’entendre même si ces résultats proviennent de sites douteux ou diffusant de fausses d’information.
Naturellement, des requêtes du type « est-ce que la terre est plate ? », « le lait est-il cancérigène ? », « les vaccins sont-ils dangereux pour la santé ? » avaient toutes les chances de faire remonter des résultats issus de sites très douteux, voire absolument scandaleux.
Mais force est de constater qu’en quelques années, Google a su améliorer son algorithme afin d’éviter de faire ressortir ce type de résultats sur la première page, même si on n’est jamais à l’abri de quelques surprises. Globalement, ces résultats n’ont pas complètement disparu mais ont souvent été relégués plus loin dans les pages de résultats.
Si la qualité des résultats s’est améliorée, ce n’est peut-être pas uniquement l’œuvre de l’intelligence artificielle et de l’algorithme de Google mais également des search quality evaluators qui travaillent pour Google, soit plus de 10 000 personnes à travers le monde chargées d’évaluer la qualité, l’expertise, l’autorité et la fiabilité de sites et pages Web. Difficile d’évaluer le rôle réel de ces évaluateurs d’autant qu’il y a quelques jours John Mueller, Webmaster Trends Analyst chez Google indiquait qu’en « règle générale, Google n’évalue pas l’autorité d’un site »
Sur ce sujet, on conseillera la lecture d’un livre blanc publié par Google en février dernier et intitulé « How Google fights disinformation » : https://huit.re/Google-fights-disinformation.
On y apprend notamment que, pour Google Search, Google News et YouTube, Google a amélioré son algorithme de ranking pour mieux faire ressortir les sources de qualité, qu’il essaye de mieux détecter les acteurs qui détournent le SEO à des fins non louables et qu’il essaye de fournir toujours plus de contexte et différents points de vue aux internautes afin qu’ils puissent se faire leur propre opinion. On se rappellera ainsi que Google avait annoncé il y a quelques mois le lancement de « Featured Snippets augmentés », capables d’agréger des contenus de sources différentes présentant des avis contradictoires (comme Bing qui l’avait fait quelques mois auparavant).
Du côté de YouTube, Google n’a de cesse de durcir ses conditions d’utilisation et n’hésite pas à supprimer des chaînes jugées « toxiques ».
Et du côté de Google News, Google avait ajouté dès 2017 un label de fact-checking pour certaines informations et articles quand ils avaient été vérifiés par des journalistes.
Enfin, il propose également un moteur de fact-checking disponible à l’adresse suivante https://toolbox.google.com/factcheck/explorer#fce.
Mais en ce qui concerne la baisse de résultats issus de sites douteux, le mérite ne revient peut-être pas uniquement à Google.
En effet, un certain nombre d’acteurs et notamment des entreprises qui voyaient leur image et leur secteur d’activité ternis par des résultats négatifs ou peu flatteurs ont également décidé d’être proactifs (seuls ou aidés par des cabinets spécialisés) en proposant une véritable stratégie de contenu sur le Web (création de pages explicatives, création de portails d’information, posts sponsorisés sur des blogs et sites d’information, etc.) afin de marginaliser ses résultats jugés « nocifs ».
On pensera notamment à cet exemple présenté lors du dernier salon i-expo par le cabinet Boléro sur l’industrie de la laine de verre en France. Certains acteurs de ce secteur, lassés de voir l’image de leur industrie ternie sur la première page de résultats de Google (danger de la laine de verre, alternatives bio à la laine de verre, etc.) ont ainsi choisi une stratégie de production de contenu Web pour mettre en valeur leur industrie (rédaction d’articles, réponses à des interviews dans les médias, création de portails d’information, etc.) et ce, afin de marginaliser les résultats « anxiogènes ».
Déjà abonné ? Connectez-vous...
Comme nous avons pu le voir précédemment, certains géants du Web et les outils de recherche et de veille professionnels commencent progressivement à intégrer des fonctionnalités permettant d’évaluer la fiabilité des sources, notamment en mettant en place des partenariats avec des start-ups qui se positionnement sur l’évaluation des sources et des contenus.
Nous avons interviewé trois acteurs sur le marché français se positionnant sur ce créneau, avec des approches intéressantes mais divergentes. Nous avons par ailleurs identifié les autres acteurs en place, que nous analyserons dans cet article.
Lire aussi :
La veille et la recherche d'information à l'ère des « fake news » et de la désinformation
Les géants du Web face aux « fake news »
Tirer parti du fact-checking et du journalisme d'investigation pour la veille et la recherche d information
Les outils de veille et de recherche professionnels face à la fiabilité des sources
Comment évaluer la fiabilité des sources dans des pays dont on ne connaît pas la langue ?
TrustedOut « exploite les dernières avancées technologiques de machine learning, de web crawling, et de micro-services pour pallier les limites et biais de la curation de contenu manuelle, et fournir des corpus de sources constamment à jour et dignes de confiance. ». TrustedOut a récemment signé un partenariat avec Digimind, qui propose en option l’intégration du produit dans sa plateforme Digimind Intelligence.
Déjà abonné ? Connectez-vous...
Deux phénomènes ont marqué le monde de la veille ces trente dernières années :
- Tout d’abord, l’internationalisation de la demande de veille du client.
- Ensuite, les possibilités impressionnantes de recherche dans toutes les langues, même les plus reculées, offertes via les outils de traduction automatique.
L’entreprise explore un champ d’action et d’innovation de plus en plus étendu géographiquement, mondialisation oblige.
Lire aussi :
La veille et la recherche d'information à l'ère des « fake news » et de la désinformation
Les géants du Web face aux « fake news »
Tirer parti du fact-checking et du journalisme d'investigation pour la veille et la recherche d information
Les outils de veille et de recherche professionnels face à la fiabilité des sources
Ces start-ups qui investissent le champ de l'évaluation des sources et contenus
Google a été le premier à être particulièrement innovant dans la recherche multilingue dans les profondeurs du web, avec des fonctionnalités puissantes de traduction automatique des requêtes et de traduction simultanée des pages des sites web.
Certes il y a plusieurs bémols, comme «l’étrangeté» de certaines expressions traduites automatiquement, la difficulté à traiter les noms de sociétés ou de produits, l’impossibilité de faire des requêtes avancées dans certaines langues.
Déjà abonné ? Connectez-vous...
Après avoir vu comment les géants du Web, les médias, journalistes, professionnels de l’investigation appréhendent la question de la désinformation, qu’en est-il des outils de recherche et de veille professionnels souvent payants.
Comment prennent-ils en compte la question de la désinformation et des fausses informations ? Comment aident-ils leurs utilisateurs à évaluer les contenus et les sources qu’ils agrègent ?
Lire aussi :
La veille et la recherche d'information à l'ère des « fake news » et de la désinformation
Les géants du Web face aux « fake news »
Tirer parti du fact-checking et du journalisme d'investigation pour la veille et la recherche d information
Ces start-ups qui investissent le champ de l'évaluation des sources et contenus
Comment évaluer la fiabilité des sources dans des pays dont on ne connaît pas la langue ?
La question de la désinformation et des fausses informations rejoint un concept crucial et presque « ancestral » pour les professionnels de l’information : celui du sourcing et de la constitution du corpus sur lequel on effectue ses recherches. Rappelons que le sourcing, une des premières étapes de la veille, consiste à identifier les sources les plus pertinentes à mettre sous surveillance.
Dans un processus de veille, qu’elle soit stratégique, concurrentielle, d’innovation, d’image, etc., il est généralement nécessaire d’associer deux approches : d’une part en identifiant une liste de sources pertinentes à mettre sous surveillance (on parle ici de sourcing) et d’autre part, en utilisant et en mettant des alertes sur des outils qui ratissent plus largement le Web afin de détecter régulièrement de nouvelles sources à intégrer à son sourcing ou de nouvelles tendances et angles d’attaque susceptibles d’impacter sa veille.
Les outils de recherche et de veille professionnels sur le marché sont de natures très différentes : difficile de mettre sur le même plan un agrégateur de presse, un serveur scientifique et des plateformes de veille et de social media monitoring.
Et ces positionnements distincts les conduisent à proposer des approches très différentes en matière de constitution de corpus et d’évaluation des sources.
Ainsi, les agrégateurs de presse, serveurs et bases de données traditionnelles ont toujours basé leur modèle sur la constitution d’un corpus fiable et de qualité avec des contenus de presse, de littérature scientifique et académique, de rapports et études de marché, de données financières, etc.
Les plateformes de veille quant à elles, ont débuté avec un positionnement «uniquement Web ouvert», avec des sources librement accessibles en ligne et pas nécessairement simples à évaluer. A l’origine, les outils et plateformes de veille traditionnelles comme KB Crawl, Digimind Intelligence, Website Watcher, etc. ou tout simplement les lecteurs de flux RSS laissaient cette phase de sourcing à la charge de leurs clients. Les utilisateurs étaient en charge de l’identification des sources qu’ils allaient intégrer dans leurs outils. Si les lecteurs de flux RSS ou les outils de veille bon marché ou artisanaux fonctionnent encore essentiellement sur ce modèle, les plateformes de veille payantes ont souvent choisi soit d’intégrer un corpus de sources par défaut ou la possibilité pour l’utilisateur de charger en option des packs de sources.
Enfin, les plateformes de social media monitoring, plus récentes, qui se concentrent sur les médias sociaux au sens large (réseaux sociaux, sites d’actualités, blogs, forums, etc.) ont toujours proposé des corpus de sources les plus larges possibles combinant des contenus très hétérogènes.
On le voit bien, l’importance donnée à la fiabilité des sources et des contenus n’était initialement pas la même selon les différents outils. Mais cela s’expliquait aussi par le type de veille et de recherche visé.
En effet, si dans un contexte de veille concurrentielle, scientifique ou d’innovation, il est crucial de disposer de sources fiables et de qualité, ce n’est clairement pas le but recherché dans un contexte de veille d’image ou de contrefaçon. Tous les contenus, qu’ils soient faux ou issus de sources douteuses méritent alors d’être identifiés.
Mais la mise en lumière des fake news depuis quelques années a conduit bon nombre des différents acteurs à repenser leur stratégie et leur positionnement en matière de fiabilité des sources.
Voyons donc maintenant quelles sont aujourd’hui les différentes approches proposées par les principaux outils de recherche et de veille professionnels.
Déjà abonné ? Connectez-vous...
PANORAMA • Presse, réseaux sociaux, contenus multimédia, littérature scientifique, données, etc. : rechercher sur des contenus très disparates
BRÈVES DE VEILLE • Google ajoute deux nouveaux opérateurs de recherche
MÉTHODOLOGIE
• Quand peut-on clore sa recherche l'esprit tranquille ?
• La recherche d'information ne doit pas être une boîte noire
• Search Lab : 3 méthodologies clé en main
• Comment détecter des innovations de marché ?
• La recherche d information appliquée aux personnes
• Enrichir la veille avec des contenus multimédia
Déjà abonné ? Connectez-vous...
Qui n’a jamais rêvé d’un outil de recherche ou de veille unique, multi sources et multi contenus qui, à partir d’une seule requête, fournirait l’intégralité des résultats utiles et pertinents sur un sujet donné ?
Si cette question occupe les outils de recherche et éditeurs de veille depuis des décennies, force est de constater que la possibilité de rechercher en un seul et même endroit sur des contenus toujours plus nombreux et disparates reste un idéal vers lequel la plupart cherchent toujours à tendre.
Lire aussi :
Google ajoute deux nouveaux opérateurs de recherche
Quand peut-on clore sa recherche l'esprit tranquille ?
Search Lab : 3 méthodologies clé en main
Comment détecter des innovations de marché ?
La recherche d information appliquée aux personnes
En septembre dernier, Microsoft a annoncé le lancement de Microsoft Search, sa solution de recherche unifiée qui, à terme, devrait permettre de pouvoir rechercher en un seul et même endroit sur tout l’écosystème Microsoft (applications Office, SharePoint, Windows 10, Microsoft Edge, Bing mais aussi les applications mobiles de Microsoft).
Plus récemment, Proquest, serveur d’information académique et professionnel a annoncé le lancement de Proquest One Academic, un outil qui « rassemble en un seul endroit quatre ressources multidisciplinaires » - en l’occurrence ProQuest Central, Academic Complete, ProQuest Dissertation & Theses Global and Academic Video Online. La garantie, selon leur communiqué de presse, de pouvoir effectuer des recherches sur des journaux, thèses, mémoires, actualités, magazines, vidéos, etc., tout cela en un seul et même endroit et ainsi « gagner un temps considérable en aidant (les utilisateurs) à accomplir leurs tâches de manière plus efficace. »
Et comme nous avons eu l’occasion de le montrer dans les précédents numéros de NETSOURCES, les fournisseurs d’informations et les plateformes de veille élargissent toujours un peu plus leurs corpus au-delà de leur périmètre traditionnel. C’est ainsi que les agrégateurs de presse intègrent de plus en plus des contenus multimédia et médias sociaux (il y a quelques années déjà Europresse avait été un précurseur avec sa solution de « veille à 360° »), les plateformes de veille Web des contenus payants comme la presse print ou les études de marché, etc.
Déjà abonné ? Connectez-vous...
La recherche d’information a toujours été une activité chronophage, que ce soit à l’époque du « tout manuel » ou encore aujourd’hui, à l’heure de la profusion d’outils puissants et des gisements considérables d’information, accessibles facilement.
La question de la performance de la recherche d’information et de son évaluation demeure :
Lire aussi :
Presse, réseaux sociaux, contenus multimédia, littérature scientifique, données, etc. : rechercher sur des contenus très disparates
Google ajoute deux nouveaux opérateurs de recherche
Search Lab : 3 méthodologies clé en main
Comment détecter des innovations de marché ?
La recherche d information appliquée aux personnes
Cette question se pose naturellement pour toute personne en recherche d’information, que ce soit dans un contexte professionnel ou personnel. En entreprise en particulier, elle est cruciale, car les enjeux d’une recherche sont en général élevés, les études étant souvent stratégiques. Il nous a donc semblé intéressant de livrer ici quelques éléments de réflexion issus de notre pratique.
Tout d’abord, la durée d’une recherche est bien sûr liée à la nature-même de celle-ci et à son objet. Plus l’objet en est précis, plus les résultats sont «simples et rapides» à évaluer -ce qui ne veut pas dire que la recherche est simple. Citons, par exemple, le cas d’antériorisation d’un brevet, où l’on s’arrêtera une fois trouvé un document déterminant, brevet ou non. Ou encore d’une enquête de due diligence à laquelle on pourra envisager de mettre un terme si l’on découvre au moins un élément irréfutable de «non-honorabilité» de la cible investiguée.
Parmi les autres éléments de nature à délimiter de façon objective les temps de recherche figurent la deadline ainsi que le budget alloué par le client, externe comme interne. Le budget est un argument qui peut être d’ailleurs très utile face à un client refusant avec plus ou moins de bonne foi de prendre en compte le temps déjà passé et les efforts de recherche déployés. Cela implique bien sûr que les tests préalables à l’élaboration du devis de la prestation aient été bien menés. A noter qu’il existe une pratique qui se démarque fortement de l’usage ordinaire, où le résultat prime généralement sur le temps passé : celle des gros cabinets de consulting qui ont l’habitude d’acheter à leurs prestataires référencés des «heures de recherche» à un prix convenu, prêts donc à se contenter des résultats obtenus dans le temps de recherche imparti.
Si l’on en vient maintenant aux meilleures pratiques de conduite d’une recherche permettant de fiabiliser au maximum les résultats et ainsi de minimiser a priori d’éventuels aléas pouvant rallonger les temps de recherche, nous en proposerons ici trois :
Déjà abonné ? Connectez-vous...
A l’occasion du dernier salon i-expo qui s’est tenu en mars dernier, FLA Consultants a organisé un atelier dédié à la recherche d’information et la veille.
Lire aussi :
Presse, réseaux sociaux, contenus multimédia, littérature scientifique, données, etc. : rechercher sur des contenus très disparates
Google ajoute deux nouveaux opérateurs de recherche
Quand peut-on clore sa recherche l'esprit tranquille ?
Comment détecter des innovations de marché ?
La recherche d information appliquée aux personnes
La veille concurrentielle et sectorielle est une activité assez classique pour toute organisation mais on a vu ces dernières années une importance grandissante accordée à la détection des innovations produits ou marketing, et ce quel que soit le domaine. Mais dans ce type de veille, on est confronté d’emblée à plusieurs difficultés.
Certes, l’anglais et le français pourront couvrir une bonne partie du sujet, mais on obtiendra des résultats beaucoup plus satisfaisants en identifiant le bon vocabulaire dans de nombreuses langues et également les sources productives en langue locale.
Lire aussi :
Presse, réseaux sociaux, contenus multimédia, littérature scientifique, données, etc. : rechercher sur des contenus très disparates
Google ajoute deux nouveaux opérateurs de recherche
Quand peut-on clore sa recherche l'esprit tranquille ?
Search Lab : 3 méthodologies clé en main
La recherche d information appliquée aux personnes
Le spectre de surveillance ne peut pas être trop étroit dans un champ d’exploration où, par définition, on ne connaît pas à l’avance ce que l’on doit rechercher, tout restant à découvrir. De plus, il est évident que le mot « innovation » ou « innovant » ne peut suffire à rechercher ce type d’information. Le veilleur va donc devoir déployer des méthodes de recherche particulièrement créatives pour capter le concept d’innovation associé à un secteur, et ce, sans être noyé. Etablir un plan de veille par itération est ici plus que jamais nécessaire, en enrichissant le dispositif avec les éléments les plus pertinents collectés dans les résultats, particulièrement dans la phase de mise en place.
Voici plusieurs pistes, centrées respectivement sur les mots-clés, les acteurs et les sources, qui pourront être utiles pour construire un système de détection des innovations de marché :
Déjà abonné ? Connectez-vous...
Les professionnels de l’information se retrouvent fréquemment confrontés d’une manière ou d’une autre à des recherches d’informations appliquées aux personnes.
En premier lieu, tout le monde ou presque va penser à aller interroger Google à tel point que cela est entré dans le langage courant avec l’expression « Googler » ou « googliser » le nom de quelqu’un.
Lire aussi :
Presse, réseaux sociaux, contenus multimédia, littérature scientifique, données, etc. : rechercher sur des contenus très disparates
Google ajoute deux nouveaux opérateurs de recherche
Quand peut-on clore sa recherche l'esprit tranquille ?
Search Lab : 3 méthodologies clé en main
Comment détecter des innovations de marché ?
Car il peut s’agir aussi bien de :
Derrière cette apparente variété, on retrouve en réalité trois grands cas de figures :
Déjà abonné ? Connectez-vous...