Comment évaluer la fiabilité des sources dans des pays dont on ne connaît pas la langue ?

Anne-Marie Libmann

Netsources no

140

publié en

2019.05

1581

Acheter ce no

L’internationalisation de la demande de veille du client

L’entreprise explore un champ d’action et d’innovation de plus en plus étendu géographiquement, mondialisation oblige.

L’enjeu pour un veilleur ou un analyste est aujourd’hui d’accompagner ce mouvement stratégique dans le jeu économique mondial en suivant aussi bien les pays anglo-saxons que les pays ou continents dont il a peu de chances de connaître les langues. Nous entendons ici aussi bien les pays dits émergents qu’en fort développement (zone Asie, Moyen-Orient, Amérique Latine…)

Les possibilités impressionnantes de recherche dans toutes les langues, même les plus reculées, offertes via les outils de traduction automatique

Google a été le premier à être particulièrement innovant dans la recherche multilingue dans les profondeurs du web, avec des fonctionnalités puissantes de traduction automatique des requêtes et de traduction simultanée des pages des sites web.

Certes il y a plusieurs bémols, comme «l’étrangeté» de certaines expressions traduites automatiquement, la difficulté à traiter les noms de sociétés ou de produits, l’impossibilité de faire des requêtes avancées dans certaines langues.

Le recul des limites géographiques : la sortie de la zone de confort

Néanmoins, la nécessité de ne plus restreindre la veille à des zones ou à des langues maîtrisées, ainsi que les prouesses techniques des traducteurs automatiques, gomment progressivement les barrières linguistiques et font ainsi reculer les limites de l’investigation et de la veille, l’exploitation des sources d’information passant de fait à une échelle planétaire.

Qui dit élargissement dit découverte de sources absolument inconnues. Et même s’il arrive souvent que l’on se réjouisse de trouver au moins une ou deux informations sur un sujet donné dans un pays très lointain (que l’on traduira avec plus ou moins de succès via Google Translate ou l’excellent Deepl), le problème de l’évaluation des sources demeure. Cet aspect devrait d’ailleurs être pris en compte et traité avant même l’évaluation de l’information récoltée. Même si dans la pratique, on a tendance à privilégier l’évaluation de l’information à celle de la source, en grande partie pour des questions de facilité et de rapidité…

Analyser et hiérarchiser les sources : les sources de confiance

Alors, comment caractériser et évaluer la fiabilité d’une source dans une langue inconnue, dans un monde où, comme nous le montre Carole Tisserand-Barthole dans l’ensemble de ce numéro de NETSOURCES, la question du caractère douteux de l’information - mésinformation ou désinformation - se pose à chaque instant pour le veilleur ou l’analyste ?

La question de fond est ici de bien distinguer le « type de source » que l’on va chercher, en distinguant bien, dans l’ensemble de la «masse informationnelle», les sources ayant un statut reconnu au niveau national ou international, qui ne posent pas d’autre problème que la barrière de la langue et dont on trouvera sans peine une caractérisation sur le web (la plupart du temps très simplement par Wikipédia), avec tous les détails nécessaires sur l’émetteur, l’historique, les contenus, etc. Ces sources constituent d’ailleurs l’essentiel du catalogue des serveurs de bases de données ou des plates-formes de veille professionnelles de plus en plus sensibles à la qualité des sources.

Dès que l›on doit mettre en place des processus de veille récurrents sur des pays étrangers ou réaliser des études sérieuses, on aura intérêt à recourir à ces entrepôts de sources professionnelles qualifiées, sélectionnées en amont par des experts et validées en fonction de leur qualité et représentativité par rapport au pays et au secteur couverts.

Le coût des abonnements est certes assez important, mais il faut savoir que ces sources sont de moins en moins disponibles sur Internet de façon gratuite. En outre, des agrégateurs de presse tels que Factiva, LexisNexis ou Emis, pour ne citer qu’eux, offrent non seulement des contenus de sources étrangères déjà très importants, mais également des fonctionnalités de recherche multilingues intéressantes qui permettent de dépasser le problème de la traduction : indexation via des codes permettant une homogénéité de recherche dans les contenus des différents pays, possibilités de recherche avec traduction automatique des résultats ou traduction automatique des requêtes avec claviers virtuels intégrés (Emis en particulier).

La masse « informelle » des sources sur le web mondial : comment l’aborder ?

En dehors de cette catégorie de sources, qui est finalement, en dépit de sa qualité intrinsèque, assez restreinte par rapport à la masse d’informations à l’échelle mondiale, comment traiter la question de la fiabilité des milliards d’articles sur le web en provenance des journaux, revues, blogs, forums et autres données? Ceux-ci ont pour point commun d’être très précieux en termes de couverture locale et offrent des possibilités d’investigation sans fin, mais sont aussi extrêmement difficiles à situer et à caractériser. Inutile ici d’espérer en trouver une trace dans tous les outils de vérification des sources qui se développent, décrits finement dans ce numéro de NETSOURCES.

Sécuriser au maximum l’analyse de l’information recueillie passe par la sécurisation des sources, et l’on peut envisager deux méthodes, l’une structurée, l’autre empirique.

La première méthode passe par une phase de sourcing, c’est-à-dire la constitution méthodique et hiérarchisée des sources. On utilisera le recours à des listes préconstituées sur le web, certains internautes œuvrant visiblement pour un web qualifié et de qualité :

listes des journaux (principalement généralistes et économiques), recensés dans les fiches Wikipédia dédiées ou bien les répertoires de journaux en lignes classés par pays :
- le répertoire des sources couvertes par Courrier International (https://www.courrierinternational.com/notule-source),
- les répertoires multi-pays des sources en ligne tels que http://www.onlinenewspapers.com/, https://www.newspaperindex.com.
- De façon générale on trouve sans problème les listes de journaux de chaque pays avec les mots-clefs : list of (nom du pays) newspapers. Cette requête simple et assez générale nous donnera la plupart du temps les listes des journaux pour tous les pays du monde, mais la recherche sectorielle est beaucoup plus incertaine, même en introduisant les mots-clefs descriptifs du secteur en question.
on pourra penser aussi aux catalogues en ligne des grandes bibliothèques dans certains grands pays, notamment pour des recherches thématiques et sectorielles, même s’il faut s’accrocher pour arriver à isoler les titres de quelques journaux et revues dans un dédale souvent kafkaïen.

Cette première méthode consiste donc à procéder à un sourcing qualifié pour fonder sa recherche sur une sélection des meilleures sources dans l’immensité du web. Sa lourdeur en amont est compensée par la maîtrise des sources et garantit d’emblée une information de bonne qualité.

Elle est cependant plus restrictive que la seconde, qui elle, évalue la fiabilité des sources a posteriori sans se limiter au départ: grâce à la traduction automatique, on élabore une requête dans la langue du pays de son choix et on évalue ensuite les sources qui ont donné des résultats pertinents.

Cette deuxième méthode, plus ouverte et naturellement sans limite de sources couvertes, donnera par définition des résultats de recherche plus importants. Elle permet également de trouver de précieux renseignements sur des personnes ou sociétés dans le cadre d’investigations (due diligence, e-réputation,…), de découvrir des pépites inattendues, et notamment des sources sectorielles que l’on aurait eu du mal à trouver via la recherche de répertoires de sources. Plus la source sera locale plus elle sera intéressante dans le cadre d’une veille ciblée par exemple sur des unités de production, des données de marché, des actions des entreprises, ou encore politiques et gouvernementales sur le terrain, etc.

La qualification de la source locale sera en revanche moins aisée car il faudra explorer l’ensemble du site web pour essayer de déterminer le positionnement et le sérieux de la source, sans se faire beaucoup d’illusion sur la capacité à trouver des informations - du moins très facilement - sur l’émetteur de la source. En effet, les sources locales inconnues des «catalogueurs» sont très longues à caractériser par soi-même, a fortiori lorsqu’on n’a aucun repère de la langue en question et que l’on a pour tout outil qu’un traducteur automatique.

L’expertise humaine reste au cœur de tous les process informationnels

On n’aura d’autre recours que de se concentrer sur l’évaluation de l’information elle-même pour éventuellement ensuite se faire une idée de la valeur de la source et l’enregistrer dans son catalogue personnel. C’est la confrontation des informations qui sera clef ici, qui permettra une interprétation et validation des données de langue inconnue, par un travail très minutieux de recoupement, d’exploration dans de nouveaux champs de recherche, et de dialogue avec les clients et experts du sujet.

Mais n’en est-il finalement pas ainsi pour tout travail de veille et de recherche ?

Quelle que soit la langue de recherche, plus ou moins «étrangère», et quel que soit l’outil de recherche utilisé (serveurs professionnels, plates-formes, Google, Baidu, ou Yandex,…) la sélection, la qualification et l’interrogation des sources ne sont qu’une première étape technique.

Se situer au cœur de l’analyse de la donnée, en intégrant toute la portée de la problématique du client, nous semble être la prérogative et l’avenir du veilleur et de tout professionnel de l’information, s’il accepte de sortir de sa zone de confort pour démontrer toute l’importance de l’expertise humaine sur l’ensemble de la chaîne opérationnelle, de la capture au traitement analytique de l’information.

Précédent 200 / 353 Suivant

L’intelligence économique commence par une veille intelligente