Cela fait des années que l’on entend parler de Cross-Language Information Retrieval (CLIR) pour la recherche d’information. Il s’agit de la capacité à rechercher dans une langue et à recueillir des résultats dans d’autres langues. Jusqu’à maintenant, les produits ou fonctionnalités de ce type étaient rares et n’ont jamais véritablement décollé, à l’instar de la fonctionnalité proposée par Google de 2007 à 2013.
Et pourtant, il y a là un vrai besoin notamment pour les professionnels de l’information : dans un monde globalisé, il est en effet souvent nécessaire d’élargir à des sources en anglais (ce qui est souvent gérable), mais aussi à des sources dans des langues dont on ne maîtrise pas toujours les rudiments.
Si on peut malgré tout à mettre en place un système qui fonctionne en s’aidant de dictionnaires et d’outils de traduction, le processus reste long et fastidieux (voir NETSOURCES n°163, Avril 2023 consacré à la veille multilingue).
Lire aussi :
Sourcing, de la théorie à l’épreuve de la pratique
Les nouvelles dimensions du multilinguisme pour la veille
Veille multilingue : comment trouver ses mots ?
Veille internationale : comment trouver des sources en langue étrangère ?
Comprendre les résultats de sa veille multilingue en un clin d’œil
La première façon de rechercher des contenus dans des langues qu’on ne maîtrise pas forcément est de tirer parti de l’indexation (thésaurus, vocabulaire contrôlé, ontologies, etc.), ce qui existe depuis longtemps. Dans certains outils de recherche, notamment professionnels (agrégateurs de presse, bases de données, etc.), les articles et documents peuvent être indexés avec des mots-clés : nom de société, nom de personne, noms de lieu, thème de l’article, etc. L’utilisateur peut ensuite repérer dans sa langue les termes d’indexation adaptés à sa recherche puis les utiliser dans sa requête et voir apparaître des résultats pertinents dans des langues autres que l’anglais ou le français.
C’est par exemple le cas sur Factiva avec l’indexation sujet où il est possible, par exemple, de lancer une recherche sur le thème des insurtechs sur des contenus en langue chinoise, sans entrer un seul mot en chinois. Cependant, les résultats s’affichent bien sûr en chinois et il faut passer la liste des résultats dans un outil de traduction pour en déterminer la pertinence.
Il existe également d’autres limites à la recherche multilingue par l’indexation : tous les outils de recherche professionnels ne proposent pas de système d’indexation et quand ils le font, leurs termes ne répondent pas toujours parfaitement au besoin informationnel.
La deuxième façon de chercher des contenus dans une langue autre que celle de la requête relève du Cross-language information retrieval (CLIR). Si cette discipline est étudiée depuis des dizaines d’années, il n’y a pas eu beaucoup d’applications commerciales jusqu’à présent.
Plusieurs approches ont été étudiées au cours des années :
● Traduire la requête initiale dans différentes langues pour que cela matche avec des contenus dans d’autres langues ;
● Traduire tous les contenus du corpus dans une langue commune (souvent l’anglais) pour que l’utilisateur puisse ensuite lancer toutes ses recherches dans la même langue.
On notera que la traduction utilisée dans ces systèmes peut être humaine, complètement automatique ou bien hybride.
En 2007, Google avait lancé une fonctionnalité de ce type. Le service reposait sur la traduction automatique des contenus mais a été retiré en 2013 car pas assez utilisé. Il faut aussi admettre qu’à cette époque la qualité de la traduction automatique laissait franchement à désirer.
Déjà abonné ? Connectez-vous...