Les nouvelles promesses de la recherche multilingue en action

Carole Tisserand-Barthole

Bases no

422

publié en

2024.02

4113

Acheter ce no

Tags

évaluation outils | recherche Web | outils de recherche | IA

Les nouvelles promesses de la recherche multilingue en ... Image 1

Cela fait des années que l’on entend parler de Cross-Language Information Retrieval (CLIR) pour la recherche d’information. Il s’agit de la capacité à rechercher dans une langue et à recueillir des résultats dans d’autres langues. Jusqu’à maintenant, les produits ou fonctionnalités de ce type étaient rares et n’ont jamais véritablement décollé, à l’instar de la fonctionnalité proposée par Google de 2007 à 2013.

Et pourtant, il y a là un vrai besoin notamment pour les professionnels de l’information : dans un monde globalisé, il est en effet souvent nécessaire d’élargir à des sources en anglais (ce qui est souvent gérable), mais aussi à des sources dans des langues dont on ne maîtrise pas toujours les rudiments.

Si on peut malgré tout à mettre en place un système qui fonctionne en s’aidant de dictionnaires et d’outils de traduction, le processus reste long et fastidieux (voir Netsources N°163 - avril 2023 consacré à la veille multilingue).

Lire aussi :

Sourcing, de la théorie à l’épreuve de la pratique (Netsources N° 146 - mai/juin 2020)

Les nouvelles dimensions du multilinguisme pour la veille (Netsources N° 163 - mars/avril 2023)

Veille multilingue : comment trouver ses mots ? (Netsources N° 163 - mars/avril 2023)

Veille internationale : comment trouver des sources en langue étrangère ? (Netsources N° 163 - mars/avril 2023)

Comprendre les résultats de sa veille multilingue en un clin d’œil (Netsources N° 163 - mars/avril 2023)

Comment l’IA enrichit les livrables de veille multilingue ? (Netsources N° 163 - mars/avril 2023)

L’idéal dans cette situation serait de rechercher dans sa langue ou en anglais et de récupérer les contenus publiés dans d’autres langues, mais traduits en anglais ou français pour les analyser.

Bonne nouvelle : cela existe déjà, et c’est même en train de prendre de l’ampleur.

La recherche multilingue dans la théorie

Tirer parti de l’indexation

La première façon de rechercher des contenus dans des langues qu’on ne maîtrise pas forcément est de tirer parti de l’indexation (thésaurus, vocabulaire contrôlé, ontologies, etc.), ce qui existe depuis longtemps. Dans certains outils de recherche, notamment professionnels (agrégateurs de presse, bases de données, etc.), les articles et documents peuvent être indexés avec des mots-clés : nom de société, nom de personne, noms de lieu, thème de l’article, etc. L’utilisateur peut ensuite repérer dans sa langue les termes d’indexation adaptés à sa recherche puis les utiliser dans sa requête et voir apparaître des résultats pertinents dans des langues autres que l’anglais ou le français.

C’est par exemple le cas sur Factiva avec l’indexation sujet où il est possible, par exemple, de lancer une recherche sur le thème des insurtechs sur des contenus en langue chinoise, sans entrer un seul mot en chinois. Cependant, les résultats s’affichent bien sûr en chinois et il faut passer la liste des résultats dans un outil de traduction pour en déterminer la pertinence.

Il existe également d’autres limites à la recherche multilingue par l’indexation : tous les outils de recherche professionnels ne proposent pas de système d’indexation et quand ils le font, leurs termes ne répondent pas toujours parfaitement au besoin informationnel.

Le Cross-Language Information Retrieval (CLIR)

La deuxième façon de chercher des contenus dans une langue autre que celle de la requête relève du Cross-language information retrieval (CLIR). Si cette discipline est étudiée depuis des dizaines d’années, il n’y a pas eu beaucoup d’applications commerciales jusqu’à présent.

Plusieurs approches ont été étudiées au cours des années :

Traduire la requête initiale dans différentes langues pour que cela matche avec des contenus dans d’autres langues ;
Traduire tous les contenus du corpus dans une langue commune (souvent l’anglais) pour que l’utilisateur puisse ensuite lancer toutes ses recherches dans la même langue.

On notera que la traduction utilisée dans ces systèmes peut être humaine, complètement automatique ou bien hybride.

La recherche multilingue dans la pratique

En 2007, Google avait lancé une fonctionnalité de ce type. Le service reposait sur la traduction automatique des contenus mais a été retiré en 2013 car pas assez utilisé. Il faut aussi admettre qu’à cette époque la qualité de la traduction automatique laissait franchement à désirer.

Déjà abonné ? Connectez-vous...

Connexion

Précédent 96 / 624 Suivant

L’expertise humaine qui donne du sens à l'IA