La vague d’outils IA pour l’Information Scientifique et Technique (IST)

Carole Tisserand-Barthole
Bases no
420
publié en
2023.12
3467
Acheter ce no
Tags
ist | IA
La vague d’outils IA pour l’Information Scientifique et ... Image 1

L’Information scientifique et technique intéresse particulièrement les développeurs d’outils IA. En 2023, nous avons repéré au total plus de 20 outils IA spécifiquement dédiés à l’IST. Voici un tour d’horizon, le plus complet possible, pour aider le professionnel de la recherche d’information et de la veille à y voir plus clair et comprendre quelle place leur donner dans son activité.

Si les outils IA dédiés à l’IST s’adressent avant tout aux chercheurs, nombre d’entre eux sont également adaptés aux pros de l’info. Leur promesse ? Gain de temps et augmentation de la productivité, aux niveaux de la recherche d’information, de l’analyse et de la rédaction.

Pour cela, ces outils proposent no­tamment les fonctionnalités suivantes :
  • Recherche dans la littérature scientifique ;
  • Recommandation d’articles ;
  • Résumé automatique et dialogue avec les documents ;
  • Extraction de données ou concepts.

Une vingtaine d’outils répondent ainsi à un ou plusieurs de ses critères (voir l’infographie Figure 1). Ils se divisent en trois grandes catégories :

  • Des outils de recherche ;
  • Des plug-ins et des assistants spécialisés IST ;
  • Des outils de résumé automatique, dialogue avec des documents, extractions de données.

Les moteurs IA pour l’IST

Les outils de recherche IA spécialisés dans l’IST se positionnent comme des alternatives aux moteurs académiques classiques comme Google Scholar, Dimensions ou The Lens, voire aux serveurs et outils de recherche payants comme Scopus, Web of Science, STNext, etc. Ils sont reliés à des corpus volumineux de littérature scientifique.

Leur créneau : recourir à l’IA pour fournir rapidement une sélection d’articles scientifiques pertinents issus d’un large corpus, accompagné parfois d’un résumé ou d’une synthèse des articles jugés les plus pertinents par l’outil. Plusieurs d’entre eux se présentent d’ailleurs comme des Literature review assistant.

Leur contenu : la majorité d’entre eux utilisent le corpus de Semantic Scholar (contenant plus de 200 millions d’articles scientifiques soit plus que Scopus ou Web of Science mais moins que STN et ses 320 millions - attention : parmi les 200 000 millions, seule une partie est recherchable en texte intégral, pour le reste, on ne recherche que sur les métadonnées). Ils ont aussi un fonctionnement de base similaire, où l’on entre sa recherche sous forme de question en langage naturel.

Leur modèle économique : freemium, donc avec une version gratuite pour commencer, puis un ou plusieurs niveaux d’abonnement(s).

Notre panorama des outils IA pour l’IST en une infographie :

Figure 1. Panorama des outils IA pour l’IST par BASES PUBLICATIONS

Voici quelques spécificités :

Elicit est l’un des pionniers, apparu avant ChatGPT.

Depuis notre article Elicit, un nouveau moteur scientifique au banc d’essai, dans le numéro de BASES de juin 2022, l’outil est passé sur un modèle freemium et a ajouté de nouvelles fonctionnalités. Cet outil de recherche s’articule autour de trois grandes fonctionnalités, en plus de la recherche :

● Le résumé des quatre articles les plus pertinents et une liste d’articles brièvement résumés sous forme de tableau. Ce dernier présente un bref résumé, avec possibilité d’ajouter des colonnes de données extraites (plus de 40 paramètres) ;

● L’extraction de données depuis un PDF ;

● L’extraction des concepts, qui permet aux utilisateurs de rechercher dans un large corpus d’articles académiques et d’en extraire les thèmes discutés dans plusieurs articles.

Scispace est lui aussi apparu en 2022 (l’entreprise existe depuis 2015), mais a beaucoup évolué en 2023. Il fonctionne sur un modèle freemium avec un premier palier à 12$/mois. Scispace propose lui aussi les résultats sous forme de tableau.

En plus du moteur, Scispace permet également :

● D’extraire des données depuis un PDF (conclusions, références bibliographiques, etc.), résumer et poser des questions au document ;

● D’aider à la rédaction d’un article et/ou d’en améliorer le style et la grammaire ;

● De générer des citations au bon format ;

● De détecter si du contenu a été produit avec de l’IA générative.

Il propose enfin une extension Chrome qui permet de l’utiliser avec des articles scientifiques en ligne.

RDiscovery se présente comme le compagnon IA pour la revue de littérature. L’outil a un corpus intéressant et très diversifié, avec plus de 120 millions de documents, dont des articles, des brevets et des proceedings. Il bénéficie aussi de partenariats avec de nombreux acteurs comme Springer, Pubmed, ArXiv, Emerald, Taylor & Francis, OpenAlex, Sage, Crossref.

Il s’agit d’un moteur classique par mots-clés ou sujet(s), doté de filtres par institution, pays, langue, journal, sujet, etc.

Pour chaque article, il est possible de visualiser une version traduite, d’écouter l’article en audio et de visualiser des articles similaires.

L’IA générative se trouve essentiellement dans le nouvel outil associé, appelé Ask R Discovery. Il permet de poser des questions en langage naturel au lieu de lancer des recherches par mots-clés. Les résultats sont présentés sous forme de résumés et d’extraction des références pour des articles jugés pertinents et/ou similaires.

Les autres acteurs proposent globalement moins de fonctionnalités qu’Elicit, Scispace et Rdiscovery mais ont tout de même quelques particularités :

● MirrorThink (https://mirrorthink.ai/), outil gratuit, propose une interface similaire à celle d’un chatbot. L’outil permet aussi d’interroger le Web, intègre le moteur Wolfram Alpha pour certaines questions et est capable d’extraire des données comme les auteurs les plus cités, les noms d’organisations, etc.

● Epsilon (https://www.epsilon-ai.com/) sélectionne les 100 documents qu’il juge les meilleurs, génère un résumé automatique et fournit des liens vers les sources. L’outil propose une version gratuite et des versions à 9 $ et 19 $ par mois.

● OpenRead (https://www.openread.academy/) recherche sur plus de 300 millions d’articles scientifiques et académiques. Les résultats sont précédés d’un résumé généré par l’IA. Il est aussi possible de traduire les articles, charger et/ou dialoguer avec un document et de générer une dataviz pour mieux voir les liens entre les articles. L’outil existe en version gratuite, à 5 $/mois et à 20 $/mois.

● Skolar (https://skolar.ai/) est un outil de recherche IA qui permet de dialoguer avec les PDFs. Pour les chercheurs, l’outil a aussi un rôle d’aide à l’écriture d’articles et à la mise en page des citations. Il existe une version gratuite et une version à 8 $/mois.

● Consensus se focalise exclusivement sur la recherche et n’a donc pas véritablement de spécificité

Voir notre article « Consensus, un moteur académique dopé à l’IA », BASES, février 2023

Les outils de recherche thématiques

● System Pro (https://about.system.com/product/system-pro) se concentre exclusivement sur le médical avec le corpus de Pubmed. Il propose des résultats sous forme de tableau, une synthèse générée par l’IA à partir des 10 000 premiers résultats et une fonctionnalité de dataviz. Il existe une version gratuite et une version à 12 $/mois.

● Textlayer (https://textlayer.ai/search) s’intéresse à l’informatique et utilise ArXiv comme corpus. Il est disponible en version gratuite à 9 $/mois ou à 39 $/mois.

● Zeta Alpha (https://search.zeta-alpha.com/) qui se présente comme un outil de recommandation spécialisé sur l’IA et le machine learning.

● Summarize Paper (https://summarizepaper.com/) permet de rechercher des articles sur ArXiv, faire des résumés automatiques de la sélection et dialoguer avec les articles sélectionnés. Il est gratuit.

● Sourcely (https://www.sourcely.net/) s’adresse davantage aux étudiants qu’aux chercheurs. L’utilisateur entre son sujet, puis l’outil trouve les articles pertinents dans un corpus de plus de 200 millions de documents et fournit un résumé automatique pour chaque document (version pro). L’outil propose une version gratuite et une autre à 9 $/mois (87 $/an).

Les plug-ins ChatGPT et les GPTs personnalisés

Il existe également des plug-ins activables dans la version payante de ChatGPT. Ils permettent à cette dernière de se limiter à un corpus académique et peuvent inclure une dimension recherche et/ou résumé, dialogue et extraction d’informations.

Parmi eux :

● ScholarAI pour la littérature scientifique académique ;

● Xpapers pour les contenus d’ArXiv.

Avec l’apparition récente des GPTs personnalisés créés par les utilisateurs pour répondre à des besoins précis, on trouve aussi quelques outils comme :

● Academic Researcher (https://chat.openai.com/g/g-t8Qe4P5HU-academic-researcher);

● Academic Researcher GPT (https://chat.openai.com/g/g-q1J4VVfZo-academic-researcher-gpt) ;

● ArXiv Explorer (https://chat.openai.com/g/g-lvltTutYR-arxiv-explorer) ;

● Mixerbox Scholar (https://chat.openai.com/g/g-8Hpsk6WE2-mixerbox-scholar);

● Paper Analyzer (https://chat.openai.com/g/g-CZyjSRrxw-paper-analyzer);

● ScholarAI (https://chat.openai.com/g/g-L2HknCZTC-scholarai).

Les outils d’extraction, de résumé et dialogue

Les outils d’extraction, de résumé et/ou de dialogue ne sont pas connectés au Web et n’interagissent donc pas avec la littérature scientifique en ligne. Ils n’ont pas de corpus pré-intégrés, c’est à l’utilisateur de fournir son corpus en chargeant des articles.

● Scisummary (https://scisummary.com/) permet d’ajouter des articles (PDF, lien Web ou depuis sa bibliothèque Zotero) et de les faire résumer automatiquement par l’IA. L’outil propose une version gratuite, à 4,99 $/mois, à 8,99 $/mois et à vie pour 299,99 $.

● Lateral (https://app.lateral.io/) permet de charger plusieurs articles scientifiques en PDF, rechercher simultanément dans ces documents ou identifier un passage pertinent pour savoir s’il existe des passages sur un thème similaire dans les autres. Il fonctionne sur un modèle freemium avec un abonnement gratuit, un abonnement à 9,99 €/mois et un à 24,99 €/mois.

● ResearchAide (https://www.researchaide.org/) permet de charger des documents et articles scientifiques, de leur poser des questions et d’en extraire des données. Il propose une version gratuite, une version à 5,99 $/mois et une à 29,99 $/mois.

● Paperbrain (https://www.paperbrain.study/) permet de questionner les articles et de les charger en PDF.

● Explainpaper (https://www.explainpaper.com/) se donne comme mission de rendre plus simple la lecture d’articles scientifiques en expliquant et en vulgarisant les passages difficiles, ainsi qu’en dialoguant avec le document.

● UnRiddle (https://www.unriddle.ai/) permet de créer une bibliothèque d’articles, puis de poser des questions et de générer un résumé pour chaque document. L’outil propose une extension Chrome pour résumer en un clic un document en ligne, mais aussi une fonctionnalité de visualisation des connexions entre les documents. L’outil existe en version gratuite, en version à 16 et 40 $/mois et 200 $/mois pour les équipes.

Comment intégrer ces outils à son activité ?

La place que vont prendre ces outils pour les professionnels de l’information est loin d’être évidente.

La bonne nouvelle, c’est qu’ils font office de moteurs de recherche tout en apportant une nouvelle façon de rechercher l’IST. Cela peut s’avérer intéressant pour repérer des articles que l’on n’aurait pas retrouvés avec une recherche classique dans ses outils habituels.

Comme les outils de recherche par citations puis ceux de dataviz pour l’IST, ces outils pourraient ainsi trouver leur place dans la boîte à outils du documentaliste, sans toutefois devenir le seul et unique point d’accès, comme certains de ces outils aimeraient nous le faire croire.

Voir nos articles :

« La recherche de citations et références boostée par l'IA et les 'Open Citations' », BASES N° 369, avril 2019 et « Les nouveaux outils de Dataviz pour explorer la littérature scientifique », BASES N°414, mai 2023

À titre d’exemple, un article intitulé « Collaborating with AI in literature search-An important frontier » publié dans la revue Hepatology Communications montre que l'utilisation d'Elicit lors d'une revue de littérature a permis de retrouver 37 articles supplémentaires par rapport à une recherche classique, tout en en manquant 20 autres qui ont été identifiés grâce à la recherche classique.

Il est difficile d’en recommander un plutôt qu’un autre. Du point de vue des fonctionnalités, nous aurions tendance à recommander Elicit, Scispace et RDiscovery. Mais pour ce qui est de la qualité des résultats proposés, c’est beaucoup plus compliqué. Même avec des corpus très similaires, ces outils produisent des résultats parfois très différents sur une même question. Et un même outil, sur différentes questions, peut tantôt proposer des résultats très pertinents et tantôt être proche de l’hallucination. On gardera en tête que ces outils sont de véritables boîtes noires et qu’on ne maîtrise pas la recherche comme on peut le faire sur les serveurs et bases de données.

De l’autre côté, ces outils vont être rapidement confrontés à plusieurs difficultés. Ils fonctionnent tous sur un modèle freemium et le coût peut vite devenir élevé si on souhaite en utiliser plusieurs. Et ces outils ont impérativement besoin de convertir un nombre important d’internautes aux versions payantes pour être viables. Or l’expérience de la première génération d’outils IA pour l’IST avec des outils de recommandations de contenus comme Meta, Sparrho, Semantic Scholar Assistant, Iris AI ou encore Keenious a montré que c’était loin d’être gagné. Ces outils n’ont jamais vraiment réussi à convertir les utilisateurs vers les versions payantes et répondaient finalement plus aux besoins des étudiants et doctorants qu’à ceux des experts.

Sur ce sujet, on conseillera la lecture de « The Business of Extracting Knowledge from Academic Publications » (2021). Il s’agit du témoignage d’une personne ayant développé un outil de recommandation de littérature biomédicale. Sa conclusion ? « l’extraction, la structuration ou la synthèse de «connaissances» à partir de publications universitaires (articles) ou la construction de bases de connaissances à partir d’un corpus de domaine n’ont qu’une valeur négligeable dans l’industrie ».

On peut aussi se demander quelle va être la viabilité de ces outils sur le moyen terme à l’heure où les acteurs classiques (moteurs académiques, serveurs, bases de données) commencent à intégrer des fonctionnalités d’IA, ce que nous regarderons plus en détail dans le prochain BASES.