
Figure 1. Panorama des outils IA pour l’IST par BASES PUBLICATIONS
Voici quelques spécificités :
Elicit est l’un des pionniers, apparu avant ChatGPT.
Depuis notre article Elicit, un nouveau moteur scientifique au banc d’essai, dans le numéro de BASES de juin 2022, l’outil est passé sur un modèle freemium et a ajouté de nouvelles fonctionnalités. Cet outil de recherche s’articule autour de trois grandes fonctionnalités, en plus de la recherche :
● Le résumé des quatre articles les plus pertinents et une liste d’articles brièvement résumés sous forme de tableau. Ce dernier présente un bref résumé, avec possibilité d’ajouter des colonnes de données extraites (plus de 40 paramètres) ;
● L’extraction de données depuis un PDF ;
● L’extraction des concepts, qui permet aux utilisateurs de rechercher dans un large corpus d’articles académiques et d’en extraire les thèmes discutés dans plusieurs articles.
Scispace est lui aussi apparu en 2022 (l’entreprise existe depuis 2015), mais a beaucoup évolué en 2023. Il fonctionne sur un modèle freemium avec un premier palier à 12$/mois. Scispace propose lui aussi les résultats sous forme de tableau.
En plus du moteur, Scispace permet également :
● D’extraire des données depuis un PDF (conclusions, références bibliographiques, etc.), résumer et poser des questions au document ;
● D’aider à la rédaction d’un article et/ou d’en améliorer le style et la grammaire ;
● De générer des citations au bon format ;
● De détecter si du contenu a été produit avec de l’IA générative.
Il propose enfin une extension Chrome qui permet de l’utiliser avec des articles scientifiques en ligne.
RDiscovery se présente comme le compagnon IA pour la revue de littérature. L’outil a un corpus intéressant et très diversifié, avec plus de 120 millions de documents, dont des articles, des brevets et des proceedings. Il bénéficie aussi de partenariats avec de nombreux acteurs comme Springer, Pubmed, ArXiv, Emerald, Taylor & Francis, OpenAlex, Sage, Crossref.
Il s’agit d’un moteur classique par mots-clés ou sujet(s), doté de filtres par institution, pays, langue, journal, sujet, etc.
Pour chaque article, il est possible de visualiser une version traduite, d’écouter l’article en audio et de visualiser des articles similaires.
L’IA générative se trouve essentiellement dans le nouvel outil associé, appelé Ask R Discovery. Il permet de poser des questions en langage naturel au lieu de lancer des recherches par mots-clés. Les résultats sont présentés sous forme de résumés et d’extraction des références pour des articles jugés pertinents et/ou similaires.
Les autres acteurs proposent globalement moins de fonctionnalités qu’Elicit, Scispace et Rdiscovery mais ont tout de même quelques particularités :
● MirrorThink (https://mirrorthink.ai/), outil gratuit, propose une interface similaire à celle d’un chatbot. L’outil permet aussi d’interroger le Web, intègre le moteur Wolfram Alpha pour certaines questions et est capable d’extraire des données comme les auteurs les plus cités, les noms d’organisations, etc.
● Epsilon (https://www.epsilon-ai.com/) sélectionne les 100 documents qu’il juge les meilleurs, génère un résumé automatique et fournit des liens vers les sources. L’outil propose une version gratuite et des versions à 9 $ et 19 $ par mois.
● OpenRead (https://www.openread.academy/) recherche sur plus de 300 millions d’articles scientifiques et académiques. Les résultats sont précédés d’un résumé généré par l’IA. Il est aussi possible de traduire les articles, charger et/ou dialoguer avec un document et de générer une dataviz pour mieux voir les liens entre les articles. L’outil existe en version gratuite, à 5 $/mois et à 20 $/mois.
● Skolar (https://skolar.ai/) est un outil de recherche IA qui permet de dialoguer avec les PDFs. Pour les chercheurs, l’outil a aussi un rôle d’aide à l’écriture d’articles et à la mise en page des citations. Il existe une version gratuite et une version à 8 $/mois.
● Consensus se focalise exclusivement sur la recherche et n’a donc pas véritablement de spécificité
Voir notre article « Consensus, un moteur académique dopé à l’IA », BASES, février 2023
Les outils de recherche thématiques
● System Pro (https://about.system.com/product/system-pro) se concentre exclusivement sur le médical avec le corpus de Pubmed. Il propose des résultats sous forme de tableau, une synthèse générée par l’IA à partir des 10 000 premiers résultats et une fonctionnalité de dataviz. Il existe une version gratuite et une version à 12 $/mois.
● Textlayer (https://textlayer.ai/search) s’intéresse à l’informatique et utilise ArXiv comme corpus. Il est disponible en version gratuite à 9 $/mois ou à 39 $/mois.
● Zeta Alpha (https://search.zeta-alpha.com/) qui se présente comme un outil de recommandation spécialisé sur l’IA et le machine learning.
● Summarize Paper (https://summarizepaper.com/) permet de rechercher des articles sur ArXiv, faire des résumés automatiques de la sélection et dialoguer avec les articles sélectionnés. Il est gratuit.
● Sourcely (https://www.sourcely.net/) s’adresse davantage aux étudiants qu’aux chercheurs. L’utilisateur entre son sujet, puis l’outil trouve les articles pertinents dans un corpus de plus de 200 millions de documents et fournit un résumé automatique pour chaque document (version pro). L’outil propose une version gratuite et une autre à 9 $/mois (87 $/an).
Les plug-ins ChatGPT et les GPTs personnalisés
Il existe également des plug-ins activables dans la version payante de ChatGPT. Ils permettent à cette dernière de se limiter à un corpus académique et peuvent inclure une dimension recherche et/ou résumé, dialogue et extraction d’informations.
Parmi eux :
● ScholarAI pour la littérature scientifique académique ;
● Xpapers pour les contenus d’ArXiv.
Avec l’apparition récente des GPTs personnalisés créés par les utilisateurs pour répondre à des besoins précis, on trouve aussi quelques outils comme :
● Academic Researcher (https://chat.openai.com/g/g-t8Qe4P5HU-academic-researcher);
● Academic Researcher GPT (https://chat.openai.com/g/g-q1J4VVfZo-academic-researcher-gpt) ;
● ArXiv Explorer (https://chat.openai.com/g/g-lvltTutYR-arxiv-explorer) ;
● Mixerbox Scholar (https://chat.openai.com/g/g-8Hpsk6WE2-mixerbox-scholar);
● Paper Analyzer (https://chat.openai.com/g/g-CZyjSRrxw-paper-analyzer);
● ScholarAI (https://chat.openai.com/g/g-L2HknCZTC-scholarai).
Les outils d’extraction, de résumé et dialogue
Les outils d’extraction, de résumé et/ou de dialogue ne sont pas connectés au Web et n’interagissent donc pas avec la littérature scientifique en ligne. Ils n’ont pas de corpus pré-intégrés, c’est à l’utilisateur de fournir son corpus en chargeant des articles.
● Scisummary (https://scisummary.com/) permet d’ajouter des articles (PDF, lien Web ou depuis sa bibliothèque Zotero) et de les faire résumer automatiquement par l’IA. L’outil propose une version gratuite, à 4,99 $/mois, à 8,99 $/mois et à vie pour 299,99 $.
● Lateral (https://app.lateral.io/) permet de charger plusieurs articles scientifiques en PDF, rechercher simultanément dans ces documents ou identifier un passage pertinent pour savoir s’il existe des passages sur un thème similaire dans les autres. Il fonctionne sur un modèle freemium avec un abonnement gratuit, un abonnement à 9,99 €/mois et un à 24,99 €/mois.
● ResearchAide (https://www.researchaide.org/) permet de charger des documents et articles scientifiques, de leur poser des questions et d’en extraire des données. Il propose une version gratuite, une version à 5,99 $/mois et une à 29,99 $/mois.
● Paperbrain (https://www.paperbrain.study/) permet de questionner les articles et de les charger en PDF.
● Explainpaper (https://www.explainpaper.com/) se donne comme mission de rendre plus simple la lecture d’articles scientifiques en expliquant et en vulgarisant les passages difficiles, ainsi qu’en dialoguant avec le document.
● UnRiddle (https://www.unriddle.ai/) permet de créer une bibliothèque d’articles, puis de poser des questions et de générer un résumé pour chaque document. L’outil propose une extension Chrome pour résumer en un clic un document en ligne, mais aussi une fonctionnalité de visualisation des connexions entre les documents. L’outil existe en version gratuite, en version à 16 et 40 $/mois et 200 $/mois pour les équipes.
Comment intégrer ces outils à son activité ?
La place que vont prendre ces outils pour les professionnels de l’information est loin d’être évidente.
La bonne nouvelle, c’est qu’ils font office de moteurs de recherche tout en apportant une nouvelle façon de rechercher l’IST. Cela peut s’avérer intéressant pour repérer des articles que l’on n’aurait pas retrouvés avec une recherche classique dans ses outils habituels.
Comme les outils de recherche par citations puis ceux de dataviz pour l’IST, ces outils pourraient ainsi trouver leur place dans la boîte à outils du documentaliste, sans toutefois devenir le seul et unique point d’accès, comme certains de ces outils aimeraient nous le faire croire.
Voir nos articles :
« La recherche de citations et références boostée par l'IA et les 'Open Citations' », BASES N° 369, avril 2019 et « Les nouveaux outils de Dataviz pour explorer la littérature scientifique », BASES N°414, mai 2023
À titre d’exemple, un article intitulé « Collaborating with AI in literature search-An important frontier » publié dans la revue Hepatology Communications montre que l'utilisation d'Elicit lors d'une revue de littérature a permis de retrouver 37 articles supplémentaires par rapport à une recherche classique, tout en en manquant 20 autres qui ont été identifiés grâce à la recherche classique.
Il est difficile d’en recommander un plutôt qu’un autre. Du point de vue des fonctionnalités, nous aurions tendance à recommander Elicit, Scispace et RDiscovery. Mais pour ce qui est de la qualité des résultats proposés, c’est beaucoup plus compliqué. Même avec des corpus très similaires, ces outils produisent des résultats parfois très différents sur une même question. Et un même outil, sur différentes questions, peut tantôt proposer des résultats très pertinents et tantôt être proche de l’hallucination. On gardera en tête que ces outils sont de véritables boîtes noires et qu’on ne maîtrise pas la recherche comme on peut le faire sur les serveurs et bases de données.
De l’autre côté, ces outils vont être rapidement confrontés à plusieurs difficultés. Ils fonctionnent tous sur un modèle freemium et le coût peut vite devenir élevé si on souhaite en utiliser plusieurs. Et ces outils ont impérativement besoin de convertir un nombre important d’internautes aux versions payantes pour être viables. Or l’expérience de la première génération d’outils IA pour l’IST avec des outils de recommandations de contenus comme Meta, Sparrho, Semantic Scholar Assistant, Iris AI ou encore Keenious a montré que c’était loin d’être gagné. Ces outils n’ont jamais vraiment réussi à convertir les utilisateurs vers les versions payantes et répondaient finalement plus aux besoins des étudiants et doctorants qu’à ceux des experts.
Sur ce sujet, on conseillera la lecture de « The Business of Extracting Knowledge from Academic Publications » (2021). Il s’agit du témoignage d’une personne ayant développé un outil de recommandation de littérature biomédicale. Sa conclusion ? « l’extraction, la structuration ou la synthèse de «connaissances» à partir de publications universitaires (articles) ou la construction de bases de connaissances à partir d’un corpus de domaine n’ont qu’une valeur négligeable dans l’industrie ».
On peut aussi se demander quelle va être la viabilité de ces outils sur le moyen terme à l’heure où les acteurs classiques (moteurs académiques, serveurs, bases de données) commencent à intégrer des fonctionnalités d’IA, ce que nous regarderons plus en détail dans le prochain BASES.
