Les universités américaines publient de grandes quantités de journaux et disposent également d’« entrepôts de données » bien garnis, mais ces informations ne sont pas facilement accessibles et il est exclu de les rechercher sur chaque site d’université.
Ce ne sont pas, en général, des articles « validés par les pairs » tels que ceux dont on trouve les références dans beaucoup de banques de données classiques. Mais ils ne sont pas, pour autant, sans intérêt, car on peut difficilement croire que ces publications sont des « revues prédatrices ».
Nous avons dans ce cadre identifié une source originale et peu connue, qui offre l’accès à des données produites par 655 universités grâce au Digital Commons Network.
On y trouve plus de 4,5 millions de documents en libre accès : articles, thèses et différents types d’ouvrages.
Il faut savoir que cela ne représente qu’une petite partie des informations publiées par les universités américaines dans leur ensemble, car elles sont plus de 4 000.
● Tous les documents auxquels on a accès sont disponibles gratuitement en texte intégral, le plus souvent en PDF, mais, dans quelques cas, il n’y a pas d’abstract.
● Outre le contenu essentiellement d’origine américaine, on trouve aussi un petit nombre de documents provenant d’universités non américaines situées en Colombie (documents en langue espagnole), en Irlande, en Australie ou à Singapour.
● On remarquera que, pour une fois, le contenu n’est pas quasi uniquement scientifique puisque les sciences humaines et sociales sont très fortement représentées.
Une des originalités de ce site est la possibilité de définir avec beaucoup de précision son domaine de recherche.
En effet, on dispose, à la connexion à partir d’un PC - mais pas à partir d’un téléphone/smartphone - d’une grande roue dans laquelle figure, sur trois niveaux, l’essentiel des thématiques académiques (voir Figure 1).
Figure 1 : La page d’accueil du Digital Commons Network présente les recherches sous forme de grande roue.
Déjà abonné ? Connectez-vous...
La fiabilité des sources est un critère essentiel pour les professionnels de la veille. En effet, ils doivent s’assurer que les informations qu’ils collectent sont exactes et fiables afin de pouvoir les transmettre à leurs clients.
Pour cela, ils vérifient davantage la fiabilité des sources en amont en bâtissant un dispositif solide, plutôt que via un «fact-checking après coup» des sources des informations. Cette opération serait en effet bien trop chronophage, le temps devant être consacré à la validation et l’analyse du contenu de l’information lui-même.
C’est ainsi que pour les zones géographiques que l’on maîtrise, on a son échelle de valeur de qualité des sources. Sur des zones que l’on connaît mal, c’est plus difficile.
Aujourd’hui, devant l’impact des IA génératives sur la chaîne de l’information et par souci d’exhaustivité, le veilleur n’a d’autre choix que d’explorer les solutions alimentées à l’IA. Il s’expose ainsi à une masse de contenu non fiable, en provenance des générateurs de texte comme ChatGPT ou Bard, ainsi que des moteurs de recherche dopés à l’IA comme Bing Chat ou Perplexity.
Pour en évaluer le contenu, ces textes générés par IA, dits « synthétiques », doivent être a minima vérifiables. Pour cela, trois éléments sont à vérifier : la source, les faits et leur interprétation. Or, non seulement l’IA génère de fausses informations, mais elle ne permet pas actuellement de les vérifier. Ce faisant, elle va jusqu’à inverser le rapport au temps du veilleur entre la production d’une analyse (qui devient très rapide) et sa vérification (chronophage).
Tout d’abord, que deviennent les sources à l’heure de l’IA et comment sont-elles traitées par l’IA ?
Traditionnellement, les sources apparaissent sous forme de liens enrichis de snippets - avec des informations complémentaires - dans les moteurs de recherche. Et la recherche entre différentes sources permet de dresser sa propre analyse. Avec l’IA, c’est cette dernière qui fait la recherche à la place de l’utilisateur et lui fournit une réponse. Dans l’absolu, ce n’est donc pas un outil de recherche.
Pour répondre à une question posée, les IA génératives actuelles donnent une réponse sur un ton assertif, mais qui n’est pas vérifiable, là où un moteur de recherche traditionnel ne donne pas de réponse claire, mais plein de sources pour se faire son propre avis.
Lorsque l’on demande une information à ChatGPT, Bard ou aux moteurs de recherche IA, la réponse est instantanée et se suffit à elle-même. Qu’il s’agisse d’une analyse, d’un résumé ou d’une simple requête pratique, les sources s’invisibilisent : les liens sont absents, peu visibles ou même incohérents.
Du côté des générateurs de texte, ChatGPT ne cite pas ses sources (Cf. Figure 1.) et Bard se contente de proposer des recherches complémentaires sur Google, sous forme de boutons. Il y a au moins deux raisons à cette invisibilité :
Déjà abonné ? Connectez-vous...
Parmi les outils IA, ceux qui proposent la fonctionnalité de Text-to-Speech (ou Text to Voice) représentent un gain de productivité. On les utilise pour écouter ses sources, ou pour faire écouter son livrable en format audio.
Nous en avons sélectionné quatre, en accès gratuit ou freemium, parmi une vingtaine d’outils explorés.
Nous les avons choisis pour la qualité du son généré par IA, c’est-à-dire le plus proche possible de la voix humaine, et pour la richesse de ce qu’ils offrent déjà dans leur version gratuite.
ElevenLabs, le plus reconnu (freemium)
ElevenLabs est sans conteste celui qui produit la meilleure qualité de voix pour générer un livrable en contenu audio dans plusieurs langues.
C’est aussi le plus généreux dans sa version gratuite puisqu’il offre 10 000 signes/mois à lire (c’est la longueur moyenne d’un article de NETSOURCES), par extraits de 2500 signes maximum (espaces compris), que l’on peut télécharger au format MP3. Ce qui permet un usage régulier.
Surtout, dans la version gratuite, on peut :
Déjà abonné ? Connectez-vous...
Il existe de très nombreuses banques de données bibliographiques de littérature scientifique. Selon les cas, les possibilités de recherche sont plutôt rustiques ou, au contraire, plus ou moins sophistiquées (indexation, opérateurs de proximité, troncatures, conversion des orthographes américaine et anglaises, reconnaissance des abréviations, recherche sur des valeurs numériques, liens citants/cités, recherche par structures chimiques, recherche dans plusieurs banques de données à la fois…).
Europe PMC va plus loin même si elle n’offre pas toutes ces possibilités et nous n’hésitons pas à la qualifier de banque de données augmentée car elle permet, d’une part, de focaliser la recherche sur certaines parties d’un article, par exemple les éléments de méthodologie ou les figures. Elle permet aussi, ce qui est original, d’établir, à partir du contenu d’une référence des liens avec plusieurs banques de données externes plutôt factuelles/numériques, spécialisées dans le domaine des sciences de la vie telles que ChEMBL-small molecules ou MGnify-Metagenomics.
Commençons par le contenu, totalement en open access qui est très diversifié tout en restant centré sur les sciences de la vie.
Europe PMC présente, d’une part, ses contenus d’une façon globale, chiffres régulièrement mis à jour :
PUBLISHER:"nice" OR PUBLISHER:"national institute for health and clinical excellence" OR PUBLISHER:"national institute for health and care excellence"
Figure 1. Interface de Europe PMC
La deuxième façon de présenter le contenu est aussi plus opérationnelle puisqu’elle permet de sélectionner une ou plusieurs source(s) parmi celles présentées dans une liste.
Déjà abonné ? Connectez-vous...
Sur Dialog, nous effectuons en général, pour commencer, une recherche sur l’ensemble des banques de données disponibles et, dans un deuxième temps, sélectionnons, au vu des résultats, les banques de données dans lesquelles nous allons poursuivre la recherche.
Voilà un moment que, sur Dialog, nous avions remarqué qu’il arrivait souvent qu’une référence d’Embase (coût 13,24 $) apparaisse alors que la référence au même document dans Medline (coût 3,29 $) était également disponible sur le serveur.
Bien sûr, ces deux bases de données ne sont pas identiques, mais les références communes sont nombreuses et si les abstracts semblent identiques pour ces références communes, les indexations sophistiquées sont propres à chaque base.
Nous avons enfin fini, grâce au service assistance, par comprendre le mécanisme et pouvoir choisir d’obtenir la référence issue de Medline plutôt que celle issue d’Embase.
Dans nos paramètres de recherche (à droite de l’écran), l’option « supprimer les doublons » est activée en permanence, ce qui semble logique, le système choisit alors la référence qui est entrée la première dans Dialog, alors que nous pensions que le choix se faisait en respectant « l’ordre des bases de données préférées » qui figure également à la droite de l’écran. Nous avions préalablement défini cet ordre en mettant en première position « Publicly available content » qui est gratuite et, juste après Medline, Embase arrivant plus loin.
Déjà abonné ? Connectez-vous...
Cela fait plusieurs années que Questel n’avait pas organisé physiquement une réunion d’utilisateurs comme c’était le cas auparavant, ce qui a fait que celle organisée récemment a été fort bien accueillie.
Pendant ce temps, la vie ne s’est pas pour autant arrêtée pour Questel, qui a continué ses acquisitions de sociétés dans le domaine de la propriété intellectuelle, 18 en cinq ans, portant le groupe à un effectif de 1 700 salariés.
Ces acquisitions ont conduit Questel à ne plus être juste un fournisseur de logiciel mais une plateforme de gestion de la propriété intellectuelle au service de tous types de professionnels de la propriété intellectuelle. Questel définit maintenant sa mission de la façon suivante : « répondre à tous les besoins au long du cycle de vie des titres de propriété intellectuelle ». Cela se traduit par une proposition d’externalisation de la plupart des actes administratifs dans la gestion d’un portefeuille de brevets, en liaison avec le conseil en propriété intellectuelle ou l’expert interne.
Ces actes administratifs concernent en particulier la gestion des paiements des annuités, les entrées en phase nationale des PCT, les traductions, etc.
Questel propose pour cela aux grandes entreprises la plateforme EQUINOX qui est un système d’IPMS (Intellectual Property Management System) développé par la société anglaise du même nom dans laquelle Questel a pris une participation majoritaire en 2022.
L’autre point que l’on retiendra de cette journée est le développement de l’utilisation de l’intelligence artificielle dans l’offre Questel. Nous avons échangé à ce sujet à l’issue de la réunion avec Benoit Chevalier qui est Customer Success & Marketing Director.
Déjà abonné ? Connectez-vous...
Ne dites plus « lecteurs de flux RSS » mais « lecteurs d’information » ou « App d’actualité ». Nouvelles applis, nouvelles fonctionnalités, nouveaux looks, nouvelles promesses… Au cours de leur veille outils, les professionnels de l’info ont vu apparaître dernièrement de nouveaux acteurs, avec un discours marketing prometteur. Les lecteurs se moderniseraient-ils au point de gagner en notoriété ? Faut-il se préparer à remplacer Feedly ou Inoreader ? C’est à ces questions que nous nous proposons de répondre.
Apparues dans le sillage du déploiement de l’IA à grande échelle, ces plateformes sont de deux natures différentes. Il y a celles qui se présentent comme des « apps d’actualité », conçues pour être consultées principalement ou uniquement sur mobile, et celles qui se présentent davantage comme des lecteurs RSS consultables sur le web, même si leur fonctionnement est parfois différent.
Si leur défi d’apparaître (enfin!) comme une solution face à la « fatigue informationnelle » qui touche le grand public réussit, cela pourrait normaliser l’usage des lecteurs et créer le réflexe du grand public de centraliser son actualité pour mieux s’approprier l’information. Un rêve éveillé pour les veilleurs souvent seuls à s’émerveiller devant le potentiel d’un lecteur de flux RSS.
Et si les lecteurs RSS reviennent sur le devant de la scène auprès du grand public, cela entraînerait aussi des conséquences positives pour les professionnels car cela pourrait engendrer de nouveaux développements : des sites qui remettent du RSS, de nouveaux outils et nouvelles fonctionnalités, etc. En attendant, qu’ont-elles vraiment à offrir aux veilleurs, grands consommateurs d’information ?
Lire aussi :
Maîtriser le RSS, le socle inamovible de la veille (Netsources N° 159 - juil/août 2022)
Comment choisir la méthode la plus adaptée pour mettre une source en veille à partir d'un flux RSS ? (Netsources N° 159 - juil/août 2022)
Comment récupérer un flux RSS sur les moteurs web et Google Actualités ? (Netsources N° 159 - juil/août 2022)
Comment récupérer des flux RSS sur les réseaux sociaux ? (Netsources N° 159 - juil/août 2022)
Comment transformer une newsletter en flux RSS ? (Netsources N° 159 - juil/août 2022)
Comment récupérer un flux RSS sur la majorité des sites web ? (Netsources N° 159 - juil/août 2022)
Quel lecteur de flux RSS choisir en 2020 ? (Bases N° 384 - sept 2020)
Sur quoi se basent ces outils pour réenchanter l’information ? Mode de consultation épuré inspiré de celui des réseaux sociaux, ouverture des formats d’intégration des RSS aux APIs, fonctionnalités IA qui facilitent la consultation des corpus… voici les pistes que nous avons relevées après avoir testé une dizaine d’outils, notamment Artifact, Informed, Feeeed, Apricot, Gistreader, Readwise Reader, etc.
L’ambition la plus forte est celle d'Artifact. Il s'agit de « créer un réseau social de l’information ». Avec cette promesse de créer un espace dédié à l’information, où le public passerait autant de temps et serait aussi engagé que sur les réseaux sociaux, l'appli - disponible uniquement en téléchargement sur mobile - a fait l’objet de relais uniques à l’échelle internationale, tant dans la presse techno que dans la presse généraliste.
Figure 1. Configuration graduelle sur Artifact pour alimenter son algorithme, sous forme de Bonus à gagner.
La raison d’un tel engouement ? Ses fondateurs ne sont autres que ceux d’Instagram : Kevin Systrom and Mike Krieger. De quoi rendre Artifact, et tous ses lecteurs avec, un espace déjà plus trendy qu’Inoreader ou Feedly… avant même de l’avoir testé.
Déjà abonné ? Connectez-vous...
Pour ce nouvel article de « Focus IA », nous avons décidé de nous intéresser spécifiquement aux outils qui permettent de résumer et d’interroger des vidéos YouTube.
Nous avons identifié une vingtaine d’outils répondant à nos critères et nous les avons tous testés sur quatre vidéos : une vidéo d’actualité en français émanant d’un grand média français et une autre en anglais émanant d’un média américain, un webinaire d’une heure proposé par un éditeur de veille en français et enfin une vidéo tech en anglais recommandant plusieurs extensions ChatGPT.
Parmi la vingtaine d’outils, nombreux sont très décevants mais quatre sortent du lot et produisent des résultats intéressants pour les professionnels de l’information. Voici notre sélection !
Lire aussi :
Les meilleurs outils IA pour résumer et interroger les contenus de la veille (Netsources N° 164 - mai/juin 2023)
Notre sélection d’annuaires d'outils IA - Article en accès libre (Bases N° 414 - mai 2023)
Comment intégrer YouTube dans votre dispositif de veille (Netsources N° 157 - mars/avril 2022)
Nous avons testé Azure Video Indexer, un outil puissant pour les transcriptions automatiques de vidéos et podcasts (Bases N° 403 - mai 2022)
Attention : Même si ces outils « hallucinent » beaucoup moins que ChatGPT, ils ne sont pas exempts d’erreurs et approximations. Il est nécessaire de toujours revérifier les informations de ces outils si on souhaite les réutiliser par la suite.
Déjà abonné ? Connectez-vous...
Sur le Web, les commentaires publiés sous des articles, billet de blogs et sous les posts des réseaux sociaux peuvent parfois receler de véritables pépites mais ce sont des contenus difficiles à intégrer dans ses veilles et recherche d’information. En effet, on peut ponctuellement avoir besoin de plonger dans les commentaires sur les réseaux sociaux, par exemple pour une étude d’image, pour obtenir des informations complémentaires à l’article lui-même, pour y trouver des réponses, pour les analyser en vue d’une étude ou les sauvegarder en vue d’un usage futur.
Mais comment extraire les commentaires associés à un tweet sur Twitter, ou à un post sur Facebook, Instagram, LinkedIn, YouTube et les autres surtout quand ils sont nombreux et qu’on on ne dispose pas de budget ni d’un besoin suffisant pour acquérir une grosse plateforme payante ? Nous avons choisi ici l’angle des outils gratuits ou peu onéreux car l’extraction de commentaires ne représente souvent qu’un besoin ponctuel pour les professionnels de l’information et ne justifie donc pas l’acquisition d’une plateforme très onéreuse.
C’est ce que nous avons exploré dans cet article en testant différentes méthodes et outils et en vous proposant la meilleure issue de nos tests.
Lire aussi :
Comment surveiller Twitter après la fermeture en cascade des outils dédiés ? (Bases N° 413 - avril 2023)
Réussir à utiliser LinkedIn pour la veille et la recherche d’information (Netsources N° 158 - mai/juin 2022)
Veille Instagram : quoi, comment, pour quoi faire ? (Netsources N° 158 - mai/juin 2022)
Comment intégrer YouTube dans votre dispositif de veille (Netsources N° 157 - mars/avril 2022)
Facebook : toutes les clefs pour ouvrir ce coffre bien fermé à la veille ou la recherche (Netsources N° 158 - mai/juin 2022)
Nous avons choisi de tester les méthodes et outils à partir des réseaux sociaux suivants :
À chaque fois, nous avons testé les outils sur des publications qui avaient une centaine de commentaires.
La méthode la plus simple et ne nécessitant pas l’utilisation d’outil externe consiste tout simplement à se positionner sur le post qui nous intéresse puis de copier-coller dans un fichier texte (Word) ou tableur (Excel par exemple) l’ensemble des commentaires.
Notre avis
Point positif, c’est la seule méthode qui ne nécessite pas l’usage d’outils externes. Cela peut fonctionner, mais c’est très chronophage quand il y a beaucoup de commentaires et il y a un très gros travail de reformatage pour réussir à obtenir des données véritablement exploitables. On ne recommandera pas cette méthode.
Passons maintenant aux outils dont le rôle principal est justement d’exporter les commentaires depuis les réseaux sociaux.
Certains sont multi-réseaux sociaux (sauf pour LinkedIn) comme Export Comments ou Comment Picker.
On trouve également des outils spécialisés sur l’exportation de commentaires depuis un réseau social spécifique :
On notera que la fin de la gratuité de l’API Twitter a mis un coup d’arrêt à la plupart des outils d’export pour ce réseau et il n’en reste aujourd’hui que très peu, souvent payants.
Déjà abonné ? Connectez-vous...
Il y a quelques années, on avait pu voir émerger des outils d’exploration des réseaux de citations des articles scientifiques. Ces outils s’avèrent très utiles pour trouver des articles scientifiques pertinents que l’on n’aurait pas forcément identifiés lors d’une recherche par mot-clé classique et sont donc complémentaires aux moteurs académiques.
Parmi cette première génération d’outils, il existait deux grandes catégories : ceux qui étaient visuels proposant donc une représentation graphique, et ceux qui étaient uniquement textuels
Voir notre article « La recherche de citations et de références boostées par l’IA et les “open citations” », Bases N° 369 - avril 2019.
Si les outils textuels ont bien résisté et ont aujourd’hui une place de choix dans le paysage de l’IST, les outils visuels n’ont pour la plupart pas eu le même destin. Parmi les outils de dataviz de première génération, on comptait des acteurs comme Citigraph, Yewno ou encore Citation Gecko, qui ont tous fermé leurs portes. Dans cette catégorie, seul VosViewer continue sa route et a été intégré très discrètement au moteur académique Dimensions.
Au cours des deux dernières années, une nouvelle génération d’outils visuels d’exploration des réseaux de citations est apparue, avec une petite dizaine d’acteurs cette fois-ci, toujours portée par l’amplification du mouvement de l’open (open access et open citations) dans le monde académique.
Dans cet article, nous dressons un panorama de ces différents outils et de leurs spécificités. Nous les avons également tous testés pour évaluer leur performance et vous aider à faire le bon choix.
Au cours des dernières années, nous avons pu noter l’apparition d’une petite dizaine d’acteurs proposant de rechercher et analyser les réseaux de citations des articles scientifiques façon dataviz. On retrouvera ces différents acteurs dans l’infographie en figure 1. À cette liste s’ajoutait CoCites, un outil intéressant lancé en 2020, mais qui a cessé de fonctionner suite au décès de son créateur.
Si au départ, tous les outils de ce type étaient entièrement gratuits, force est de constater que les modèles ont rapidement évolué. On a d’un côté des outils complètement gratuits, souvent des projets personnels réalisés sur le temps libre qui revendiquent leur appartenance au mouvement de l’open et s’engagent à rester gratuits et de l’autre des outils qui sont devenus des produits à part entière avec des équipes derrière et qui fonctionnent sur des modèles freemiums.
Déjà abonné ? Connectez-vous...