Eutopia est l’une des 44 alliances labellisées « Université Européenne » par la Commission européenne et vient de lancer un portail avec les publications de ses membres. Elle regroupe dix universités (pour un total de 100 facultés), dont celle de Cergy, en France.
Le portail commun à l’alliance (https://eutopia.openaire.eu/) suit deux objectifs majeurs :
1. Faciliter la visibilité des productions scientifiques et des chercheurs de l’alliance ;
2. Fluidifier le travail au sein de l’alliance.
Ce portail recueille, à l’heure où nous imprimons, plus de 570 000 publications (dont plus de 368 000 ouvertes) et 21 000 datasets de recherche. L’alliance est généraliste et le portail couvre donc de nombreux domaines, des mathématiques aux sciences naturelles en passant par la médecine ou l’informatique.
Lire aussi :
Le Canada explore un portail pour accéder aux résultats de la recherche canadienne
Pour réaliser le portail, les universités ont utilisé OpenAire, la plateforme européenne d’accès aux publications et datasets pour une science ouverte. C'est aujourd'hui une source importante pour trouver de l’information scientifique et académique et dont nous avons eu l’occasion de parler à plusieurs reprises dans BASES et NETSOURCES.
On notera que les publications présentes sur Eutopia alimentent également la plateforme générale OpenAire, de façon automatique.
Déjà abonné ? Connectez-vous...
On a pu assister ces dernières années à des progrès spectaculaires dans le traitement et l’exploitation des données : traitement du langage, analyse sémantique, réseaux de neurones ou IA, pour n’en citer que quelques-uns. Le monde du brevet n’échappe pas à cette tendance, et on a pu voir au cours des dernières années plusieurs initiatives dans les domaines de la traduction, de la classification automatisée ou de la recherche.
IPRally dont nous avons eu l’occasion de parler en détail dans le n° 395 de BASES de septembre 2021 est d’ailleurs un exemple concret de l’application de ces nouvelles technologies au service de la recherche dans les bases de données.
Sur quelles thématiques travaillent aujourd’hui les spécialistes du domaine ? Quelles futures révolutions nous attendent dans les années à venir pour la veille et la recherche d’information brevet ?
C’est ce que nous avons essayé de déterminer dans cet article avec une approche qui nous a paru originale : aller regarder dans les brevets eux-mêmes «ce qui les attend» à plus ou moins long terme - autrement dit , essayer de lire l’avenir du brevet en tant qu’objet d’innovation dans les brevets eux-mêmes.
Lire aussi :
Déterminer la valeur d’un brevet : des outils stratégiques pour l’entreprise
Nous avons testé IPRally, l'outil qui veut révolutionner la recherche brevets avec de l'IA
Espacenet, un acteur clé en mutation
The Lens, un outsider au fort potentiel pour la recherche brevet gratuite
En effet, les techniques évoquées plus haut (IA, analyse sémantique, etc.) peuvent faire, dans certains pays, l’objet de dépôt de demande de brevet.
Afin de garder le contact avec la réalité du terrain, nous avons complété notre interrogation brevets par l’avis d’un expert, Chief Product Officer de Questel-Orbit, sur sa vision du futur de la recherche brevet.
Nous avons utilisé une combinaison des bases brevet Espacenet et d’Orbit Intelligence pour mener à bien notre recherche et l’analyse consécutive.
Déjà abonné ? Connectez-vous...
L’heure est indéniablement aux bonnes nouvelles du côté des moteurs. Alors qu’il n’y avait jusqu’à présent aucune alternative crédible à Google sur le terrain des moteurs Web pour la veille et la recherche d’information professionnelle, on voit enfin arriver sur le marché une nouvelle génération de moteurs en phase avec les problématiques des professionnels de l’information.
Après le lancement du très prometteur Neeva (voir notre article « Nous avons testé Neeva, le moteur qui pourrait remplacer Google chez les pros de l’info » - BASES n°406 - septembre 2022) voici venir un autre moteur tout aussi intéressant appelé Kagi Search (https://kagi.com/).
Kagi a lui aussi opté pour un positionnement où la qualité des résultats et de la recherche et le respect de la vie privée priment. Et ce choix passe également par un modèle économique freemium.
Dans cet article, nous présentons en détail ce nouveau moteur, son positionnement et ses fonctionnalités et nous évaluons sa capacité à intégrer la panoplie des veilleurs et des professionnels de l’information.
Lire aussi :
Nous avons testé Neeva, le moteur qui pourrait remplacer Google chez les pros de l’info
Utiliser la fonctionnalité Goggles de Brave Search en complément de Google CSE
Nous avons testé Yep.com, un nouveau moteur de recherche à l’index maison
Kagi Search (cf. Figure 1. Interface de Kagi Search) a été lancé en bêta publique le 2 juin dernier et a de nombreux points communs avec le moteur Neeva:
Un moteur sans publicité ;
Mais au-delà de ces grands traits communs, Kagi Search a sa propre identité qu’il convient de bien comprendre avant de l’utiliser.
Déjà abonné ? Connectez-vous...
Elsevier vient d’annoncer le lancement de la base de données Embase Preprints.Cette base propose des documents de travail et preprints issus des deux principaux sites de preprints dans le domaine biomédical à savoir MedRXiv et, depuis décembre 2021, BioRXiv.
Un algorithme d’indexation automatique permet d’affecter à chaque document l’essentiel de l’indexation du thesaurus EMTREE propre à Embase.
La mise à jour se fait tous les jours de la semaine.
Elsevier tient à garder la différence de nature entre les contenus d’Embase et ceux d’Embase Preprints. En effet, les alertes d’Embase n’incluront pas automatiquement les mises à jour d’Embase Preprints ; il reste la possibilité, bien sûr, d’enregistrer une alerte dans chaque base.Mise à part la création de cette base, il faut signaler qu’un nombre croissant de bases offrent des références de preprints.
Nous avons fait un test pour voir si les preprints de Medrxiv étaient bien référencés dans Embase Preprints.
Nous avons choisi la stratégie qui combinait dans le titre le terme COMIRNATY
ou BNT162b2
qui est son synonyme pour le premier semestre 2022. Ces termes sont les noms du vaccin anti-covid de Pfizer. Dans Medline, nous avons trouvé avec cette stratégie neuf documents issus de Medrxiv. Nous avons vérifié que ces neuf documents étaient bien présents parmi les 170 documents trouvés avec cette stratégie dans Embase Preprints, ce qui était bien le cas.
Le lancement de cette base confirme bien que le biomédical est un axe fort pour Dialog.
Embase avait annoncé en 2019 (BASES n° 371, juin 2019) le lancement d’un module baptisé Embase French Literature proposant plusieurs dizaines de milliers d’articles provenant d’une centaine de publications françaises.
À l’époque il fallait, pour y accéder, avoir souscrit un contrat d’accès illimité à Embase. Puis début 2021 (BASES n° 389, février 2021), ce module était passé en libre accès avec Embase.
Cette solution n’a pas dû paraître assez rentable à Elsevier puisque les conditions d’accès sont maintenant redevenues celles du lancement, c’est-à-dire le nécessité d’avoir un contrat d’accès illimité.
Par ailleurs, et sans doute à cause du basculement des banques de données hébergées jusque-là par FIZ Karlsruhe vers Chemical Abstracts, STN a pour le moment d’autres priorités que de s’occuper de ces (relativement) nouvelles bases.
Les 400 clients de FIZ Autodoc ont reçu un mail leur annonçant la fermeture du service à la fin de l’année.
Ce service est, ou était, l’un des rares services européens de fourniture de documents primaires après la disparition du service de l’INIST aux entreprises. FIZ Autodoc (https://autodoc.fiz-karlsruhe.de/) sous-traitait d’ailleurs une partie de ses prestations à des « confrères » comme la British Library ou l’américain Reprints Desk…
Auparavant, déjà, la possibilité de voir les prestations de FIZ Autodoc imputées sur la facture STN, ce qui était bien pratique, avait disparu au début de l’année.
Cet arrêt du service tient très vraisemblablement au désengagement de FIZ dans STN, les bases présentes sur FIZ ayant vocation à basculer sur les serveurs de l’American Chemical Society, qui reste le seul opérateur de ce serveur, à l’origine une association entre l’allemand FIZ Karlsruhe et l’American Chemical Society, rejoints pendant quelques années par le japonais JICST.
FIZ Autodoc propose à ses futurs ex-clients de basculer chez Reprints Desk auprès duquel il sous-traitait déjà des recherches de documents primaires. Ces clients auront le choix de garder le même système de facturation, ou d’adopter celui de Reprints Desk, globalement plus intéressant financièrement, nous disent-ils. Reprints Desk est connu pour sa plateforme Article Galaxy qui permet de gérer de façon optimisée les commandes de documents primaires à l’échelle d’une entreprise avec certaines fonctionnalités intégrées permettant de réduire les coûts.
Il faut dire que le choix d’un prestataire global se réduit singulièrement. Reste encore la plateforme Rightfind (ex-Infotrieve), concurrente de Reprints Desk (et rappelons-le, filiale du CCC (Copyright Clearance Center). On peut mentionner aussi GKDocuments, un fournisseur américain, qui limite explicitement les documents au destinataire de la commande avec interdiction de rediffusion.
Autre possibilité : la commande chez l’éditeur, les conditions étant un peu différentes d’un éditeur à un autre. On peut, le plus souvent, acheter à l’unité avec une carte de crédit. C’est souvent moins cher que de passer par un intermédiaire, mais cela prend plus de temps, multiplie les factures et tous les chercheurs n’ont pas de carte de crédit au sein d’entreprise.
Cela fait des années que le mouvement de l’open dans le monde scientifique et académique ne cesse de prendre de l’ampleur : l’open access d’abord puis l’open citations, mais aussi l’ouverture des données de la recherche,
Pour rappel, les données de la recherche correspondent à « l’ensemble des informations collectées, observées ou créées sous une forme numérique ou non, par les chercheurs dans le cadre d’un projet de recherche et à partir desquelles ils bâtissent leurs hypothèses. » (source : https://bu.univ-amu.libguides.com/donneesrecherche/definition-DR).
Il n’existait pas jusqu’ici d’initiative nationale pour la diffusion et la recherche des données de la recherche française (alors qu’il existe depuis des années un portail national pour les données publiques issues des collectivités et de l’État appelé data.gouv.fr). C’est désormais chose faite avec le lancement le 8 juillet dernier de la plateforme Recherche Data Gouv (https://entrepot.recherche.data.gouv.fr/).
Pour les chercheurs et acteurs de la recherche française, la plateforme a plusieurs buts : donner une meilleure visibilité aux données de la recherche française et plus largement à la recherche française en général, mais aussi proposer « une solution souveraine permettant à la recherche française de conserver la maîtrise des données qu’elle produit ».
Pour les professionnels de l’information et de la veille, cela ouvre surtout la possibilité de retrouver en un seul et même endroit des données qui n’étaient par le passé pas diffusées ou bien dispersées dans différents entrepôts de données.
À ce jour, Recherche Data Gouv contient un peu plus de 400 dataverses (c’est-à-dire des entrepôts thématiques qui peuvent être spécialisés sur un thème bien précis, correspondre aux données produites par un laboratoire de recherche ou bien à toutes les données produites par un organisme ou une université) et plus de 1 600 datasets (les fameux jeux de données).
Déjà abonné ? Connectez-vous...
Cela fait 20 ans que de nouveaux moteurs apparaissent avec pour ambition de concurrencer voire détrôner Google. Et pratiquement tous ont le même créneau : le respect de la vie privée, domaine où il est clair que Google n’excelle pas.
Quand on recherche de l’information dans un contexte professionnel, le respect de la vie privée est certes important, mais il faut aussi pouvoir obtenir des résultats pertinents et de qualité et avoir à disposition des fonctionnalités de recherche dignes de ce nom. Et c’est malheureusement rarement le cas des différents moteurs que nous avons pu tester ces dernières années tels que Qwant, DuckDuckGo, Yep.com ou encore You.
Un nouvel entrant pourrait bien venir changer les règles du jeu dans le monde des moteurs grâce à sa bonne compréhension des requêtes et la qualité de ses résultats.
Il s’agit du moteur Neeva qui arrive enfin en Europe après avoir été lancé aux États-Unis en 2021. Et le moins que l’on puisse dire, c’est que ce moteur a de très nombreuses qualités, allant de la longue expérience de ses fondateurs chez Google à des fonctionnalités qui servent vraiment les professionnels de l’information.
Dans cet article, nous présentons tout ce qu’il y a à savoir sur Neeva et les résultats de nos différents tests pour comprendre le positionnement du moteur, ses forces, faiblesses et la place qu’il pourrait avoir dans le quotidien du professionnel de l’information.
Il est important de noter que Neeva se positionne avant tout comme un produit où la recherche d’information est clé. Le but étant que l’utilisateur y trouve les informations qu’il cherche sans être pollué par la publicité.
Cela peut paraître une évidence pour un moteur de recherche, mais cela reste finalement assez rare de nos jours avec d’un côté Google qui est avant tout préoccupé par sa rentabilité et de l’autre des moteurs qui misent tout sur le respect de la vie privée et le fait de replanter des arbres, mais qui s’intéressent finalement assez peu à la pertinence et la qualité des résultats.
Comprendre Neeva, c’est d’abord s’intéresser aux profils de ses fondateurs.
Les deux fondateurs ont occupé des postes prestigieux chez Google pendant des années : L’un d’eux Sridhar Ramaswany a été à la tête de la division publicité (« Ad ») pendant près de 15 ans tandis que Vivek Raghunathan a travaillé sur Google Search et YouTube.
Ils ont été à bonne école, mais ont fini par ne plus se reconnaître dans le système proposé par Google qui allait finalement toujours plus à l’encontre de leurs valeurs.
La lecture des nombreuses interviews des fondateurs dans la presse anglo-saxonne permet de bien comprendre les motivations à l’origine de Neeva et d’en savoir un peu plus sur le Google d’aujourd’hui.
Neeva, c’est finalement un retour aux valeurs de Google à ses débuts.
Dans un article de recherche publié en 1998, les deux fondateurs de Google alors doctorants à l’université de Stanford, Larry Page et Sergey Brin, écrivaient alors que « les revenus publicitaires incitent souvent à fournir des résultats de recherche de mauvaise qualité » . Or c’est exactement ce que fait Google aujourd’hui…
On apprend également dans certaines interviews des fondateurs de Neeva que chez Google le nombre de personnes travaillant sur Google Search n’est pas si important. Il y a proportionnellement plus de personnes travaillant dans le département Publicité.
Les fondateurs de Neeva, quant à eux, ne veulent pas reproduire la même erreur. Ils sont en effet convaincus que les moteurs soutenus par la publicité font invariablement reculer et disparaître les résultats de qualité au profit de contenus publicitaires et que cela contraint les entreprises à prioriser les profits au détriment du respect de la vie privée.
On retiendra donc des différentes interviews des fondateurs que Neeva a deux grandes ambitions :
En 2022, Neeva a annoncé développer son propre index avec son crawler Neevabot.
Déjà abonné ? Connectez-vous...
Le moteur Brave fait partie des moteurs prometteurs à avoir dans sa boîte à outils de recherche.
Il a récemment introduit une fonctionnalité intéressante appelée « Goggles », permettant à tout internaute de créer un moteur pour rechercher sur des corpus de sources personnalisés.
Les moteurs personnalisés sont une véritable aubaine pour les professionnels de l’information et de la veille et on note d’ailleurs un regain d’intérêt pour ces outils, comme en témoigne le lancement de cette fonctionnalité chez Brave, les possibilités de personnalisation chez Neeva ou encore le lancement de l’Atlas.pro
Voir nos articles « Nous avons testé Neeva, le moteur qui pourrait remplacer Google chez les pros de l’info » et « Nous avons testé Latlas.pro, un nouveau moteur de recherche thématique personnalisable », BASES n° 402, avril 2022.
Tous ces outils et fonctionnalités ne sont d’ailleurs pas sans rappeler le moteur personnalisé proposé par Google appelé Google CSE, qui existe toujours et qui vient d’ailleurs de rajeunir son interface. Créer un moteur personnalisé sur Brave n’est malheureusement pas aussi simple que la création du moteur CSE sur Google, mais ce n’est pas insurmontable.
Dans cet article, nous vous expliquons pas à pas comment créer vos propres corpus de recherche sur Brave et nous évaluons la valeur ajoutée de ces moteurs personnalisés par rapport à Google CSE.
Lire aussi :
Brave Search, You et Presearch : les nouveaux moteurs passés au crible
Nous avons testé Yep.com, un nouveau moteur de recherche à l’index maison
Nous avons testé Latlas.pro, un nouveau moteur de recherche thématique personnalisable
Faut-il préférer l’opérateur site: de Google ou la création d’un moteur CSE ?
Cela faisait un moment que Brave évoquait la mise en place de filtres permettant de ne faire porter sa recherche que sur une sélection de sources. La fonctionnalité est finalement sortie en version bêta au printemps dernier.
Elle s’appelle Goggles, ce qui n’est pas sans créer une certaine confusion avec le célèbre moteur américain. Peut-être est-ce d’ailleurs fait à dessein, mais en tout cas Goggles signifie surtout lunettes de protection en anglais ce qui transcrit bien cette image de filtrage des résultats.
Concrètement, l’utilisateur va classiquement lancer sa recherche dans le moteur puis va sélectionner l’onglet Goggles et choisir sur quel corpus faire porter sa requête :
Déjà abonné ? Connectez-vous...
Zendy est un moteur académique qui a été lancé il y a quelques années, mais qui reste méconnu en France (cf. figure 1. Interface de Zendy).
L’idée de départ est de rendre plus accessible la littérature académique notamment dans les pays et régions où il est difficile de souscrire à des bases de données et serveurs payants.
Développé par Knowledge E, une société basée à Dubaï qui propose des solutions de bibliothèques numériques, Zendy a donc noué des partenariats avec de grands acteurs de l’édition académique pour indexer leurs contenus et en mettre une partie gratuitement à disposition de ses utilisateurs.
Lire aussi :
Elicit, un nouveau moteur scientifique au banc d’essai (06/2022)
On compte des acteurs comme Emerald Publishing, SAGE Publishing, Taylor & Francis, Wiley ou encore Ebsco.
Figure 1. Interface de Zendy
Déjà abonné ? Connectez-vous...
Pendant longtemps, on a considéré que pour faire une recherche raisonnablement exhaustive de références bibliographiques scientifiques, il fallait, pour peu que l’on en ait les moyens, utiliser les serveurs ou agrégateurs payants tels que STN, Dialog, Scopus, ou encore Web of Science.
Mais à côté de ces puissants outils traditionnels, se sont développés de nombreux sites web gratuits, proposant, avec différentes interfaces user-friendly des références bibliographiques, de littérature scientifique et de brevets.
La question que se posent maintenant de nombreux de professionnels de l’information est de savoir s’il est raisonnable de limiter ses recherches aux grands serveurs/agrégateurs ou s’il est devenu utile, voire indispensable, de compléter ses recherches par l’interrogation de nombreux sites web en accès gratuit, dont on ne peut ignorer qu’ils ont aujourd’hui des contenus significatifs.
Lire aussi :
Comment faire évoluer sa recherche d’information scientifique avec les nouveautés de Google Scholar ?
Elicit, un nouveau moteur scientifique au banc d’essai
The Lens pour la littérature scientifique : des contenus mal valorisés
À l’inverse, on peut se demander si une recherche dans les sites gratuits peut remplacer, au moins partiellement, une recherche dans les sites payants, même si la première sera plus laborieuse pour ces professionnels. En effet, on peut être a priori rebuté par les possibilités de recherche limitées, ainsi que par la multiplicité de sites à interroger pour tenter d’arriver au fameux sentiment d’exhaustivité qui fait partie de la culture des professionnels.
Nous avons voulu ici apporter notre point de vue de spécialistes en intelligence scientifique et technologique en comparant deux serveurs traditionnels, Dialog, STN et Scopus, avec un ensemble d’outils de recherche scientifique en accès libre. Et témoigner ainsi de notre expérience de longue date pour trouver la bonne formule d’une recherche bibliographique optimale.
Dans le monde de l’information scientifique, la création et le développement dès les années 70-80 de serveurs, américains dans un premier temps, a rendu de plus en plus facile la recherche de références d’articles scientifiques qui, auparavant, se faisait à la main.
Ces références sont donc passées en format électronique constituant des banques de données bibliographiques.
Cela s’est, bien sûr, fait progressivement, en commençant par les références sans abstract puis avec abstract. Il est maintenant courant d’avoir un lien vers le texte lui-même, que son accès soit gratuit ou payant.
On dispose aussi désormais d’autres types d’informations tels que des essais cliniques ou des molécules chimiques sous forme graphique, des données de recherche, etc.
Pendant de nombreuses années, les serveurs pionniers tels que Dialog ou SDC (devenu Orbit puis racheté quelques années plus tard par Questel) étaient la seule voie pour accéder à ces références bibliographiques tandis que le nombre et le volume de ces banques de données ne cessaient de croître tant par les mises à jour que par les remontées dans le temps.
L’avantage était que tout était bien cadré, les banques de données avaient et ont toujours des thématiques bien identifiées (métallurgie, agriculture, médecine…) et les serveurs qui les hébergeaient y donnaient accès par des langages de requête sophistiqués, réservés aux professionnels de l’information qui s’y étaient formés.
Aujourd’hui, après une période de concentration, les grands serveurs de littérature scientifique existent toujours tels que Dialog (qui a absorbé DataStar) et STN, rejoints quelques années plus tard par de grands agrégateurs de presse scientifique tels que Scopus et Web of Science.
Le développement de moteurs gratuits et de l’open access a bousculé les schémas en place, rendant une part non négligeable de ces références bibliographiques beaucoup plus facilement accessibles et gratuitement. De plus, le développement de l’outil gratuit Google Scholar a eu comme conséquence de faire croire, à tort, à de nombreux chercheurs et décideurs, qu’une recherche dans Google Scholar pouvait être considérée comme exhaustive et qu’il n’était point besoin d’aller chercher ailleurs.
Il faut préciser ici que le libre accès aux références ne signifie pas que l’article correspondant soit en open access c’est-à-dire lui aussi gratuit. On trouve les deux cas de figure : référence payante dans un serveur payant, mais article correspondant gratuit, ou l’inverse, c’est-à-dire site en libre accès et article payant, comme par exemple souvent dans Google Scholar. Bien sûr, les possibilités de recherche sont moins sophistiquées dans ces nouveaux sites. En particulier on ne peut, parfois, limiter sa recherche au titre du document, ou combiner des étapes de recherche. Il n’est donc pas évident de traiter une question complexe.
Toute la question qui se pose aujourd’hui est de savoir comment réaliser la meilleure recherche d’information scientifique sans avoir nécessairement besoin d’interroger les dizaines et dizaines d’outils gratuits et payants sur le marché, mais tout en ayant identifié une majorité raisonnable de documents clés. Et ce n’est pas une mince affaire.
Déjà abonné ? Connectez-vous...