Cette année encore, nous avons eu l’occasion d’assister à la journée d’étude Search Solutions à Londres organisée par BCS (Chartered Institute for IT) et qui a eu lieu le 27 novembre dernier.
Cette manifestation annuelle regroupe à la fois des acteurs des moteurs de recherche (développeurs, ingénieurs, data scientists, etc.) mais aussi les utilisateurs de ces moteurs, notamment les professionnels de l’information.
C’est l’occasion d’avoir une vision claire des dernières tendances et axes d’évolution chez les moteurs de recherche, qui, rappelons-le sont pour la plupart avant tout orientés vers le grand public comme Google, Bing ou encore les réseaux sociaux. Mais toutes ces évolutions ont également un impact fort sur l’avenir des pratiques de recherche et de veille des professionnels de l’information.
Lire aussi dans ce dossier : De la recherche par mot-clé à la recherche vocale et visuelle
Dans ce premier article, nous reviendrons sur la session consacrée à la recommandation et l’exploration de contenus où intervenaient :
La recommandation de contenus prend une place toujours plus importante dans l’univers du Web notamment la recommandation automatique grâce aux progrès de l’informatique d’abord et plus récemment de l’intelligence artificielle.
Lors de cette journée d’étude, nous avons pu constater que la recommandation de contenus reste un thème très important pour les grands acteurs du Web et va même de plus en plus loin.
Nous avions d’ailleurs consacré un article à cette thématique il y a près d’un an dans NETSOURCES.
« La veille et la recherche d’information à l’heure de la recommandation de contenus » - NETSOURCES janvier/février 2018 - n°132 - Il est possible d’acheter ce numéro en version numérique ou papier en nous contactant à l’adresse suivante : contact@bases-netsources.com
S’il s’agissait ici de retours d’expérience d’outils très grand public et peu utilisés des professionnels de l’information, en l’occurrence Spotify et Asos, cela illustre bien une tendance forte qui impacte tous les outils de recherche Web grand public, de Google à Bing en passant pour tous les réseaux sociaux qui sont aujourd’hui des outils indispensables pour la veille et la recherche d’information.
Comprendre les grandes tendances et évolutions de ces outils permet de voir vers quoi se dirige la recherche Web de demain. Bon nombre des grandes évolutions du Web ont d’ailleurs débuté dans la sphère grand public avant d’être transposées d’une manière ou d’une autre dans la sphère professionnelle comme les outils de veille ou bases de données professionnelles par exemple.
Déjà abonné ? Connectez-vous...
Après le léger passage à vide observé lors de l’abandon du développement de New STN, STN montre un regain de dynamisme et, lors de la dernière journée d’utilisateurs, les nouveautés ne manquaient pas.
Il faut d’abord savoir que tous les nouveaux développements et les ajouts de nouvelles bases se feront sur STNext.
Pour leur part, New STN et STN Express continueront à exister mais ne bénéficieront d’aucune nouvelle fonctionnalité et seront abandonnés à terme
Comme tous les ans, les thésaurus de Medline et Embase ont été mis à jour. De même, les Manual Codes de WPI ont également évolué.
Par ailleurs, d’autres informations en provenance d’Elsevier (le producteur d’Embase) et de Dialog montrent une série de rapprochements entre Embase et Medline. Ce sujet paraît fort complexe et nous sommes en train d’investiguer précisément.
Enfin sur un tout autre sujet, on voit de plus en plus souvent certains articles scientifiques remis en cause, voire retirés, par exemple en raison d’utilisation d’images qui ne sont pas bonnes, essentiellement dans des articles concernant le domaine de la biologie.
Nous y avions consacré un article dans Bases n° 329 (septembre 2015) et nous constatons qu’un journal comme Le Monde traite de plus en plus fréquemment cette problématique à travers ses articles.
Dans ce contexte, Embase a ajouté des liens vers les articles « rétractés » et les erreurs signalées.
Pour identifier les articles rétractés, au nombre d’environ 1 500, qui peuvent être signalés de plusieurs façons, il faut écrire
=> S (“RETRACTATION TO” OR “RETRACTRATION OF”)/TI OR RETRACTATION NOTICE/SO OR RETRACTED PUBLICATION/DT
Pour rechercher des signalements d’erreur, au nombre d’environ 150 000, on écrira
=> S (ERRATUM OR CORRIGENDUM OR CORRECTION)/TI OR (ERRATA OR ERRATUM)/ CT,DT
On notera que dans Inpadoc, l’Office Européen des Brevets a complètement redéfini les codes liés aux paiements des redevances annuelles des brevets.
Enfin, Inspec et Compendex continuent à élargir leur couverture.
Inspec qui a ajouté plus de 900 000 références en 2017, offre actuellement plus de 17 millions de références.
Cette base inclut aussi maintenant des références de 450 publications en open access et des documents du repository arXiv, un pionnier de ce type de source.
En ce qui concerne Compendex, le contenu s’est enrichi de plus de 170 000 thèses américaines, les plus anciennes remontant à 1903. Il est prévu d’ajouter chaque année environ 6 000 nouvelles références de thèses.
Sur STNext, il est enfin possible maintenant de faire des recherches de structures simultanément dans quatre bases de données : CAS Registry (plus de 140 M), MARPAT (1,2 M), Derwent Chemistry Resources 3,2 M) et DWPIM (2,1 M ). REAXYSFILESUB (28 M) sera également disponible, prochainement.
On notera que DWPIM n’est accessible qu’aux détenteurs d’un contrat forfaitaire qui ont souscrit spécifiquement à l’option DWPIM.
Déjà abonné ? Connectez-vous...
TENDANCES
• Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
MOTEUR DE RECHERCHE
• Google Dataset Search : peut-il devenir le Google Scholar des données ?
PANORAMA
• Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
OPEN DATA
• Quelques rappels sur l’open data au service de la recherche d’information
Déjà abonné ? Connectez-vous...
Le terme data est à la mode. Big data, smart data, datajournalisme, small data, datasets sont autant de mots que l’on voit s’afficher au quotidien sur nos écrans.
Nous avons choisi ici de nous intéresser spécifiquement aux datasets, aussi appelé en français « jeux de données » car leur intérêt dans un contexte de recherche d’information et de veille est croissant. Google vient même de leur dédier un nouveau moteur appelé Google Dataset Search.
Qu’est-ce que les termes datasets ou jeux de données englobent réellement ? En quoi ces données peuvent-elles avoir un intérêt pour la recherche d’information et la veille ? Comment les identifier et quelles sont les principales sources et méthodes à connaître ?
Lire aussi dans ce dossier :
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
Quelques rappels sur l’open data au service de la recherche d’information
Si pendant longtemps, la recherche d’information se basait essentiellement sur des contenus textuels comme les articles de presse, articles scientifiques, brevets, rapports, études, pages Web textuelles, etc., les choses évoluent rapidement.
L’image, la vidéo ou encore le son prennent une place de plus en plus importante avec notamment l’essor de la recherche visuelle, vocale, la reconnaissance de logos ou de texte dans les images. On parle de plus en plus d’un univers « post-texte ».
Au-delà du développement de ces contenus multimédias, on assiste également à un autre mouvement intéressant : un intérêt et une valorisation croissante pour les données en tant que telles, comme les données publiques et les données de la recherche scientifique et académique.
Elles s’extraient progressivement de leurs supports traditionnels comme les articles scientifiques, les rapports, les études et autres publications pour devenir des objets et informations à part entière qui sont partagés librement sur le Web et donc deviennent potentiellement « recherchables ».
Et ces changements impactent bien évidemment les professionnels de l’information qui doivent adapter leur façon de rechercher et intégrer de nouvelles sources et contenus.
Déjà abonné ? Connectez-vous...
Si Google a choisi de lancer un nouveau moteur dédié aux datasets (https://toolbox.google.com/datasetsearch), ce n’est certainement pas par pur philanthropisme. Il y voit très certainement son intérêt et ambitionne de refaire avec les données ce qu’il a déjà fait avec les publications scientifiques et académiques à travers le moteur académique Google Scholar.
Google a très justement perçu l’importance de ce mouvement d’ouverture des données qu’il s’agisse de données publiques ou de données de la recherche, le manque d’homogénéité et de visibilité des initiatives existantes et l’importance de pouvoir y accéder facilement.
Et il ne compte pas passer à côté de cette opportunité de fédérer la recherche sur les données et de devenir la source de référence sur le sujet. Il le dit d’ailleurs lui-même :
« Dataset Search permet aux utilisateurs de trouver des ensembles de données sur le Web grâce à une simple recherche par mot-clé. L’outil présente des informations sur des ensembles de données hébergés dans des milliers de référentiels sur le web. Ces ensembles de données deviennent ainsi accessibles et utiles à tous. »
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
Quelques rappels sur l’open data au service de la recherche d’information
Il est vrai que la recherche de données est aujourd’hui un challenge.
Les données et datasets sont aujourd’hui nombreux sur le web ouvert mais très fragmentés, et les identifier relève parfois du parcours du combattant...
La première difficulté réside dans l’hétérogénéité des datasets. Si les données sont partagées et mises en ligne librement, elles ne sont pas pour autant bien décrites par des métadonnées et les mots-clés qui leur sont associés ne sont pas nécessairement les meilleurs ni les plus adaptés. De fait, ces datasets sont donc difficilement identifiables. De plus, les différents acteurs n’utilisent pas tous les mêmes référentiels de métadonnées et on se retrouve face à une très grande variété de datasets et de métadonnées.
D’autre part, elles sont peu visibles dans les résultats des moteurs de recherche traditionnels et mal indexées. En effet, dans le cas des datasets, la recherche s’effectue généralement sur les métadonnées1 uniquement et non sur du texte intégral ou les données elles-mêmes, comme c’est le cas sur des articles ou des pages web. On a donc intérêt à ce qu’elles soient bien décrites.
Enfin, même s’il existe une multitude d’initiatives, plateformes, entrepôts de données, outils de recherche dédiés, etc., ils restent peu visibles et peu harmonisés.
Avec Google Dataset Search, Google vient donc se positionner sur un créneau où il y a un réel besoin. Est-il le plus légitime pour le faire ? Son outil répond-il vraiment aux besoins et problématiques d’une recherche d’information professionnelle ? C’est ce que nous verrons dans la suite de cet article.
Déjà abonné ? Connectez-vous...
Quand on pense recherche d’information et veille scientifique et technique, on pense essentiellement articles, revues scientifiques mais aussi brevets. Mais jusqu’à encore récemment, les données de la recherche ne faisaient pas vraiment partie du spectre.
La raison en est simple : Ces données, produites par les chercheurs dans le cadre de leurs recherches étaient rarement diffusées et rendues publiques. Et lorsque c’était le cas, très peu d’outils de recherche ou sources d’information capitalisaient dessus.
Et encore aujourd’hui, bon nombre de sources classiques comme les bases de données, serveurs, moteurs académiques, archives ouvertes, etc. ne proposent pas de datasets ou bien fort peu.
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Quelques rappels sur l’open data au service de la recherche d’information
On pourra retrouver la définition de « données de la recherche » dans le premier article de ce numéro de BASES (Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?)
On rappellera qu’il peut s’agir aussi bien de fichiers excel, d’images, de morceaux de codes, de texte, de documents, de vidéos, de visualisations graphiques, de données géographiques, audio, etc. Cela concerne toutes les disciplines qu’il s’agisse des sciences humaines et sociales ou sciences dures.
Et ces données peuvent avoir une très grande valeur dans un contexte de veille et de recherche d’information.
Avant de se plonger dans les sources et méthodes, il convient de se familiariser avec cet univers pour mieux le comprendre et bien y effectuer des recherches.
Les données de la recherche que l’on retrouve sur le web s’inscrivent dans le mouvement de l’open science/ science ouverte qui vise à rendre la recherche scientifique et ses données accessibles à tous.
Les jeux de données sont généralement hébergés dans des entrepôts de données (repositories). On peut voir également apparaître des termes comme research data repositories, research data initiatives, data repositories, digital data repositories.
On notera que les termes anglais sont beaucoup plus utilisés que les termes français même dans un environnement francophone.
On constate qu’il existe une multitude d’entrepôts, probablement des milliers, certains pluridisciplinaires et d’autres très spécialisés, qu’il serait bien évidemment impossible de lister dans leur intégralité ici.
Nous avons donc choisi de présenter les grandes sources (annuaires, moteurs) permettant de les identifier ainsi que des méthodes pour les identifier sur le Web.
Ces jeux de données sont souvent dotés de DOI (Digital Object identifier) ou autre identifiant numérique (à l’image des articles scientifiques) qui permettent de les identifier et de les retrouver de manière pérenne.
Les jeux de données peuvent être reliés aux articles scientifiques pour lesquels ils ont été créés et sont donc identifiables via l’article en question ou bien ils peuvent exister indépendamment et être recherchés via des moteurs de recherche (web, moteur interne des entrepôts, etc.).
En termes de fonctionnalités, on peut généralement rechercher sur les métadonnées associées à ces jeux de données mais très rarement sur les données elles-mêmes, ce qui est un élément crucial à prendre en compte. On ne recherche pas sur des métadonnées comme on recherche sur du fulltext ou plutôt pourrait-on dire sur du « fulldata ».
Déjà abonné ? Connectez-vous...
Nous avons déjà eu l’occasion de parler de l’open data à de multiples reprises, dans BASES et dans NETSOURCES et nous lui avions même consacré un article de fond en janvier 2016 («Open Data : une mine d’or brute pour les professionnels de l’information», BASES n°333 - Janvier 2016).
Pour autant, le volume de données liées à l’open data continue de s’accroître et de nouvelles sources en la matière voient le jour régulièrement.
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
L’open data continue de progresser dans le monde à de rares exceptions près. On pensera ainsi à toutes les données en open data présentes sur le site de la Maison Blanche aux Etats-Unis sur le site open.whitehouse.gov qui ont été supprimées après l’arrivée de Donald Trump... Le site n’est d’ailleurs même plus accessible aujourd’hui.
D’après l’open data Barometer, (https://opendatabarometer.org), la France est classée en 4e position des pays les plus avancés en matière d’open data derrière le Canada, le Royaume-Uni et l’Australie.
De plus en plus de ministères, villes, métropoles, départements, organismes publics ou encore un nombre non négligeable d’entreprises publient des données ouvertes.
D’après le site https://labo.societenumerique.gouv.fr :
L’open data progresse mais la route est encore longue...
Mais si le volume de données en open data est aujourd’hui loin d’être négligeable, le plus difficile reste de s’y retrouver et de savoir où et comment chercher.
Déjà abonné ? Connectez-vous...
Les plus anciens de nos lecteurs ont certainement entendu parler de Madeleine Wolff-Terroine, l’ont rencontrée ou ont travaillé avec elle.
Elle vient de nous quitter à l’âge de 99 ans.
Personnalité marquante du monde de l’infodoc, elle a eu une carrière extrêmement riche tant en France (elle a été présidente de l’ADBS dans les années 70) qu’à l’étranger, en travaillant pour de nombreux organismes internationaux.
Elle a aussi écrit régulièrement dans BASES dans les années 90.
PANORAMA
• L’information sur le Web est éphémère : quel impact et quelles solutions pour la recherche d’information ?
COMPTE-RENDU DE CONFÉRENCE
• Internet Librarian International : le salon incontournable des professionnels de l’information anglophones
A LIRE
• Le professionnel de l’information peut-il se réinventer en entrepreneur ?
Déjà abonné ? Connectez-vous...
Quand on recherche de l’information sur le Web, on a souvent l’impression que tout ce qui a, un jour, été publié sur le Web ouvert doit pouvoir se retrouver d’une manière ou d’une autre, notamment en tirant parti des fonctionnalités avancées des moteurs de recherche comme Google. Or l’information sur le Web ouvert est bien plus éphémère qu’on ne pourrait le croire...
Dans la réalité, une très grande partie de ce qui a été publié sur le Web dans les années 1990 et 2000 n’existe plus en tant que tel. Les sites Web ont été refaits ou ont tout simplement disparu. Et de fait, bon nombre de ces contenus sont désormais inaccessibles par les moteurs de recherche classiques.
Et, comme nous le verrons par la suite, cette obsolescence rapide des contenus Web ne se limite pas uniquement à ce qui est ancien.
Comment faut-il donc appréhender une recherche d’antériorité sur le Web ? Quelles sont les meilleures méthodes pour retrouver de l’information ancienne via les moteurs classiques ? Comment faire quand l’information n’est plus accessible par ces mêmes moteurs ? Quelles sont aujourd’hui les initiatives d’archivage du Web en Europe et dans le Monde et comment en tirer parti pour la recherche d’information ?
Si les contenus publiés sur le Web ouvert ont l’immense avantage d’être accessibles gratuitement, leur durée de vie n’est malheureusement pas si longue et cela peut avoir un impact dans un contexte professionnel de recherche d’information.
Plusieurs études se sont intéressées à la durée de vie moyenne d’un site Web et d’une page Web et les résultats méritent d’être signalés.
Selon les différentes sources que nous avons pu consulter, la durée de vie moyenne d’un site Web se situe entre 2 et 5 ans.
Et quant à la durée moyenne d’une page Web, les chiffres varient d’une étude à l’autre mais toutes convergent vers une durée de vie plutôt courte :
Ainsi, même s’il est impossible de connaître précisément la durée de vie moyenne d’un site et d’une page Web, on peut en conclure aisément qu’elle est courte.
Sur un même sujet et une même requête, une recherche Web effectuée en 2018 produira des résultats différents d’une recherche effectuée en 2017, en 2016 et ainsi de suite...
Cependant, tous les contenus publiés sur le Web ouvert ne sont pas impactés de la même manière. Car pour les informations structurées, même si l’information disparaît de son site d’origine, il existe souvent des sources, outils et bases de données gratuits ou payants qui conservent une grande antériorité.
Pour la presse en ligne par exemple, on peut retrouver aisément des articles anciens en se tournant vers les bases de données et agrégateurs de presse. Les bases de données sont aussi d’un grand secours pour les données financières ou les statistiques anciennes.
Et pour la production scientifique et les brevets en libre accès, il existe des bases de données et serveurs scientifiques et brevets qui proposent une très grande antériorité.
Mais pour les informations publiées sur d’autres types de sites et pages Web, on se retrouve beaucoup plus démuni...
On pensera notamment aux :
Et quand ces sites ferment leurs portes ou sont tout simplement refondus, les contenus mais également les documents qui y sont hébergés et qui sont souvent de grandes valeurs disparaissent parfois à tout jamais du Web.
On pensera ainsi aux rapports techniques, notes, évaluations, guides, newsletters, protocoles, etc. qui s’apparentent à ce qu’on appelle la « littérature grise »1.
Quand on effectue une recherche sur les moteurs Web, il faut donc avoir conscience que certains résultats Web pertinents n’existent peut-être déjà plus ou n’apparaissent pas ou plus dans les résultats proposés. On rappellera en effet que Google propose de moins en moins de résultats visualisables (aux alentours de 200/300 seulement maximum).
Quelle méthode adopter pour retrouver ces contenus dont on ne soupçonne même pas toujours l’existence ?
Déjà abonné ? Connectez-vous...