Bases & Netsources - Lire un no sur 1 page

Sommaire novembre 2018

Rédaction

Bases no

364

publié en

2018.11

2104

Acheter ce no

Tags

sommaire

TENDANCES
• Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?

MOTEUR DE RECHERCHE
• Google Dataset Search : peut-il devenir le Google Scholar des données ?

PANORAMA
• Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique

OPEN DATA
• Quelques rappels sur l’open data au service de la recherche d’information

Déjà abonné ? Connectez-vous...

Connexion

Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ? Dossier spécial Data

Carole Tisserand-Barthole

Bases no

364

publié en

2018.11

5149

Acheter ce no

Tags

recherche Web | outils de veille | open data

Les Datasets : un nouvel enjeu pour la recherche ... Image 1

Le terme data est à la mode. Big data, smart data, datajournalisme, small data, datasets sont autant de mots que l’on voit s’afficher au quotidien sur nos écrans.

Nous avons choisi ici de nous intéresser spécifiquement aux datasets, aussi appelé en français « jeux de données » car leur intérêt dans un contexte de recherche d’information et de veille est croissant. Google vient même de leur dédier un nouveau moteur appelé Google Dataset Search.

Qu’est-ce que les termes datasets ou jeux de données englobent réellement ? En quoi ces données peuvent-elles avoir un intérêt pour la recherche d’information et la veille ? Comment les identifier et quelles sont les principales sources et méthodes à connaître ?

Lire aussi dans ce dossier :

Google Dataset Search : peut-il devenir le Google Scholar des données ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
Quelques rappels sur l’open data au service de la recherche d’information

Une évolution des contenus pour la recherche d’information

Si pendant longtemps, la recherche d’information se basait essentiellement sur des contenus textuels comme les articles de presse, articles scientifiques, brevets, rapports, études, pages Web textuelles, etc., les choses évoluent rapidement.

L’image, la vidéo ou encore le son prennent une place de plus en plus importante avec notamment l’essor de la recherche visuelle, vocale, la reconnaissance de logos ou de texte dans les images. On parle de plus en plus d’un univers « post-texte ».

Au-delà du développement de ces contenus multimédias, on assiste également à un autre mouvement intéressant : un intérêt et une valorisation croissante pour les données en tant que telles, comme les données publiques et les données de la recherche scientifique et académique.

Elles s’extraient progressivement de leurs supports traditionnels comme les articles scientifiques, les rapports, les études et autres publications pour devenir des objets et informations à part entière qui sont partagés librement sur le Web et donc deviennent potentiellement « recherchables ».

Et ces changements impactent bien évidemment les professionnels de l’information qui doivent adapter leur façon de rechercher et intégrer de nouvelles sources et contenus.

Déjà abonné ? Connectez-vous...

Connexion

Google Dataset Search : peut-il devenir le Google Scholar des données ? Dossier spécial Data

Carole Tisserand-Barthole

Bases no

364

publié en

2018.11

5083

Acheter ce no

Tags

recherche Web | Google | open data

Google Dataset Search : peut-il devenir le Google Scholar ... Image 1

Si Google a choisi de lancer un nouveau moteur dédié aux datasets (https://toolbox.google.com/datasetsearch), ce n’est certainement pas par pur philanthropisme. Il y voit très certainement son intérêt et ambitionne de refaire avec les données ce qu’il a déjà fait avec les publications scientifiques et académiques à travers le moteur académique Google Scholar.

Google a très justement perçu l’importance de ce mouvement d’ouverture des données qu’il s’agisse de données publiques ou de données de la recherche, le manque d’homogénéité et de visibilité des initiatives existantes et l’importance de pouvoir y accéder facilement.

Et il ne compte pas passer à côté de cette opportunité de fédérer la recherche sur les données et de devenir la source de référence sur le sujet. Il le dit d’ailleurs lui-même :

« Dataset Search permet aux utilisateurs de trouver des ensembles de données sur le Web grâce à une simple recherche par mot-clé. L’outil présente des informations sur des ensembles de données hébergés dans des milliers de référentiels sur le web. Ces ensembles de données deviennent ainsi accessibles et utiles à tous. »

La recherche de données en 2018 : un véritable challenge

Il est vrai que la recherche de données est aujourd’hui un challenge.

Les données et datasets sont aujourd’hui nombreux sur le web ouvert mais très fragmentés, et les identifier relève parfois du parcours du combattant...

La première difficulté réside dans l’hétérogénéité des datasets. Si les données sont partagées et mises en ligne librement, elles ne sont pas pour autant bien décrites par des métadonnées et les mots-clés qui leur sont associés ne sont pas nécessairement les meilleurs ni les plus adaptés. De fait, ces datasets sont donc difficilement identifiables. De plus, les différents acteurs n’utilisent pas tous les mêmes référentiels de métadonnées et on se retrouve face à une très grande variété de datasets et de métadonnées.

D’autre part, elles sont peu visibles dans les résultats des moteurs de recherche traditionnels et mal indexées. En effet, dans le cas des datasets, la recherche s’effectue généralement sur les métadonnées¹ uniquement et non sur du texte intégral ou les données elles-mêmes, comme c’est le cas sur des articles ou des pages web. On a donc intérêt à ce qu’elles soient bien décrites.

Enfin, même s’il existe une multitude d’initiatives, plateformes, entrepôts de données, outils de recherche dédiés, etc., ils restent peu visibles et peu harmonisés.

Avec Google Dataset Search, Google vient donc se positionner sur un créneau où il y a un réel besoin. Est-il le plus légitime pour le faire ? Son outil répond-il vraiment aux besoins et problématiques d’une recherche d’information professionnelle ? C’est ce que nous verrons dans la suite de cet article.

Déjà abonné ? Connectez-vous...

Connexion

Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique - Dossier spécial Data

Carole Tisserand-Barthole

Bases no

364

publié en

2018.11

5760

Acheter ce no

Tags

information scientifique et technique | open data

Les données de la recherche : un nouveau pan de la ... Image 1

Quand on pense recherche d’information et veille scientifique et technique, on pense essentiellement articles, revues scientifiques mais aussi brevets. Mais jusqu’à encore récemment, les données de la recherche ne faisaient pas vraiment partie du spectre.

La raison en est simple : Ces données, produites par les chercheurs dans le cadre de leurs recherches étaient rarement diffusées et rendues publiques. Et lorsque c’était le cas, très peu d’outils de recherche ou sources d’information capitalisaient dessus.

Et encore aujourd’hui, bon nombre de sources classiques comme les bases de données, serveurs, moteurs académiques, archives ouvertes, etc. ne proposent pas de datasets ou bien fort peu.

Lire aussi dans ce dossier :

Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Quelques rappels sur l’open data au service de la recherche d’information

On pourra retrouver la définition de « données de la recherche » dans le premier article de ce numéro de BASES (Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?)

On rappellera qu’il peut s’agir aussi bien de fichiers excel, d’images, de morceaux de codes, de texte, de documents, de vidéos, de visualisations graphiques, de données géographiques, audio, etc. Cela concerne toutes les disciplines qu’il s’agisse des sciences humaines et sociales ou sciences dures.

Et ces données peuvent avoir une très grande valeur dans un contexte de veille et de recherche d’information.

Quelles sont aujourd’hui les sources et les méthodes pour identifier et accéder à ces données de la recherche ? Comment en tirer parti dans un contexte de recherche et de veille professionnelle ?

Un peu de contexte

Données de la recherche, datasets, repositories...

Avant de se plonger dans les sources et méthodes, il convient de se familiariser avec cet univers pour mieux le comprendre et bien y effectuer des recherches.

Les données de la recherche que l’on retrouve sur le web s’inscrivent dans le mouvement de l’open science/ science ouverte qui vise à rendre la recherche scientifique et ses données accessibles à tous.

Les jeux de données sont généralement hébergés dans des entrepôts de données (repositories). On peut voir également apparaître des termes comme research data repositories, research data initiatives, data repositories, digital data repositories.

On notera que les termes anglais sont beaucoup plus utilisés que les termes français même dans un environnement francophone.

On constate qu’il existe une multitude d’entrepôts, probablement des milliers, certains pluridisciplinaires et d’autres très spécialisés, qu’il serait bien évidemment impossible de lister dans leur intégralité ici.

Nous avons donc choisi de présenter les grandes sources (annuaires, moteurs) permettant de les identifier ainsi que des méthodes pour les identifier sur le Web.

Ces jeux de données sont souvent dotés de DOI (Digital Object identifier) ou autre identifiant numérique (à l’image des articles scientifiques) qui permettent de les identifier et de les retrouver de manière pérenne.

Les jeux de données peuvent être reliés aux articles scientifiques pour lesquels ils ont été créés et sont donc identifiables via l’article en question ou bien ils peuvent exister indépendamment et être recherchés via des moteurs de recherche (web, moteur interne des entrepôts, etc.).

En termes de fonctionnalités, on peut généralement rechercher sur les métadonnées associées à ces jeux de données mais très rarement sur les données elles-mêmes, ce qui est un élément crucial à prendre en compte. On ne recherche pas sur des métadonnées comme on recherche sur du fulltext ou plutôt pourrait-on dire sur du « fulldata ».

Déjà abonné ? Connectez-vous...

Connexion

Quelques rappels sur l'open data au service de la recherche d’information - Dossier spécial Data

Carole Tisserand-Barthole

Bases no

364

publié en

2018.11

5058

Acheter ce no

Tags

recherche Web | open data

Quelques rappels sur l'open data au service de la recherche ... Image 1

Nous avons déjà eu l’occasion de parler de l’open data à de multiples reprises, dans BASES et dans NETSOURCES et nous lui avions même consacré un article de fond en janvier 2016 («Open Data : une mine d’or brute pour les professionnels de l’information», BASES n°333 - Janvier 2016).

Pour autant, le volume de données liées à l’open data continue de s’accroître et de nouvelles sources en la matière voient le jour régulièrement.

Où en est l’open data en 2018 ? Quelles sont les principales sources et méthodes à connaître pour identifier et trouver des données en open data ?

Lire aussi dans ce dossier :

Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique

L’open data en 2018

L’open data continue de progresser dans le monde à de rares exceptions près. On pensera ainsi à toutes les données en open data présentes sur le site de la Maison Blanche aux Etats-Unis sur le site open.whitehouse.gov qui ont été supprimées après l’arrivée de Donald Trump... Le site n’est d’ailleurs même plus accessible aujourd’hui.

D’après l’open data Barometer, (https://opendatabarometer.org), la France est classée en 4e position des pays les plus avancés en matière d’open data derrière le Canada, le Royaume-Uni et l’Australie.

De plus en plus de ministères, villes, métropoles, départements, organismes publics ou encore un nombre non négligeable d’entreprises publient des données ouvertes.

D’après le site https://labo.societenumerique.gouv.fr :

En janvier 2018, 257 collectivités publient leurs données, ce qui correspond à 6,5 % des 4411 collectivités concernées par l’obligation d’ouvrir leurs données en octobre 2017 ;
38 collectivités de moins de 3500 habitants publient leurs données sans en avoir l’obligation.
33,6 % des départements ont engagé à ce jour des démarches d’ouverture.

L’open data progresse mais la route est encore longue...

Mais si le volume de données en open data est aujourd’hui loin d’être négligeable, le plus difficile reste de s’y retrouver et de savoir où et comment chercher.

Déjà abonné ? Connectez-vous...

Connexion

Hommage : Madeleine Wolff-Terroine nous a quittés

Rédaction

Bases no

364

publié en

2018.11

2343

Acheter ce no

Tags

professionnel de l'information

Hommage : Madeleine Wolff-Terroine nous a quittés Image 1

Les plus anciens de nos lecteurs ont certainement entendu parler de Madeleine Wolff-Terroine, l’ont rencontrée ou ont travaillé avec elle.

Elle vient de nous quitter à l’âge de 99 ans.

Personnalité marquante du monde de l’infodoc, elle a eu une carrière extrêmement riche tant en France (elle a été présidente de l’ADBS dans les années 70) qu’à l’étranger, en travaillant pour de nombreux organismes internationaux.

Elle a aussi écrit régulièrement dans BASES dans les années 90.

Sommaire octobre 2018

Rédaction

Bases no

363

publié en

2018.10

2163

Acheter ce no

Tags

sommaire

PANORAMA

• L’information sur le Web est éphémère : quel impact et quelles solutions pour la recherche d’information ?

COMPTE-RENDU DE CONFÉRENCE
• Internet Librarian International : le salon incontournable des professionnels de l’information anglophones

A LIRE
• Le professionnel de l’information peut-il se réinventer en entrepreneur ?

Déjà abonné ? Connectez-vous...

Connexion

L’information sur le Web est éphémère : quel impact et quelles solutions pour la recherche d’information ?

Carole Tisserand-Barthole

Bases no

363

publié en

2018.10

3399

Acheter ce no

Tags

recherche Web | méthodologie

L’information sur le Web est éphémère : quel impact et ... Image 1

Quand on recherche de l’information sur le Web, on a souvent l’impression que tout ce qui a, un jour, été publié sur le Web ouvert doit pouvoir se retrouver d’une manière ou d’une autre, notamment en tirant parti des fonctionnalités avancées des moteurs de recherche comme Google. Or l’information sur le Web ouvert est bien plus éphémère qu’on ne pourrait le croire...

Dans la réalité, une très grande partie de ce qui a été publié sur le Web dans les années 1990 et 2000 n’existe plus en tant que tel. Les sites Web ont été refaits ou ont tout simplement disparu. Et de fait, bon nombre de ces contenus sont désormais inaccessibles par les moteurs de recherche classiques.

Et, comme nous le verrons par la suite, cette obsolescence rapide des contenus Web ne se limite pas uniquement à ce qui est ancien.

Comment faut-il donc appréhender une recherche d’antériorité sur le Web ? Quelles sont les meilleures méthodes pour retrouver de l’information ancienne via les moteurs classiques ? Comment faire quand l’information n’est plus accessible par ces mêmes moteurs ? Quelles sont aujourd’hui les initiatives d’archivage du Web en Europe et dans le Monde et comment en tirer parti pour la recherche d’information ?

Le Web ouvert n’est pas une archive ouverte

Si les contenus publiés sur le Web ouvert ont l’immense avantage d’être accessibles gratuitement, leur durée de vie n’est malheureusement pas si longue et cela peut avoir un impact dans un contexte professionnel de recherche d’information.

Durée de vie d’un site et d’une page Web

Plusieurs études se sont intéressées à la durée de vie moyenne d’un site Web et d’une page Web et les résultats méritent d’être signalés.

Selon les différentes sources que nous avons pu consulter, la durée de vie moyenne d’un site Web se situe entre 2 et 5 ans.

Et quant à la durée moyenne d’une page Web, les chiffres varient d’une étude à l’autre mais toutes convergent vers une durée de vie plutôt courte :

une étude de 1997 parle de 44 jours ;
d’autres études de 2002 et 2005 de 75 jours ou encore 100 jours ;
une autre étude de 2005 estimait que 40 % des contenus sur Internet disparaissaient en un an, 40% étaient modifiés et 20% seulement restaient à l’identique ;
enfin, lors de la conférence « Theory and Practice of Digital Libraries » qui a eu lieu en octobre 2018, l’un des conférenciers indiquait que 80% des pages Web étaient supprimées ou voyaient leur contenu modifié en moins d’un an.

Ainsi, même s’il est impossible de connaître précisément la durée de vie moyenne d’un site et d’une page Web, on peut en conclure aisément qu’elle est courte.

Sur un même sujet et une même requête, une recherche Web effectuée en 2018 produira des résultats différents d’une recherche effectuée en 2017, en 2016 et ainsi de suite...

Quelles sources sont les plus impactées ?

Cependant, tous les contenus publiés sur le Web ouvert ne sont pas impactés de la même manière. Car pour les informations structurées, même si l’information disparaît de son site d’origine, il existe souvent des sources, outils et bases de données gratuits ou payants qui conservent une grande antériorité.

Pour la presse en ligne par exemple, on peut retrouver aisément des articles anciens en se tournant vers les bases de données et agrégateurs de presse. Les bases de données sont aussi d’un grand secours pour les données financières ou les statistiques anciennes.

Et pour la production scientifique et les brevets en libre accès, il existe des bases de données et serveurs scientifiques et brevets qui proposent une très grande antériorité.

Mais pour les informations publiées sur d’autres types de sites et pages Web, on se retrouve beaucoup plus démuni...

On pensera notamment aux :

sites d’entreprises ;
pages et sites personnels ;
blogs ;
sites institutionnels ;
sites d’associations ;
sites universitaires ;
sites de salons et conférence ;
etc.

Et quand ces sites ferment leurs portes ou sont tout simplement refondus, les contenus mais également les documents qui y sont hébergés et qui sont souvent de grandes valeurs disparaissent parfois à tout jamais du Web.

On pensera ainsi aux rapports techniques, notes, évaluations, guides, newsletters, protocoles, etc. qui s’apparentent à ce qu’on appelle la « littérature grise »¹.

Quand on effectue une recherche sur les moteurs Web, il faut donc avoir conscience que certains résultats Web pertinents n’existent peut-être déjà plus ou n’apparaissent pas ou plus dans les résultats proposés. On rappellera en effet que Google propose de moins en moins de résultats visualisables (aux alentours de 200/300 seulement maximum).

Quelle méthode adopter pour retrouver ces contenus dont on ne soupçonne même pas toujours l’existence ?

Déjà abonné ? Connectez-vous...

Connexion

Internet Librarian International : le salon incontournable des professionnels de l’information anglophones

Carole Tisserand-Barthole

Bases no

363

publié en

2018.10

3100

Acheter ce no

Tags

tendances | conférences salons | professionnel de l'information | IA

Internet Librarian International : le salon incontournable ... Image 1

Nous avons cette année pu nous rendre au salon Internet Librarian International qui avait lieu à Londres les 16 et 17 octobre derniers et qui fêtait cette année ses 20 ans. Cette conférence de deux jours précédée d’une journée de Workshops se définit comme « The library innovation conference » et vise tous les professionnels de l’information dans leur ensemble qu’ils travaillent dans des bibliothèques publiques, universitaires ou des centres de documentation ou services de veille publics ou d’entreprise.

Pour beaucoup de professionnels qui avaient l’habitude de se rendre au salon Online et dont la dernière édition date de 2013, ce salon est devenu le rendez-vous incontournable de la profession, du moins en Europe. Nous avons ainsi pu y croiser des professionnels du monde entier, des anglais et américains surtout mais également de nombreux représentants des pays du nord de l’Europe et quelques personnes venues d’Asie.

Le modèle de la conférence est assez loin de ce qu’on a l’habitude de voir sur des salons comme I-expo par exemple. Ici, il n’est pas véritablement question d’exposants - seuls quelques sponsors disposaient d’une table dans le hall d’entrée avec quelques prospectus - mais de conférences plénières (une trentaine) réparties dans trois parcours thématiques. L’accès à l’ensemble de l’événement est entièrement payant.

La veille de l’ouverture se tenaient également quelques Workshops payants dédiés au Marketing des bibliothèques et à la recherche d’information.

Et parallèlement à cet événement, avait lieu la même conférence aux Etats-Unis sous le nom de « Internet Librarian », cette dernière s’étalant sur 3 jours.

Si globalement, on constatera que le public comme les sujets de conférences étaient tout de même plus orientés bibliothèques universitaires et publiques, il y avait quelques Workshops et quelques interventions particulièrement intéressantes dédiées à la recherche d’information et la veille. Nous reviendrons dans cet article sur tout ce qui concerne les dernières grandes tendances, innovations et l’avenir du métier.

Les grandes tendances

Comme dans toutes les conférences et salons du domaine qui ont eu lieu en 2018, impossible d’échapper à l’Intelligence Artificielle et son impact sur le métier et les outils.

On retrouvera donc cette thématique en filigrane de plusieurs interventions.

Déjà abonné ? Connectez-vous...

Connexion

Le professionnel de l’information peut-il se réinventer en entrepreneur ?

Anne-Marie Libmann

Bases no

363

publié en

2018.10

2911

Acheter ce no

Tags

retour d'expérience | à lire | professionnel de l'information

Le professionnel de l’information peut-il se réinventer en ... Image 1

Anne-Marie Libmann, directrice opérationnelle de FLA Consultants, et précédemment co-présidente de l'ADBS, a lu le nouveau livre de Jean-Philippe Accart, écrit en collaboration avec Clotilde Vaissaire-Agard : « Bibliothécaires, documentalistes, tous entrepreneurs ?

Comment un professionnel de l’information, héritier de décennies de croyances dans le bien-fondé intrinsèque de la pratique documentaire, peut-il se construire une nouvelle carrière, voire se reconstruire après le passage de Google et la fragilisation des métiers de « l’info-doc »?

Comment, sur ce terrain déconstruit par Internet et une information devenue (très) globalement accessible, développer un nouveau modèle, de nouvelles pratiques, un nouveau système de croyances et, osons le terme, un « business » ?

C’est dans le fond le problème, dramatique, que pose ce livre. Un dilemme semble d'ailleurs d’emblée s’inscrire dans le point d’interrogation même du titre. Un dilemme entre la volonté, et même la nécessité, de regarder l’avenir avec courage et la difficulté à sortir d’un passé glorieux, intellectuel, désormais intellectualisé et fantasmé.

Il est pour toute personne difficile, parfois douloureux, de devoir faire le choix d’un nouveau chemin professionnel. A la lecture de ce livre on peut se demander si ce n’est pas encore plus difficile pour un professionnel de l’information, documentaliste, bibliothécaire, archiviste, dont on sent qu’il s’est retrouvé véritablement dépossédé d’un métier et des valeurs nobles qu’il portait. L’auteur nous rappelle à juste titre : « une histoire riche remontant aux plus anciennes civilisations qui avaient pour souci de consigner les savoirs sous différentes formes et supports ». Un héritage lourd à porter pour certains d’entre nous…

L’ouvrage est un reflet assez représentatif de deux états contradictoires, dont on voit l’opposition permanente et qui d’une certaine façon, tiraillent les auteurs entre l’expression d’une nostalgie du passé et celle d’une projection vers un nouveau possible :

Une conscience évidente de la nécessité de trouver une nouvelle voie devant le constat de la disparition inéluctable de cet ancien monde : « les métiers de l’information-documentation ont [donc] besoin de se réinventer afin de s’adapter au monde nouveau qui apparaît devant eux, tant au niveau politique, que social ou économique ».
L’impossibilité de sortir d’un modèle ancien extrêmement prégnant et d’un monde où les centres de documentation et les bibliothèques avaient une « valeur en soi » inaliénable, dans une société et des entreprises pour lesquelles l’accès à l’information nécessitait une intermédiation experte.

Déjà abonné ? Connectez-vous...

Connexion