PANORAMA
• La recommandation de contenu appliquée à l’information académique et scientifique
SERVEURS
• STNext : mises au point effectuées
DATAVISUALISATION
• Dataviz : les agrégateurs de presse font-ils la bonne analyse ?
EN BREF
• L’actualité des outils de recherche et de veille
Déjà abonné ? Connectez-vous...
Dans le dernier numéro de NETSOURCES (n°132 - janvier/février 2018), nous avons analysé la place grandissante de la recommandation de contenu dans les outils de recherche aussi bien grand public que professionnels, et l’impact que cela peut avoir sur les pratiques de veille et de recherche d’information.
Nous aborderons aujourd'hui la recommandation appliquée aux outils et sources d’information scientifiques, techniques et académiques :
Quelle est aujourd’hui la place des systèmes de recommandation de contenus dans les moteurs de recherche académiques, les serveurs et bases de données scientifiques, académiques et brevets, les outils de recherche développés par les éditeurs, les réseaux sociaux académiques, etc. ? Et qu'apporte ce système de recommandation au processus de recherche et de veille dans ces domaines ?
Avant d’explorer en détail les fonctionnalités de recommandations présentes chez les outils et sources d’informations scientifiques et académiques, il est important de rappeler la typologie de la recommandation de contenu que nous avions développée dans le précédent article, car derrière le concept de recommandation se cachent des réalités très diverses.
Nous avions choisi de proposer la typologie suivante à laquelle nous continuerons de nous référer tout au long de cet article avec :
La définition précise des différents types de recommandation est disponible dans un encadré intitulé « typologie de la recommandation de contenus » plus loin dans cet article.
La recommandation a toujours été au cœur de la production d’articles scientifiques. D’une part avec les références bibliographiques présentes au sein de chaque article qui peuvent permettre de faire découvrir des articles traitant de la même thématique ou d’un sujet proche et, d’autre part avec le système des citations. En effet, les articles citant un article que nous jugeons pertinent, ont des chances d’être également pertinents dans le cadre de notre recherche ou de notre veille.
Mais au delà de la recommandation classique, on a pu voir se développer dans les outils de recherche scientifiques et académiques des modules ou fonctionnalités de recommandation automatique de contenus, des médias sociaux académiques basés sur une recommandation humaine et également des outils et services dont la recommandation est le cœur de leur activité.
C’est précisément ce que nous allons explorer dans cet article.
Déjà abonné ? Connectez-vous...
Nous avions signalé dans le numéro de janvier 2018 de BASES (n° 355) quelques problèmes de mise au point de la nouvelle interface de STN.
Ces problèmes sont maintenant réglés. En effet, quand on tape une parenthèse sur un clavier AZERTY, elle n’efface plus le caractère précédent.
D’autre part, on peut régler ses « settings » de façon à ce qu'à la déconnexion le système propose automatiquement le déchargement du transcript au moment du logoff. Pour cela, il faut aller dans les settings que l’on trouve dans le menu déroulant qui s’affiche quand on clique sur son nom, puis dans la rubrique « transcript download » activer l’option « Prompt at Logout/Logoff Hold » puis ne pas oublier de cliquer sur « apply » en haut à droite de l’écran.
Pour répondre à la demande grandissante des utilisateurs en termes d’analyse de données et de représentation graphique de ces données (dataviz), les grands agrégateurs de presse ont depuis quelques années déjà, intégré des modules spécifiques dont le but revendiqué est de faciliter l’analyse quantitative d’un grand corpus d’articles sur des critères prédéfinis, et ce, en seulement « quelques clics ».
Ces fonctionnalités supplémentaires sont supposées apporter un vrai plus, en premier lieu par le gain de temps généré, mais également en terme de valorisation de l’information, avec un contenu attirant et immédiatement assimilable.
Tous les grands agrégateurs de presse présents sur le marché français en proposent, avec des positionnements légèrement différents. Ainsi, les modules offerts chez Factiva, Newsdesk (LexisNexis) ou Europresse reposent tous sur des algorithmes et de l’extraction de données automatique (text mining), tandis que Pressedd a fait le choix du sur mesure, avec une qualification humaine et extrêmement fine des articles selon des critères personnalisés qui sont définis en amont avec le client. Par conséquent, les fonctionnalités d’analyse proposées par Pressedd font l’objet d’une facturation spécifique et personnalisée en fonction des besoins (volume, granularité de l’analyse, nombre de tags suivis etc.) quand Factiva ou LexisNexis/Newsdesk l’intègrent en standard dans leur offre, sans coût supplémentaire.
Déjà abonné ? Connectez-vous...
Google et Bing se transforment toujours un peu plus en moteurs de réponses.
En ce début d’année, l’actualité est très riche du côté des moteurs de recherche.
Google a récemment lancé un test où, pour certaines questions simples (comme l’heure qu’il est, convertir des unités ou des monnaies ou encore effectuer des calculs), il affichait directement la réponse sans proposer de liste de résultats naturels (voir figure 1.).
Et si l’on souhaitait accéder aux résultats naturels, il fallait alors cliquer sur un bouton « afficher tous les résultats ».
Au bout de quelques jours cependant, Google a mis fin à l’expérience en indiquant avoir rassemblé « assez de données et de commentaires »...
Fig. 1. Réponse Google sans résultat naturel.
De son côté, Bing a indiqué avoir amélioré ses intelligent answers, ces featured snippets dopés à l’intelligence artificielle au dessus des résultats naturels, capables notamment d’agréger des réponses issus de plusieurs sources qualifiées. Au départ limitées aux Etats-Unis, les intelligent answers se sont récemment étendues au Royaume-Uni et elles sont accessibles pour un nombre de plus en plus important de questions et de sujets. Parmi les autres améliorations, on notera que lorsqu’un terme peu commun apparaît dans les intelligent answers, le terme est alors souligné en bleu et l’internaute peut positionner son curseur dessus et obtenir une définition sans quitter la page.
On voit bien que la transformation de Google et Bing en moteurs de réponses, amorcée depuis environ un an, ne cesse de s’accélérer. Nous aborderons plus en détail cet aspect dans le prochain numéro de BASES avec un compte-rendu de la conférence qui s’est tenue à I-expo 2018 intitulée « L’IA va t-elle tuer ou renforcer les moteurs de recherche ? ».
Depuis quelques mois, Google multiplie les annonces à destination de la presse et se présente de plus en plus comme un apporteur d’affaire pour les éditeurs. En cette fin de mois, il vient d’annoncer le lancement d’un service appelé Subscribe with Google afin de simplifier la procédure d’abonnement des internautes à la presse en ligne.
L’internaute peut s’abonner à des médias en ligne en quelques clics à partir de son compte Google car le géant américain dispose déjà des données utiles à la souscription d’un abonnement (nom, prénom, adresse mail, etc.). En France, Les Echos, Le Figaro, et Le Parisien ont indiqué participer au service et dans le reste du Monde, on compte des acteurs comme le Financial Times, Grupo Globo, La Nación, le New York Times, La Republica, The Telegraph ou encore le Washington Post.
Toujours, sur cette même thématique, Google a annoncé, que dans Google News, il prioriserait les actualités en provenance des médias pour lesquels l’internaute a souscrit un abonnement. Quand à savoir s’il s’agit d’une bonne nouvelle pour la recherche d’information, on est en droit de se poser la question... Ne risque t-on pas de se limiter toujours un peu plus aux sources que l’on connaît déjà et de s’enfermer toujours un peu plus dans sa bulle informationnelle ?
Toujours est-il que ces annonces vont bien dans le sens d’un retour à l’information payante dans le secteur de la presse dont nous nous étions fait l’écho dans l’article « Gratuité de l’information pour la veille : la fin d’une époque ? » (BASES n°355 - janvier 2018).
Prioriser certains types de contenus médias semble être un sujet qui anime tous les grands acteurs du Web en ce début d’année. Facebook ne déroge pas à la règle et avait annoncé fin janvier prioriser les informations locales dans le flux de ses utilisateurs aux Etats-Unis seulement. Cette mesure faisait suite aux nombreuses polémiques sur les fake news et contenus douteux présentés comme locaux qui auraient en fait été rédigés par des médias étrangers. Désormais, cette mesure a été étendue au monde entier et Facebook va donc mettre en avant dans le flux de chaque utilisateur des médias proposant des contenus locaux et des blogs locaux.
Du côté des outils de veille, on notera le rachat de la société Datasift par Meltwater, un acteur bien connu dans le secteur du Social Media Monitoring. Nous avions déjà eu l’occasion de parler de Datasift dans le NETSOURCES n°122 (mai-juin 2016) dans un article intitulé « Datasift : une nouvelle étape dans l’accès aux données des utilisateurs de Facebook ». A l’époque, Datasift disposait d’un partenariat avec Facebook lui donnant accès aux données et contenus des utilisateurs de Facebook qu’ils soient publics ou privés, données qui étaient ensuite anonymisées. Plusieurs plateformes de veille comme Synthesio ou Faveeo utilisaient le service de Datasift pour proposer à leurs utilisateurs et aux marques un accès facilité à l’ensemble des données publiées sur Facebook. Reste maintenant à savoir ce qu’il va advenir des partenariats que Datasift avait mis en place avec un nombre important de plateformes de veille...
On signalera enfin que Deepl, le traducteur en ligne qui concurrence Google Translate et dont la qualité de traduction est souvent bien meilleure que ses concurrents, vient de lancer une version pro. Dans la version gratuite, on ne peut traduire plus de 5000 caractères d’un seul coup. La version payante, elle, n’a pas de limite de taille. D’autre part, Deepl fournit un accès à son API dans la version Pro permettant à des services externes d’intégrer la technologie de Deepl dans leurs outils. Espérons que de nombreux outils de recherche et de veille auront l’intelligence de l’intégrer à leurs outils car il s’agit d’une aide précieuse dans un contexte de veille et de recherche d’informations multilingue.
LITTÉRATURE SCIENTIFIQUE
• Un point sur les nouveaux modes de publication scientifique
AGENDA • L'information au service de la prise de décision est-elle un mythe ?
LITTÉRATURE SCIENTIFIQUE
• Elsevier se pose en alternative à Wikipédia dans le domaine scientifique
RETOUR D’EXPÉRIENCE
• Elsa Drevon : Enseigner la veille pour répondre aux besoins réels des organisations
EN BREF • L’actualité des moteurs et des médias sociaux
Déjà abonné ? Connectez-vous...
La dématérialisation des publications a permis aux éditeurs privés, ainsi qu’aux éditeurs issus de la sphère publique d’explorer de nouveaux territoires. On assiste en particulier à la montée en puissance d’initiatives éditoriales comme celles relevant de l’Open Access dont le but est de proposer un accès en ligne et gratuit aux publications scientifiques.
Penchons-nous dans un premier temps sur le mode de publication scientifique qui a prévalu pendant les 200 dernières années, afin de mieux appréhender la nature des évolutions récentes.
Le modèle traditionnel de publication scientifique repose sur une collaboration entre un producteur de connaissance (le chercheur) et un professionnel de la publication (l’éditeur). Le chercheur obtient auprès de l’éditeur la publication de son travail de recherche, en échange de la cession de ses droits sur ledit travail, et parfois du versement d’une somme complémentaire.
Dans le cas de la publication dite « scientifique », le processus de publication comporte en particulier une étape de validation des travaux par les pairs scientifiques, gage de qualité des travaux publiés. Au-delà du strict service de diffusion de ses travaux, le chercheur acquiert ainsi un accès à la reconnaissance de son travail, répercuté en termes de prestige plus ou moins grand en fonction du degré d’exigence de la revue choisie.
Penchons-nous sur la nature des services rendus par les éditeurs et les modalités de leur exécution. La figure 1 décrit les taches habituellement prises en charge par les uns et les autres.
Figure 1. Étapes nécessaires à la publication des travaux scientifique dans le modèle traditionnel, et répartition des tâches entre les éditeurs et le monde académique, auteur des travaux. ©Marie-Laure Chesne-Seck
Après une période de gestation et d’expérimentation qui peut couvrir plusieurs années, le chercheur synthétise les résultats de recherche qu’il juge aboutis, selon des critères propres à chaque champ de spécialité.
Ce premier manuscrit est habituellement désigné sous le nom de preprint. Il contient les résultats de recherche bruts, hors de tout examen par les pairs scientifiques. Le chercheur choisit alors un journal auquel il soumet le texte de son preprint suivant le modèle fourni par l’éditeur. Sur la base du texte brut, l’éditeur fait un premier tri, et s’il retient le manuscrit, amorce le processus de revue par les pairs.
Parfois sur suggestion de l’auteur, l’éditeur contacte un ou plusieurs experts à même de juger de la validité du travail soumis. Le processus peut aussi se faire en « simple aveugle » (les auteurs ne connaissent pas les pairs) ou en « double aveugle » (auteurs et pairs ne se connaissent pas). L’idée est de prévenir tout biais qui pourrait entacher l’impartialité de l’évaluation. Cette étape nécessite donc l’intervention d’un médiateur pour organiser le recueil des remarques des uns et des réponses des autres, effectuer le suivi des différentes versions du manuscrit. Dans le cas où l’on parvient à une version satisfaisante (le texte peut être rejeté au cours du processus), l’article est dit « accepté ».
Déjà abonné ? Connectez-vous...
L’habitude est prise par beaucoup de démarrer une recherche sur un sujet scientifique non familier dans Wikipedia, et plus généralement sur le Web l'éditeur Elsevier a lancé récemment ScienceDirect Topics pour proposer une alternative.
Cette «couche» créée par Elsevier, ajoutée à son produit ScienceDirect vise à répondre à ces questions de premier niveau qui ne sont en général pas traitées dans les articles scientifiques disponibles sur la plateforme car ils sont trop pointus. Elsevier considère, en effet, que ces réponses de premier niveau peuvent plutôt se trouver dans des chapitres de sa collection d’e-books constituée, en particulier d’encyclopédies et d’ouvrages de référence.
Pratiquement tous les domaines scientifiques sont couverts ou en passe de l’être.
Si l’accès à ces chapitres d’e-books est payant pour le lecteur (31,50 $) (sauf, bien sûr, si l’Université/organisme a souscrit à ces collections d’e-books), les extraits que propose ScienceDirect Topics sont, quant à eux, gratuits.
Pour une thématique donnée, on trouve une dizaine d’extraits, dont certains assez longs, ce qui permet de bien se faire une première idée.
Il n’y a pas de possibilité de recherche dans le Topic Index qui contient 80 000 termes, et bientôt 110 000, mais uniquement un accès par l’initiale du sujet à partir de laquelle on obtient la (longue) liste de sujets pris en compte… Il faut alors en sélectionner un. Ces sujets sont extrêmement pointus. On distingue, par exemple «N,N-dimethylacetamide», «N,N-dimethylaniline», «N,N-dimethylformamide» et «N,N dimethylformamide dimethyl acetal». Notons que pour chaque topic, le système propose une série de related terms qui sont autant de propositions de topics proches de celui qui a été sélectionné.
Déjà abonné ? Connectez-vous...
Entretien croisé entre Elsa Drevon, responsable du cours « Veille stratégique » à l’EBSI (Ecole de Bibliothéconomie et des Sciences de l’Information) à l’Université de Montréal et candidate au doctorat et Carole Tisserand-Barthole, rédactrice en chef de BASES et NETSOURCES.
Nous plongerons au coeur de l'enseignement de la formation à la veille et l'infodoc au Canada, ainsi que dans les meilleures pratiques "d'auto-formation".
Déjà abonné ? Connectez-vous...
En ce début d’année, l’actualité de Bing et Google ne manque pas.
Et ce qui fait beaucoup parler, ce sont les featured snippets de Google et de Bing.
Affiché dans un cadre spécifique et au-dessus des résultats dits « naturels », en « position 0 », le featured snippet constitue une réponse à la question posée par l’internaute et est extrait directement d’une page Web.
Très critiqués en 2017 pour faire apparaître régulièrement des contenus issus de sites douteux ou relayant des fake news, Google a finalement pris le taureau par les cornes et s’est enfin attaqué au problème.
Il a apporté des améliorations quant à la qualité des résultats et des sources présentées dans les featured snippets. Pour certaines questions, Google va même en afficher plusieurs, ce qui pourra être utile quand il existe des informations contradictoires ou plusieurs réponses à une même question ou encore différentes interprétations possibles. Cette fonctionnalité proposant des réponses multiples vient d’être déployée sur mobile et devrait être implémentée sur ordinateur prochainement.
De son côté, Bing offre également un équivalent des featured snippets depuis quelque temps mais il propose depuis la fin de l’année ce qu’il appelle des intelligent answers soit des réponses intelligentes. L’idée étant d’agréger une réponse issue de plusieurs sources reconnues ou de proposer plusieurs points de vue différents sur une même question.
Les réponses intelligentes fonctionnent aux Etats-Unis pour le moment et devraient s’étendre au reste du monde dans les prochains mois.
Attention cependant : on n’est jamais à l’abri d’obtenir dans les featured snippets des réponses issues de sources douteuses et peu fiables. On continuera donc à faire fonctionner son sens critique...
Autre nouveauté chez Google, l’introduction de résultats directement depuis la barre du navigateur (voir figure 1.). Même plus besoin de consulter la liste de résultats pour visualiser la réponse. Cela ne fonctionne que sur Chrome. Et comme pour le featured snippets, cela ne fonctionne que pour des questions simples générant une réponse simple et limitée.
Figure 1. Pour une recherche sur météo paris, Chrome affiche directement le temps et la température dans la barre du navigateur.
Dans la liste de résultats cette fois-ci, Google a déployé depuis peu sur sa version desktop la fonction « recherches associées » dans les résultats cliqués (voir figure 2.). Jusqu’à présent, lorsqu’on lançait une recherche, Google nous proposait tout en bas de la liste de résultats des « recherches associées ».
Figure 2. Fonction recherche associée dans les résultats cliqués
Cela n’a pas disparu mais si vous cliquez sur un résultat et que vous revenez ensuite sur la liste de résultats Google, vous avez alors une liste de « recherches associées » qui s’affichent en dessous du résultat en question. Et nous avons fait le test, les « recherches associées » affichées varient d’un résultat à l’autre malgré une même requête initiale.
A garder en tête pour cibler ou réorienter sa recherche.
Nous nous intéresserons d’ailleurs dans un prochain numéro de NETSOURCES à la question des requêtes ou recherches associées et de la reformulation automatique de requêtes de plus en plus présentes chez les grands acteurs du Web mais également sur les outils de recherche professionnels, et de leur impact sur la recherche d’information et la veille professionnelle.
Du côté de la recherche d’images, Google Images a supprimé le bouton View Image à droite de l’image affichée. Les internautes devront alors se rendre sur la page source de l’image pour pouvoir visualiser l’image en grand format. Cela fait suite à une plainte de Getty Images contre Google pour pratiques anti-concurrentielles.
Du côté de Twitter, on apprenait ce mois-ci qu’il allait enfin permettre de sauvegarder des tweets pour les lire plus tard.
Même si c’est une fonctionnalité présente sur de nombreux médias sociaux et outil du Web 2.0, ce n’était pas encore le cas de Twitter.