Ce mois-ci, l’actualité des moteurs concerne exclusivement Google qui n’a pas faibli dans le nombre de ces annonces et lancements de nouvelles fonctionnalités.
Nous vous parlions le mois dernier du nouveau bouton « plus de résultats ». Pour certaines questions comme la météo par exemple, Google avait lancé un test où il n’affichait plus aucun résultat mais juste une réponse à la question posée suivie d’un bouton « plus de résultats » pour ceux qui souhaiteraient aller plus loin. Le test avait ensuite pris fin et tout était redevenu comme avant.
Ce mois-ci Google a annoncé qu’il expérimentait également ce système de bouton « plus de résultats » depuis décembre pour les recherches sur mobile. Dans de nombreux cas, Google affiche désormais moins de résultats (2 ou 3 seulement) et propose ce bouton pour ceux qui souhaiteraient en visualiser plus. La numérotation par page a d’ailleurs complètement disparu sur mobile. Ces nouveautés confirment bien que les principales évolutions de Google aujourd’hui concernent la recherche sur mobile et non plus sur ordinateur.
Déjà abonné ? Connectez-vous...
PANORAMA
• La recommandation de contenu appliquée à l’information académique et scientifique
SERVEURS
• STNext : mises au point effectuées
DATAVISUALISATION
• Dataviz : les agrégateurs de presse font-ils la bonne analyse ?
EN BREF
• L’actualité des outils de recherche et de veille
Déjà abonné ? Connectez-vous...
Dans le dernier numéro de NETSOURCES (n°132 - janvier/février 2018), nous avons analysé la place grandissante de la recommandation de contenu dans les outils de recherche aussi bien grand public que professionnels, et l’impact que cela peut avoir sur les pratiques de veille et de recherche d’information.
Nous aborderons aujourd'hui la recommandation appliquée aux outils et sources d’information scientifiques, techniques et académiques :
Quelle est aujourd’hui la place des systèmes de recommandation de contenus dans les moteurs de recherche académiques, les serveurs et bases de données scientifiques, académiques et brevets, les outils de recherche développés par les éditeurs, les réseaux sociaux académiques, etc. ? Et qu'apporte ce système de recommandation au processus de recherche et de veille dans ces domaines ?
Avant d’explorer en détail les fonctionnalités de recommandations présentes chez les outils et sources d’informations scientifiques et académiques, il est important de rappeler la typologie de la recommandation de contenu que nous avions développée dans le précédent article, car derrière le concept de recommandation se cachent des réalités très diverses.
Nous avions choisi de proposer la typologie suivante à laquelle nous continuerons de nous référer tout au long de cet article avec :
La définition précise des différents types de recommandation est disponible dans un encadré intitulé « typologie de la recommandation de contenus » plus loin dans cet article.
La recommandation a toujours été au cœur de la production d’articles scientifiques. D’une part avec les références bibliographiques présentes au sein de chaque article qui peuvent permettre de faire découvrir des articles traitant de la même thématique ou d’un sujet proche et, d’autre part avec le système des citations. En effet, les articles citant un article que nous jugeons pertinent, ont des chances d’être également pertinents dans le cadre de notre recherche ou de notre veille.
Mais au delà de la recommandation classique, on a pu voir se développer dans les outils de recherche scientifiques et académiques des modules ou fonctionnalités de recommandation automatique de contenus, des médias sociaux académiques basés sur une recommandation humaine et également des outils et services dont la recommandation est le cœur de leur activité.
C’est précisément ce que nous allons explorer dans cet article.
Déjà abonné ? Connectez-vous...
Nous avions signalé dans le numéro de janvier 2018 de BASES (n° 355) quelques problèmes de mise au point de la nouvelle interface de STN.
Ces problèmes sont maintenant réglés. En effet, quand on tape une parenthèse sur un clavier AZERTY, elle n’efface plus le caractère précédent.
D’autre part, on peut régler ses « settings » de façon à ce qu'à la déconnexion le système propose automatiquement le déchargement du transcript au moment du logoff. Pour cela, il faut aller dans les settings que l’on trouve dans le menu déroulant qui s’affiche quand on clique sur son nom, puis dans la rubrique « transcript download » activer l’option « Prompt at Logout/Logoff Hold » puis ne pas oublier de cliquer sur « apply » en haut à droite de l’écran.
Pour répondre à la demande grandissante des utilisateurs en termes d’analyse de données et de représentation graphique de ces données (dataviz), les grands agrégateurs de presse ont depuis quelques années déjà, intégré des modules spécifiques dont le but revendiqué est de faciliter l’analyse quantitative d’un grand corpus d’articles sur des critères prédéfinis, et ce, en seulement « quelques clics ».
Ces fonctionnalités supplémentaires sont supposées apporter un vrai plus, en premier lieu par le gain de temps généré, mais également en terme de valorisation de l’information, avec un contenu attirant et immédiatement assimilable.
Tous les grands agrégateurs de presse présents sur le marché français en proposent, avec des positionnements légèrement différents. Ainsi, les modules offerts chez Factiva, Newsdesk (LexisNexis) ou Europresse reposent tous sur des algorithmes et de l’extraction de données automatique (text mining), tandis que Pressedd a fait le choix du sur mesure, avec une qualification humaine et extrêmement fine des articles selon des critères personnalisés qui sont définis en amont avec le client. Par conséquent, les fonctionnalités d’analyse proposées par Pressedd font l’objet d’une facturation spécifique et personnalisée en fonction des besoins (volume, granularité de l’analyse, nombre de tags suivis etc.) quand Factiva ou LexisNexis/Newsdesk l’intègrent en standard dans leur offre, sans coût supplémentaire.
Déjà abonné ? Connectez-vous...
Google et Bing se transforment toujours un peu plus en moteurs de réponses.
En ce début d’année, l’actualité est très riche du côté des moteurs de recherche.
Google a récemment lancé un test où, pour certaines questions simples (comme l’heure qu’il est, convertir des unités ou des monnaies ou encore effectuer des calculs), il affichait directement la réponse sans proposer de liste de résultats naturels (voir figure 1.).
Et si l’on souhaitait accéder aux résultats naturels, il fallait alors cliquer sur un bouton « afficher tous les résultats ».
Au bout de quelques jours cependant, Google a mis fin à l’expérience en indiquant avoir rassemblé « assez de données et de commentaires »...
Fig. 1. Réponse Google sans résultat naturel.
De son côté, Bing a indiqué avoir amélioré ses intelligent answers, ces featured snippets dopés à l’intelligence artificielle au dessus des résultats naturels, capables notamment d’agréger des réponses issus de plusieurs sources qualifiées. Au départ limitées aux Etats-Unis, les intelligent answers se sont récemment étendues au Royaume-Uni et elles sont accessibles pour un nombre de plus en plus important de questions et de sujets. Parmi les autres améliorations, on notera que lorsqu’un terme peu commun apparaît dans les intelligent answers, le terme est alors souligné en bleu et l’internaute peut positionner son curseur dessus et obtenir une définition sans quitter la page.
On voit bien que la transformation de Google et Bing en moteurs de réponses, amorcée depuis environ un an, ne cesse de s’accélérer. Nous aborderons plus en détail cet aspect dans le prochain numéro de BASES avec un compte-rendu de la conférence qui s’est tenue à I-expo 2018 intitulée « L’IA va t-elle tuer ou renforcer les moteurs de recherche ? ».
Depuis quelques mois, Google multiplie les annonces à destination de la presse et se présente de plus en plus comme un apporteur d’affaire pour les éditeurs. En cette fin de mois, il vient d’annoncer le lancement d’un service appelé Subscribe with Google afin de simplifier la procédure d’abonnement des internautes à la presse en ligne.
L’internaute peut s’abonner à des médias en ligne en quelques clics à partir de son compte Google car le géant américain dispose déjà des données utiles à la souscription d’un abonnement (nom, prénom, adresse mail, etc.). En France, Les Echos, Le Figaro, et Le Parisien ont indiqué participer au service et dans le reste du Monde, on compte des acteurs comme le Financial Times, Grupo Globo, La Nación, le New York Times, La Republica, The Telegraph ou encore le Washington Post.
Toujours, sur cette même thématique, Google a annoncé, que dans Google News, il prioriserait les actualités en provenance des médias pour lesquels l’internaute a souscrit un abonnement. Quand à savoir s’il s’agit d’une bonne nouvelle pour la recherche d’information, on est en droit de se poser la question... Ne risque t-on pas de se limiter toujours un peu plus aux sources que l’on connaît déjà et de s’enfermer toujours un peu plus dans sa bulle informationnelle ?
Toujours est-il que ces annonces vont bien dans le sens d’un retour à l’information payante dans le secteur de la presse dont nous nous étions fait l’écho dans l’article « Gratuité de l’information pour la veille : la fin d’une époque ? » (BASES n°355 - janvier 2018).
Prioriser certains types de contenus médias semble être un sujet qui anime tous les grands acteurs du Web en ce début d’année. Facebook ne déroge pas à la règle et avait annoncé fin janvier prioriser les informations locales dans le flux de ses utilisateurs aux Etats-Unis seulement. Cette mesure faisait suite aux nombreuses polémiques sur les fake news et contenus douteux présentés comme locaux qui auraient en fait été rédigés par des médias étrangers. Désormais, cette mesure a été étendue au monde entier et Facebook va donc mettre en avant dans le flux de chaque utilisateur des médias proposant des contenus locaux et des blogs locaux.
Du côté des outils de veille, on notera le rachat de la société Datasift par Meltwater, un acteur bien connu dans le secteur du Social Media Monitoring. Nous avions déjà eu l’occasion de parler de Datasift dans le NETSOURCES n°122 (mai-juin 2016) dans un article intitulé « Datasift : une nouvelle étape dans l’accès aux données des utilisateurs de Facebook ». A l’époque, Datasift disposait d’un partenariat avec Facebook lui donnant accès aux données et contenus des utilisateurs de Facebook qu’ils soient publics ou privés, données qui étaient ensuite anonymisées. Plusieurs plateformes de veille comme Synthesio ou Faveeo utilisaient le service de Datasift pour proposer à leurs utilisateurs et aux marques un accès facilité à l’ensemble des données publiées sur Facebook. Reste maintenant à savoir ce qu’il va advenir des partenariats que Datasift avait mis en place avec un nombre important de plateformes de veille...
On signalera enfin que Deepl, le traducteur en ligne qui concurrence Google Translate et dont la qualité de traduction est souvent bien meilleure que ses concurrents, vient de lancer une version pro. Dans la version gratuite, on ne peut traduire plus de 5000 caractères d’un seul coup. La version payante, elle, n’a pas de limite de taille. D’autre part, Deepl fournit un accès à son API dans la version Pro permettant à des services externes d’intégrer la technologie de Deepl dans leurs outils. Espérons que de nombreux outils de recherche et de veille auront l’intelligence de l’intégrer à leurs outils car il s’agit d’une aide précieuse dans un contexte de veille et de recherche d’informations multilingue.
LITTÉRATURE SCIENTIFIQUE
• Un point sur les nouveaux modes de publication scientifique
AGENDA • L'information au service de la prise de décision est-elle un mythe ?
LITTÉRATURE SCIENTIFIQUE
• Elsevier se pose en alternative à Wikipédia dans le domaine scientifique
RETOUR D’EXPÉRIENCE
• Elsa Drevon : Enseigner la veille pour répondre aux besoins réels des organisations
EN BREF • L’actualité des moteurs et des médias sociaux
Déjà abonné ? Connectez-vous...
La dématérialisation des publications a permis aux éditeurs privés, ainsi qu’aux éditeurs issus de la sphère publique d’explorer de nouveaux territoires. On assiste en particulier à la montée en puissance d’initiatives éditoriales comme celles relevant de l’Open Access dont le but est de proposer un accès en ligne et gratuit aux publications scientifiques.
Penchons-nous dans un premier temps sur le mode de publication scientifique qui a prévalu pendant les 200 dernières années, afin de mieux appréhender la nature des évolutions récentes.
Le modèle traditionnel de publication scientifique repose sur une collaboration entre un producteur de connaissance (le chercheur) et un professionnel de la publication (l’éditeur). Le chercheur obtient auprès de l’éditeur la publication de son travail de recherche, en échange de la cession de ses droits sur ledit travail, et parfois du versement d’une somme complémentaire.
Dans le cas de la publication dite « scientifique », le processus de publication comporte en particulier une étape de validation des travaux par les pairs scientifiques, gage de qualité des travaux publiés. Au-delà du strict service de diffusion de ses travaux, le chercheur acquiert ainsi un accès à la reconnaissance de son travail, répercuté en termes de prestige plus ou moins grand en fonction du degré d’exigence de la revue choisie.
Penchons-nous sur la nature des services rendus par les éditeurs et les modalités de leur exécution. La figure 1 décrit les taches habituellement prises en charge par les uns et les autres.
Figure 1. Étapes nécessaires à la publication des travaux scientifique dans le modèle traditionnel, et répartition des tâches entre les éditeurs et le monde académique, auteur des travaux. ©Marie-Laure Chesne-Seck
Après une période de gestation et d’expérimentation qui peut couvrir plusieurs années, le chercheur synthétise les résultats de recherche qu’il juge aboutis, selon des critères propres à chaque champ de spécialité.
Ce premier manuscrit est habituellement désigné sous le nom de preprint. Il contient les résultats de recherche bruts, hors de tout examen par les pairs scientifiques. Le chercheur choisit alors un journal auquel il soumet le texte de son preprint suivant le modèle fourni par l’éditeur. Sur la base du texte brut, l’éditeur fait un premier tri, et s’il retient le manuscrit, amorce le processus de revue par les pairs.
Parfois sur suggestion de l’auteur, l’éditeur contacte un ou plusieurs experts à même de juger de la validité du travail soumis. Le processus peut aussi se faire en « simple aveugle » (les auteurs ne connaissent pas les pairs) ou en « double aveugle » (auteurs et pairs ne se connaissent pas). L’idée est de prévenir tout biais qui pourrait entacher l’impartialité de l’évaluation. Cette étape nécessite donc l’intervention d’un médiateur pour organiser le recueil des remarques des uns et des réponses des autres, effectuer le suivi des différentes versions du manuscrit. Dans le cas où l’on parvient à une version satisfaisante (le texte peut être rejeté au cours du processus), l’article est dit « accepté ».
Déjà abonné ? Connectez-vous...
L’habitude est prise par beaucoup de démarrer une recherche sur un sujet scientifique non familier dans Wikipedia, et plus généralement sur le Web l'éditeur Elsevier a lancé récemment ScienceDirect Topics pour proposer une alternative.
Cette «couche» créée par Elsevier, ajoutée à son produit ScienceDirect vise à répondre à ces questions de premier niveau qui ne sont en général pas traitées dans les articles scientifiques disponibles sur la plateforme car ils sont trop pointus. Elsevier considère, en effet, que ces réponses de premier niveau peuvent plutôt se trouver dans des chapitres de sa collection d’e-books constituée, en particulier d’encyclopédies et d’ouvrages de référence.
Pratiquement tous les domaines scientifiques sont couverts ou en passe de l’être.
Si l’accès à ces chapitres d’e-books est payant pour le lecteur (31,50 $) (sauf, bien sûr, si l’Université/organisme a souscrit à ces collections d’e-books), les extraits que propose ScienceDirect Topics sont, quant à eux, gratuits.
Pour une thématique donnée, on trouve une dizaine d’extraits, dont certains assez longs, ce qui permet de bien se faire une première idée.
Il n’y a pas de possibilité de recherche dans le Topic Index qui contient 80 000 termes, et bientôt 110 000, mais uniquement un accès par l’initiale du sujet à partir de laquelle on obtient la (longue) liste de sujets pris en compte… Il faut alors en sélectionner un. Ces sujets sont extrêmement pointus. On distingue, par exemple «N,N-dimethylacetamide», «N,N-dimethylaniline», «N,N-dimethylformamide» et «N,N dimethylformamide dimethyl acetal». Notons que pour chaque topic, le système propose une série de related terms qui sont autant de propositions de topics proches de celui qui a été sélectionné.
Déjà abonné ? Connectez-vous...
Entretien croisé entre Elsa Drevon, responsable du cours « Veille stratégique » à l’EBSI (Ecole de Bibliothéconomie et des Sciences de l’Information) à l’Université de Montréal et candidate au doctorat et Carole Tisserand-Barthole, rédactrice en chef de BASES et NETSOURCES.
Nous plongerons au coeur de l'enseignement de la formation à la veille et l'infodoc au Canada, ainsi que dans les meilleures pratiques "d'auto-formation".
Déjà abonné ? Connectez-vous...