Pour répondre à la demande grandissante des utilisateurs en termes d’analyse de données et de représentation graphique de ces données (dataviz), les grands agrégateurs de presse ont depuis quelques années déjà, intégré des modules spécifiques dont le but revendiqué est de faciliter l’analyse quantitative d’un grand corpus d’articles sur des critères prédéfinis, et ce, en seulement « quelques clics ».
Ces fonctionnalités supplémentaires sont supposées apporter un vrai plus, en premier lieu par le gain de temps généré, mais également en terme de valorisation de l’information, avec un contenu attirant et immédiatement assimilable.
Tous les grands agrégateurs de presse présents sur le marché français en proposent, avec des positionnements légèrement différents. Ainsi, les modules offerts chez Factiva, Newsdesk (LexisNexis) ou Europresse reposent tous sur des algorithmes et de l’extraction de données automatique (text mining), tandis que Pressedd a fait le choix du sur mesure, avec une qualification humaine et extrêmement fine des articles selon des critères personnalisés qui sont définis en amont avec le client. Par conséquent, les fonctionnalités d’analyse proposées par Pressedd font l’objet d’une facturation spécifique et personnalisée en fonction des besoins (volume, granularité de l’analyse, nombre de tags suivis etc.) quand Factiva ou LexisNexis/Newsdesk l’intègrent en standard dans leur offre, sans coût supplémentaire.
Déjà abonné ? Connectez-vous...
Google et Bing se transforment toujours un peu plus en moteurs de réponses.
En ce début d’année, l’actualité est très riche du côté des moteurs de recherche.
Google a récemment lancé un test où, pour certaines questions simples (comme l’heure qu’il est, convertir des unités ou des monnaies ou encore effectuer des calculs), il affichait directement la réponse sans proposer de liste de résultats naturels (voir figure 1.).
Et si l’on souhaitait accéder aux résultats naturels, il fallait alors cliquer sur un bouton « afficher tous les résultats ».
Au bout de quelques jours cependant, Google a mis fin à l’expérience en indiquant avoir rassemblé « assez de données et de commentaires »...
Fig. 1. Réponse Google sans résultat naturel.
De son côté, Bing a indiqué avoir amélioré ses intelligent answers, ces featured snippets dopés à l’intelligence artificielle au dessus des résultats naturels, capables notamment d’agréger des réponses issus de plusieurs sources qualifiées. Au départ limitées aux Etats-Unis, les intelligent answers se sont récemment étendues au Royaume-Uni et elles sont accessibles pour un nombre de plus en plus important de questions et de sujets. Parmi les autres améliorations, on notera que lorsqu’un terme peu commun apparaît dans les intelligent answers, le terme est alors souligné en bleu et l’internaute peut positionner son curseur dessus et obtenir une définition sans quitter la page.
On voit bien que la transformation de Google et Bing en moteurs de réponses, amorcée depuis environ un an, ne cesse de s’accélérer. Nous aborderons plus en détail cet aspect dans le prochain numéro de BASES avec un compte-rendu de la conférence qui s’est tenue à I-expo 2018 intitulée « L’IA va t-elle tuer ou renforcer les moteurs de recherche ? ».
Depuis quelques mois, Google multiplie les annonces à destination de la presse et se présente de plus en plus comme un apporteur d’affaire pour les éditeurs. En cette fin de mois, il vient d’annoncer le lancement d’un service appelé Subscribe with Google afin de simplifier la procédure d’abonnement des internautes à la presse en ligne.
L’internaute peut s’abonner à des médias en ligne en quelques clics à partir de son compte Google car le géant américain dispose déjà des données utiles à la souscription d’un abonnement (nom, prénom, adresse mail, etc.). En France, Les Echos, Le Figaro, et Le Parisien ont indiqué participer au service et dans le reste du Monde, on compte des acteurs comme le Financial Times, Grupo Globo, La Nación, le New York Times, La Republica, The Telegraph ou encore le Washington Post.
Toujours, sur cette même thématique, Google a annoncé, que dans Google News, il prioriserait les actualités en provenance des médias pour lesquels l’internaute a souscrit un abonnement. Quand à savoir s’il s’agit d’une bonne nouvelle pour la recherche d’information, on est en droit de se poser la question... Ne risque t-on pas de se limiter toujours un peu plus aux sources que l’on connaît déjà et de s’enfermer toujours un peu plus dans sa bulle informationnelle ?
Toujours est-il que ces annonces vont bien dans le sens d’un retour à l’information payante dans le secteur de la presse dont nous nous étions fait l’écho dans l’article « Gratuité de l’information pour la veille : la fin d’une époque ? » (BASES n°355 - janvier 2018).
Prioriser certains types de contenus médias semble être un sujet qui anime tous les grands acteurs du Web en ce début d’année. Facebook ne déroge pas à la règle et avait annoncé fin janvier prioriser les informations locales dans le flux de ses utilisateurs aux Etats-Unis seulement. Cette mesure faisait suite aux nombreuses polémiques sur les fake news et contenus douteux présentés comme locaux qui auraient en fait été rédigés par des médias étrangers. Désormais, cette mesure a été étendue au monde entier et Facebook va donc mettre en avant dans le flux de chaque utilisateur des médias proposant des contenus locaux et des blogs locaux.
Du côté des outils de veille, on notera le rachat de la société Datasift par Meltwater, un acteur bien connu dans le secteur du Social Media Monitoring. Nous avions déjà eu l’occasion de parler de Datasift dans le NETSOURCES n°122 (mai-juin 2016) dans un article intitulé « Datasift : une nouvelle étape dans l’accès aux données des utilisateurs de Facebook ». A l’époque, Datasift disposait d’un partenariat avec Facebook lui donnant accès aux données et contenus des utilisateurs de Facebook qu’ils soient publics ou privés, données qui étaient ensuite anonymisées. Plusieurs plateformes de veille comme Synthesio ou Faveeo utilisaient le service de Datasift pour proposer à leurs utilisateurs et aux marques un accès facilité à l’ensemble des données publiées sur Facebook. Reste maintenant à savoir ce qu’il va advenir des partenariats que Datasift avait mis en place avec un nombre important de plateformes de veille...
On signalera enfin que Deepl, le traducteur en ligne qui concurrence Google Translate et dont la qualité de traduction est souvent bien meilleure que ses concurrents, vient de lancer une version pro. Dans la version gratuite, on ne peut traduire plus de 5000 caractères d’un seul coup. La version payante, elle, n’a pas de limite de taille. D’autre part, Deepl fournit un accès à son API dans la version Pro permettant à des services externes d’intégrer la technologie de Deepl dans leurs outils. Espérons que de nombreux outils de recherche et de veille auront l’intelligence de l’intégrer à leurs outils car il s’agit d’une aide précieuse dans un contexte de veille et de recherche d’informations multilingue.
LITTÉRATURE SCIENTIFIQUE
• Un point sur les nouveaux modes de publication scientifique
AGENDA • L'information au service de la prise de décision est-elle un mythe ?
LITTÉRATURE SCIENTIFIQUE
• Elsevier se pose en alternative à Wikipédia dans le domaine scientifique
RETOUR D’EXPÉRIENCE
• Elsa Drevon : Enseigner la veille pour répondre aux besoins réels des organisations
EN BREF • L’actualité des moteurs et des médias sociaux
Déjà abonné ? Connectez-vous...
La dématérialisation des publications a permis aux éditeurs privés, ainsi qu’aux éditeurs issus de la sphère publique d’explorer de nouveaux territoires. On assiste en particulier à la montée en puissance d’initiatives éditoriales comme celles relevant de l’Open Access dont le but est de proposer un accès en ligne et gratuit aux publications scientifiques.
Penchons-nous dans un premier temps sur le mode de publication scientifique qui a prévalu pendant les 200 dernières années, afin de mieux appréhender la nature des évolutions récentes.
Le modèle traditionnel de publication scientifique repose sur une collaboration entre un producteur de connaissance (le chercheur) et un professionnel de la publication (l’éditeur). Le chercheur obtient auprès de l’éditeur la publication de son travail de recherche, en échange de la cession de ses droits sur ledit travail, et parfois du versement d’une somme complémentaire.
Dans le cas de la publication dite « scientifique », le processus de publication comporte en particulier une étape de validation des travaux par les pairs scientifiques, gage de qualité des travaux publiés. Au-delà du strict service de diffusion de ses travaux, le chercheur acquiert ainsi un accès à la reconnaissance de son travail, répercuté en termes de prestige plus ou moins grand en fonction du degré d’exigence de la revue choisie.
Penchons-nous sur la nature des services rendus par les éditeurs et les modalités de leur exécution. La figure 1 décrit les taches habituellement prises en charge par les uns et les autres.
Figure 1. Étapes nécessaires à la publication des travaux scientifique dans le modèle traditionnel, et répartition des tâches entre les éditeurs et le monde académique, auteur des travaux. ©Marie-Laure Chesne-Seck
Après une période de gestation et d’expérimentation qui peut couvrir plusieurs années, le chercheur synthétise les résultats de recherche qu’il juge aboutis, selon des critères propres à chaque champ de spécialité.
Ce premier manuscrit est habituellement désigné sous le nom de preprint. Il contient les résultats de recherche bruts, hors de tout examen par les pairs scientifiques. Le chercheur choisit alors un journal auquel il soumet le texte de son preprint suivant le modèle fourni par l’éditeur. Sur la base du texte brut, l’éditeur fait un premier tri, et s’il retient le manuscrit, amorce le processus de revue par les pairs.
Parfois sur suggestion de l’auteur, l’éditeur contacte un ou plusieurs experts à même de juger de la validité du travail soumis. Le processus peut aussi se faire en « simple aveugle » (les auteurs ne connaissent pas les pairs) ou en « double aveugle » (auteurs et pairs ne se connaissent pas). L’idée est de prévenir tout biais qui pourrait entacher l’impartialité de l’évaluation. Cette étape nécessite donc l’intervention d’un médiateur pour organiser le recueil des remarques des uns et des réponses des autres, effectuer le suivi des différentes versions du manuscrit. Dans le cas où l’on parvient à une version satisfaisante (le texte peut être rejeté au cours du processus), l’article est dit « accepté ».
Déjà abonné ? Connectez-vous...
L’habitude est prise par beaucoup de démarrer une recherche sur un sujet scientifique non familier dans Wikipedia, et plus généralement sur le Web l'éditeur Elsevier a lancé récemment ScienceDirect Topics pour proposer une alternative.
Cette «couche» créée par Elsevier, ajoutée à son produit ScienceDirect vise à répondre à ces questions de premier niveau qui ne sont en général pas traitées dans les articles scientifiques disponibles sur la plateforme car ils sont trop pointus. Elsevier considère, en effet, que ces réponses de premier niveau peuvent plutôt se trouver dans des chapitres de sa collection d’e-books constituée, en particulier d’encyclopédies et d’ouvrages de référence.
Pratiquement tous les domaines scientifiques sont couverts ou en passe de l’être.
Si l’accès à ces chapitres d’e-books est payant pour le lecteur (31,50 $) (sauf, bien sûr, si l’Université/organisme a souscrit à ces collections d’e-books), les extraits que propose ScienceDirect Topics sont, quant à eux, gratuits.
Pour une thématique donnée, on trouve une dizaine d’extraits, dont certains assez longs, ce qui permet de bien se faire une première idée.
Il n’y a pas de possibilité de recherche dans le Topic Index qui contient 80 000 termes, et bientôt 110 000, mais uniquement un accès par l’initiale du sujet à partir de laquelle on obtient la (longue) liste de sujets pris en compte… Il faut alors en sélectionner un. Ces sujets sont extrêmement pointus. On distingue, par exemple «N,N-dimethylacetamide», «N,N-dimethylaniline», «N,N-dimethylformamide» et «N,N dimethylformamide dimethyl acetal». Notons que pour chaque topic, le système propose une série de related terms qui sont autant de propositions de topics proches de celui qui a été sélectionné.
Déjà abonné ? Connectez-vous...
Entretien croisé entre Elsa Drevon, responsable du cours « Veille stratégique » à l’EBSI (Ecole de Bibliothéconomie et des Sciences de l’Information) à l’Université de Montréal et candidate au doctorat et Carole Tisserand-Barthole, rédactrice en chef de BASES et NETSOURCES.
Nous plongerons au coeur de l'enseignement de la formation à la veille et l'infodoc au Canada, ainsi que dans les meilleures pratiques "d'auto-formation".
Déjà abonné ? Connectez-vous...
En ce début d’année, l’actualité de Bing et Google ne manque pas.
Et ce qui fait beaucoup parler, ce sont les featured snippets de Google et de Bing.
Affiché dans un cadre spécifique et au-dessus des résultats dits « naturels », en « position 0 », le featured snippet constitue une réponse à la question posée par l’internaute et est extrait directement d’une page Web.
Très critiqués en 2017 pour faire apparaître régulièrement des contenus issus de sites douteux ou relayant des fake news, Google a finalement pris le taureau par les cornes et s’est enfin attaqué au problème.
Il a apporté des améliorations quant à la qualité des résultats et des sources présentées dans les featured snippets. Pour certaines questions, Google va même en afficher plusieurs, ce qui pourra être utile quand il existe des informations contradictoires ou plusieurs réponses à une même question ou encore différentes interprétations possibles. Cette fonctionnalité proposant des réponses multiples vient d’être déployée sur mobile et devrait être implémentée sur ordinateur prochainement.
De son côté, Bing offre également un équivalent des featured snippets depuis quelque temps mais il propose depuis la fin de l’année ce qu’il appelle des intelligent answers soit des réponses intelligentes. L’idée étant d’agréger une réponse issue de plusieurs sources reconnues ou de proposer plusieurs points de vue différents sur une même question.
Les réponses intelligentes fonctionnent aux Etats-Unis pour le moment et devraient s’étendre au reste du monde dans les prochains mois.
Attention cependant : on n’est jamais à l’abri d’obtenir dans les featured snippets des réponses issues de sources douteuses et peu fiables. On continuera donc à faire fonctionner son sens critique...
Autre nouveauté chez Google, l’introduction de résultats directement depuis la barre du navigateur (voir figure 1.). Même plus besoin de consulter la liste de résultats pour visualiser la réponse. Cela ne fonctionne que sur Chrome. Et comme pour le featured snippets, cela ne fonctionne que pour des questions simples générant une réponse simple et limitée.
Figure 1. Pour une recherche sur météo paris, Chrome affiche directement le temps et la température dans la barre du navigateur.
Dans la liste de résultats cette fois-ci, Google a déployé depuis peu sur sa version desktop la fonction « recherches associées » dans les résultats cliqués (voir figure 2.). Jusqu’à présent, lorsqu’on lançait une recherche, Google nous proposait tout en bas de la liste de résultats des « recherches associées ».
Figure 2. Fonction recherche associée dans les résultats cliqués
Cela n’a pas disparu mais si vous cliquez sur un résultat et que vous revenez ensuite sur la liste de résultats Google, vous avez alors une liste de « recherches associées » qui s’affichent en dessous du résultat en question. Et nous avons fait le test, les « recherches associées » affichées varient d’un résultat à l’autre malgré une même requête initiale.
A garder en tête pour cibler ou réorienter sa recherche.
Nous nous intéresserons d’ailleurs dans un prochain numéro de NETSOURCES à la question des requêtes ou recherches associées et de la reformulation automatique de requêtes de plus en plus présentes chez les grands acteurs du Web mais également sur les outils de recherche professionnels, et de leur impact sur la recherche d’information et la veille professionnelle.
Du côté de la recherche d’images, Google Images a supprimé le bouton View Image à droite de l’image affichée. Les internautes devront alors se rendre sur la page source de l’image pour pouvoir visualiser l’image en grand format. Cela fait suite à une plainte de Getty Images contre Google pour pratiques anti-concurrentielles.
Du côté de Twitter, on apprenait ce mois-ci qu’il allait enfin permettre de sauvegarder des tweets pour les lire plus tard.
Même si c’est une fonctionnalité présente sur de nombreux médias sociaux et outil du Web 2.0, ce n’était pas encore le cas de Twitter.
SERVEURS
• Les évolutions d’Orbit
• Les petits soucis du lancement de STNext
A LIRE • « Les dirigeants face à l’information », l’ouvrage qui interroge les professionnels de l’information en entreprise
COMPTE-RENDU DE CONFÉRENCE • Internet Librarian 2017
TENDANCES • Gratuité de l’information pour la veille : la fin d’une époque ?
ACTUALITÉ • L’actualité de janvier 2018
INDEX • Index BASES
Déjà abonné ? Connectez-vous...
La réunion parisienne des utilisateurs d’Orbit a été l’occasion de faire le point sur les nouveautés déjà opérationnelles ou proches de leur mise à disposition.
Une première tendance a été fortement mise en avant, qui est celle des différentes analyses possibles des résultats en fonction d’une multitude de critères avec toujours plus d’options de visualisation, en particulier de coloriage pour une analyse plus facile.
Si l’on a souscrit à l’option Platinum, on dispose même de près d’une vingtaine de graphes prédéfinis, avec, parmi eux, un graphe indiquant les dépenses brevets d’un ensemble de sociétés.
Déjà abonné ? Connectez-vous...
Il est rare que la mise en ligne d’un nouveau logiciel ne génère pas quelques soucis. STNext n’y a pas échappé. En effet, on rencontre un problème lorsque l’on utilise une parenthèse avec un clavier AZERTY car cette parenthèse efface le caractère précédent.
Par exemple, si l’on tape S (un terme) le S est effacé et la commande ne peut être exécutée. On ne peut donc faire que des stratégies de recherches qui ne comportent pas de parenthèse ce qui est évidemment très restrictif.
Pour pallier cet inconvénient, il y a plusieurs solutions : utiliser un clavier QWERTY, ou bien utiliser Command Window accessible à partir de la flèche en bas à gauche de l’écran si l’on veut rester sur STNext.
Sinon, on peut bien sûr utiliser STN on the Web ou STN Express.
Autre «détail» à prendre en compte si l’on utilise STNext : il faut penser à récupérer le transcript avant de se déconnecter, contrairement à ce qui se passe avec STN on the Web où l'on accède au transcript après la déconnexion.
Pour ceux qui n’ont pas de contrat forfaitaire, cela augmente inutilement les coûts.