Contenu d’un nouveau type, parfois éphémère, mais qui s’affirme comme un media d’information « puissant », le podcast d’information est issu à 65 % de la presse écrite. Il est alors conçu soit comme un canal complémentaire, soit comme un véritable produit d’information avec un contenu original (dit natif), que l’on ne retrouve nulle part ailleurs.
En tant que professionnel de l’information, le veilleur est à l’affut de toute information, quel que soit son format. Avec le podcast, il se heurte à une variété de contenus et d’accès dont dépendra la collecte.
Il faut non seulement le collecter, mais aussi le traiter et l’intégrer à sa production documentaire ou à son livrable de veille.
Voir « Les nouveaux formats des médias appellent de nouvelles méthodes et outils de recherche », NETSOURCES n°150, janvier-février 2021
L’intégration de l’IA dans les outils de recherche est le grand sujet de ce début d’année 2023. Et cela s’applique également au monde des moteurs de recherche académique.
Il y a quelques mois, nous présentions Elicit, un moteur innovant qui se présente comme un assistant dopé à l’IA
Voir notre article « Elicit, un nouveau moteur scientifique au banc d’essais » - BASES n°404 - juin 2022
Dans la même veine, nous nous intéressons maintenant à un nouvel outil : Consensus dont nous allons analyser les capacités, les forces, les faiblesses et la valeur ajoutée pour le professionnel de l’information.
Exporter ses résultats de recherche peut être utile pour identifier ou analyser un corpus. Le MediaLab de Sciences Po a conçu 2 « Google Bookmarklets » pour exporter ses résultats en fichier .csv.
1. Rendez-vous à cette adresse
2. Glissez les deux icônes dans la barre de favoris du navigateur pour installer les deux boutons. Rappel : pour afficher votre barre de favoris : Ctrl+Maj+B
ou dans les options de vos favoris.
3. Effectuez votre recherche sur Google.
4. La première icône « Switch to Classic Google » permet de définir les modalités d’extraction : nombres de résultats et langage. Cliquez sur le bouton ‘Redirect Me’ pour valider votre configuration.
5. La seconde icône « Extract Google Results Page » qui, comme son nom l’indique, exportera les résultats dans le fichier csv correspondant. Si vous souhaitez décharger plusieurs pages de résultats, il faudra alors cliquer sur le bouton « Keep Existing Results & continue to the next page ». Cette option agrègera au fur et à mesure les résultats. Quand vous avez suffisamment de données, cliquez sur le bouton « Download Complete csv».
Une fois téléchargé, le fichier csv peut nécessiter quelques manipulations complémentaires pour réattribuer les cellules à des champs. Une ultime étape un peu fastidieuse mais un moindre mal compte tenu de l’opportunité que cela représente !
Le nouveau moteur prometteur Neeva vient de lancer une fonctionnalité pour faciliter la lecture des résultats issus du réseau social Reddit (réseau, qui rappelons-le a une place très importante aux Etats-Unis mais gagne aussi en popularité en Europe). Cependant, cette fonctionnalité n’est pas encore disponible en France mais devrait arriver prochainement !
Fonctionnement
Le moteur regroupe dans une rubrique « Discussions », les résultats issus des forums et réseaux sociaux. Quand un résultat provient de Reddit, il propose une option « Summary » qui génère, grâce à son IA, un résumé automatique avec la question initiale posée et un résumé des 5 commentaires les plus « importants » selon différents critères : nombre de votes, longueur de la réponse et popularité de l’auteur.
Avantage pour la recherche d’information et la veille
PubMed, moteur académique spécialisé dans le biomédical, vient d’ajouter une nouvelle fonctionnalité à son moteur de recherche qui permet aux utilisateurs de déterminer le nombre de mots maximum entre deux termes. Dans un contexte où les fonctionnalités de recherche sophistiquées tendent à disparaître, il est très appréciable de voir un moteur qui en réintroduit pour nous permettre de mieux cibler nos recherches sans être trop restrictif !
Exemple : pour rechercher le terme hip à deux mots maximum du terme pain, on écrira la requête suivante : "hip pain"[Title/Abstract:~2]
Les termes à rechercher à proximité sont à mettre entre guillemets, les champs où les mots clés doivent apparaître entre crochets comme par exemple [Title/Abstract]
et le tilde suivi d’un chiffre ~N
correspond au nombre maximum de mots entre les termes de recherche.
Dans notre exemple, cela permet de retrouver des documents citant « Hip related pain » ou « pain in right hip ».
Depuis leur apparition il y a un peu moins de 400 ans, les revues scientifiques ont été confrontées à de nombreuses évolutions : le passage du papier au numérique, l’apparition des preprints, le développement de l’open access et plus largement de l’open science, etc.
Mais s’il y a bien quelque chose qui n’a que très peu changé, c'est la structure même de l’article scientifique. Malgré une transformation digitale, la version numérique de l’article, souvent en PDF, est presque toujours semblable à ce qui existait déjà au format papier.
Certains acteurs commencent à modifier la structure même de l’article scientifique ou tout du moins à proposer un modèle de diffusion qui ne soit plus limité à ce format très codifié et où les différentes parties d’un article peuvent vivre indépendamment les unes des autres.
Le nouveau moteur de recherche Kagi Search travaille actuellement sur un nouveau projet de recherche baptisé « Mother ».
Lorsqu’on pose une question à Mother, une IA de recherche sur le web « user-centric », « maman » ne se contente pas de fournir une liste de sources, mais en fait le résumé automatique.
Si on lui demande par exemple de comparer le nombre d’habitants entre deux villes, elle fournira directement une réponse synthétique issue de plusieurs sources, et non une liste de sources où aller chercher. Elle répond aussi à des questions comme « Pourquoi la terre est ronde ? ».
Pappers, le moteur de recherche gratuit d’information légale et financière des entreprises françaises, vient d’ajouter les décisions de justice à sa base de données.
Le site utilise les données issues de l’open data des décisions de justice pour mettre en ligne l’ensemble des décisions de jurisprudence sur ses fiches entreprises. Pour effectuer une recherche au-delà de la consultation d’une fiche, il vaut toutefois mieux privilégier la version bêta du moteur dédié aux décisions de justice (https://justice.pappers.fr/), plus efficace que le moteur du site.
Outre des résultats plus complets, ce moteur dédié propose des filtres « Juridiction », « date de la décision », « Publication », « Dispositif », « Textes de loi cités » et « Textes de loi non cités ».
Il n’est pas toujours simple de réaliser des recherches satisfaisantes sur les réseaux sociaux tant les fonctionnalités sont limitées. C’était notamment le cas pour Instagram qui proposait jusqu’à très récemment une version desktop très limitée comparée à son application mobile.
Au début du mois de novembre, Instagram a annoncé le lancement d’une nouvelle version de son site instagram.com sur le web. Au-delà des améliorations cosmétiques, il y a une nouveauté importante qui va améliorer la recherche pour les professionnels de l’information.
Jusqu’à présent, quand on lançait une recherche sur un hashtag dans Instagram (sur la version desktop), on ne visualisait dans les résultats qu’une petite sélection de contenus appelée « meilleures publications ». Il fallait passer par l’application mobile d’Instagram pour voir tous les résultats associés à un hashtag classés par ordre antéchronologique.
Si les entreprises, marques et outils n’hésitent pas à communiquer sur leurs succès, leurs lancements de produits ou l’ajout de nouvelles sources et fonctionnalités, il est plus rare qu’ils communiquent sur leurs actualités « négatives » comme le retrait de fonctionnalités ou de sources ou leur disparition.
Nous signalons ici les récentes disparitions qui peuvent venir affecter le professionnel dans l’exercice de sa veille et de ses recherches :