|
---|
|
---|
Ce n’est pas parce que Google Podcasts va disparaître (pour être intégré à YouTube Music) que cela va sonner la fin des podcasts et leur intérêt pour le veilleur.
Zoom sur les dernières grandes tendances :
Ces grandes tendances nous invitent à réfléchir sur la place des podcasts dans nos processus de veille. L’expérience nous montre que les podcasts peuvent être extrêmement pertinents pour certaines veilles avec des contenus que l’on ne retrouve nulle part ailleurs. Le format long laisse d’ailleurs beaucoup plus la place à de l’analyse et au décryptage, ce qui est très précieux.
Ces tendances nous invitent donc à consacrer nos efforts sur podcasts d’information plutôt que sur les podcasts de marques qui sont visiblement dans une mauvaise passe. Mais l’identification de podcasts reste un point sensible. Dans le dernier numéro de BASES, on vous explique tout pour « Identifier des podcasts pour sa veille ».
Il faut aussi avoir conscience que certains podcasts aujourd’hui gratuits pourraient devenir payants. Il faudra alors s’adapter et faire des choix comme on le fait déjà depuis plusieurs années avec la presse.
Le développement de produits et fonctionnalités d’IA devrait aussi nous permettre de mieux intégrer les podcasts en langue étrangère à nos veilles. Le cas de Spotify est encore anecdotique mais cela pourrait devenir la norme dans les années à venir. Aujourd’hui, on peut d’ores et déjà injecter des podcasts dans des outils de speech to text pour récupérer la transcription et traduire ensuite ce transcript grâce à des outils de traduction et faire des recherches par mot-clé dessus. Tout cela fait indéniablement gagner du temps et permet d’inclure des podcasts pertinents dans ses veilles là où on les aurait tout simplement exclus du sourcing il y a quelques années par manque de temps.
Pour aller plus loin :
🎁 – Notre recommandation de podcast à intégrer à sa veille métier : TechSources, une pépite avec des intervenants de qualité pour découvrir des sources (newsletters, podcasts, sites...) mais aussi des outils et des méthodes/pratiques à intégrer à ses propres veilles.
Il y a quelques semaines, Google a annoncé une mise à jour de ses algorithmes de classement appelée « Hidden Gems » (soit « pépites cachées »).
Le but : mettre en valeur des contenus offrant une expertise ou une expérience unique émanant notamment des médias sociaux, blogs et forums et en favorisant les informations utiles créées pour les humains plutôt que pour le classement dans les moteurs de recherche.
A quelques jours d’intervalles, X (ex-Twitter) a quant à lui annoncé une « mise à jour majeure » de son algorithme pour inclure des comptes plus petits.
Le but visé est ici sensiblement le même : faire découvrir aux utilisateurs de nouveaux comptes qui correspondent à leurs besoins informationnels mais seraient jusqu’à présent passés inaperçus.
Ce mouvement opéré par Google et X n’est certainement pas désintéressé, il en va surtout de leur survie face aux assistant IA pour le premier et face à la fuite des grands comptes pour l’autre.
Mais si les algorithmes réussissent à réellement faire ressortir ces pépites, c’est plutôt une bonne nouvelle pour les veilleurs notamment pour la phase de sourcing. Cela fait en effet des années qu’il est de plus en plus difficile d’identifier les sources expertes les plus pertinentes tant les pages de résultats sont polluées par des résultats commerciaux ou des résultats informatifs, certes, mais rédigées par des entreprises et des marques (le fameux marketing de contenus).
Suite à la mise à jour Google, certains sites commencent depuis à voir une augmentation du trafic depuis Google, c’est par exemple le cas de certains forums hébergés sur Google groups.
En attendant des résultats concrets, on continuera à peaufiner son sourcing en tirant parti du trio gagnant : outils, sources et mots-clés et en partant à la recherche de pépites informationnelles qui n’ont pas forcément pignon sur rue.
Pour aller plus loin :
Sourcing : de la théorie à l’épreuve de la pratique
Comment intégrer les médias indépendants à son sourcing international
Comment enrichir son sourcing grâce à Google Sheets, Airtable & les autres ?
Sourcing : comment détecter des médias réellement nouveaux ?
Les portails documentaires en libre accès : de l’or brut pour le veilleur
Un des grands espoirs de l’IA pour la veille et la recherche d’information est de réussir à traiter et analyser des très gros volumes de données pour en extraire des informations et signaux, ce qu’il est impossible de faire humainement ou qui est extrêmement chronophage.
Deux tests récents nous montrent que la route pour en arriver là est encore longue.
Le premier exemple (Pressure Testing GPT-4-128K With Long Context Recall) nous vient de Gregory Kamradt, un entrepreneur spécialisé dans l’IA qui a testé les capacités de GPT4 à retrouver des informations/faits dans des textes longs (jusqu’à 128 000 tokens – D’après ChatGPT, un document de 128 000 tokens pourrait occuper environ 250 à 300 pages).
Constat : Il en ressort que les performances de GPT-4 ont commencé à se dégrader au-delà de 73 000 tokens (150 à 180 pages). Au-delà d’une certaine taille de document, GPT-4 a donc beaucoup plus de mal à retrouver une info qui est pourtant bien présente. Et là où il s’avère le plus mauvais, c’est quand l’information se trouve dans la première moitié du document à l’exception du tout début de l’article. GPT-4 réussissait en revanche très bien à retrouver les informations placées au tout début du document et dans la 2e moitié.
Il en conclut qu’il faut partir du principe qu’il n’y a aucune garantie que les outils utilisant GPT-4 sont capables de retrouver des informations dans des documents.
Gregory Kamradt avait ensuite fait un test similaire avec Claude 2.1 et arrivait à la conclusion que Claude retrouvait bien les informations placées au début et à la fin du document mais moins celles au milieu et que la performance se dégradait quand le document faisait plus de 90 000 tokens (180 à 220 pages).
Deuxième exemple, fourni cette fois-ci par Anthropic, l’entreprise qui est derrière l’IA Claude pour répondre au test mené par Gregory Kamradt. Eux, ont comparé les performances de Claude 2.0 et 2.1 à retrouver des informations dans des longs textes. Les tests menés par leurs équipes montrent globalement que les performances s’améliorent entre Claude 2.0 et Claude 2.1. Mais la qualité des réponses varie selon la taille du document : quand le document fait 70 000 tokens (140 à 170 pages), Claude 2.1 retrouve moins bien les informations placées au milieu du document. Quand le document fait 195 000 tokens (400 à 500 pages), c’est quand l’information est placée au début du document qu’il est le plus mauvais même si le taux d’erreur n’est évalué qu’à 4%.
Dans un contexte où les veilleurs se posent le plus en plus la question d’utiliser des outils qui permettent de résumer et d’interroger des documents et des contenus (voir notre article Les meilleurs outils IA pour résumer et interroger les contenus de la veille), ces tests nous rappellent qu’aucun outil ou fonctionnalité IA pour interroger des document ne nous garantit de trouver l’information que l’on cherche même si elle s’y trouve. S’il la trouve, tant mieux, s’il ne trouve pas, il ne faut surtout pas s’arrêter à cette réponse et on embrayera sur d’autres méthodes de recherche notamment par mot-clé classique.
Plus que jamais, dans un contexte où on utilise de plus en plus d’outils de recherche « boîte noire », il faut multiplier les méthodes et les outils quand on fait de la veille et des recherches. Autant les outils de recherche professionnels (agrégateurs de presse payants, bases de données, serveurs, moteurs des lecteurs de flux RSS, etc.) nous garantissent de retrouver tous les documents citant les mots-clés que nous avons entrés (mais le volume à traiter peut être titanesque), autant tous les autres outils fonctionnant avec des algorithmes de pertinence et de sélection ne nous apportent aucune garantie de retrouver une information ou de fournir la meilleure réponse à la question posée.
Il faut donc pouvoir combiner les deux approches sans en abandonner une au profit de l’autre.