À l’heure où OpenAI lance SearchGPT, son propre moteur de recherche intégré directement dans son chatbot, une question brûle sur toutes les lèvres : SearchGPT va-t-il détrôner Google ?
Au-delà de la « simple » question du modèle économique de Google et toutes réserves faites par ailleurs sur la robustesse des modèles d’IA face à leurs ambitions de déploiement planétaire, une autre question tout aussi cruciale nous semble se profiler : comment notre « expérience d’utilisateurs professionnels » est-elle transformée par les nombreux acteurs émergents de la recherche et de la veille ?
Depuis plusieurs mois, ces nouveaux acteurs consolident leur place et élargissent considérablement le champ d’utilisation opérationnelle des outils de veille et de recherche tels que nous les pratiquions jusqu’ici.
Dans ce nouveau numéro de Netsources, nous explorons ces transformations avec l’article de Véronique Mesguich qui analyse la concurrence entre You.com, «moteur de productivité polyvalent», et Perplexity, ainsi que l’article d’Ulysse Rajim sur NotebookLM, dont il analyse le rôle d' «un assistant pour la veille augmentée». Notons tout de même au passage que NotebookLM est produit par... Google.
Nous découvrirons sous leur plume comment ces moteurs ne se contentent plus d’afficher des résultats bruts. Ils permettent aux professionnels de l’information de réaliser des synthèses claires et structurées, enrichies par le traitement de très grandes quantités d’informations de multiples sources. L'information est désormais beaucoup plus facilement manipulable, permettant une structuration et un enrichissement en temps réel grâce à une grande puissance de traitement d'énormes volumes de données. Cela offre une nouvelle façon de gérer la connaissance, ce qui est essentiel pour la gestion de masses d'informations et de connaissances. L'utilisateur peut ainsi naviguer entre différents modes-recherche, génération de contenu et même création d'images-en fonction de ses besoins.
Nous serons également très attentifs à la méthode innovante et personnalisée que nous propose Ulysse Rajim avec un véritable guide de l’automatisation de la veille grâce à l’IA.
Le lecteur pourra mesurer en filigrane comment ils modifient en profondeur la collecte, le filtrage et l’analyse de l’information ainsi que la gestion des connaissances au sein des entreprises, en les rendant accessibles et exploitables par différents services et équipes à une échelle beaucoup plus large.
Automatiser sa collecte d'informations, synthétiser des documents très volumineux, personnaliser ses agents de recherche, toutes ces possibilités sont désormais à votre portée. L’idée est d’exploiter l’IA non pas comme une curiosité technologique, mais comme un véritable levier de productivité et de performance.
« Moteur de productivité » : c’est ainsi que se définit la plateforme You.com. Ce concept de productivité, souvent associé à des outils de travail collaboratif comme Notion ou Trello, serait-il annonciateur d’une nouvelle dimension apportée aux outils et méthodes de recherche professionnelle d’information ?
You n’est pourtant pas totalement un nouveau venu dans le monde des outils de recherche et a déjà été chroniqué dans les colonnes de Netsources. La plateforme a été lancée en effet dès 2020 par Richard Socher, ancien Chief Scientist chez Salesforce et spécialiste du traitement du langage naturel, et Bryan McCann, chercheur en IA. À l’origine, You.com se présentait comme un moteur agrégateur de contenus issus de pages web, ou de sources spécialisées (Reddit, LinkedIn…), la recherche web s’appuyant notamment sur le moteur Bing.
Depuis 2023, la plateforme a pris le virage des technologies d’IA générative et propose non seulement des services de recherche, mais également des applications d’aide à la rédaction, à la création d’images, ou encore au codage. You.com se présente ainsi désormais comme un assistant IA personnalisé. Commençons par un tour d’horizon de ses principales fonctionnalités.
La veille, on le sait, est une activité en première ligne face à la surcharge informationnelle.
Ce défi, auquel le veilleur est confronté quotidiennement, a été pris en compte par les plateformes de veille depuis plusieurs années, avec des résultats variables. Récemment, cependant, ces plateformes ont franchi une nouvelle étape en intégrant l’intelligence artificielle (cf. Netsources 171).
Quant à la majorité des veilleurs confrontés à la gestion quotidienne de cette infobésité, l’utilisation de l’IA représente également un atout considérable dans leur gestion quotidienne de l’information.
L’intelligence artificielle, et notamment les Large Language Models (LLMs), offrent des solutions pour relever ce défi en automatisant les tâches les plus chronophages du processus de veille : extraction des contenus, première phase d’analyse, catégorisation et synthèse. Nous proposons ici de vous guider avec une approche pragmatique pour intégrer ces nouvelles capacités dans vos workflows, en s’appuyant sur des outils d’automatisation et d’IA générative accessibles à tous.
À l’ère de l’IA générative, les outils de veille évoluent pour offrir de nouvelles capacités d’analyse documentaire.
Parmi les nouveaux venus dans l’écosystème des outils d’IA pour la veille, NotebookLM se positionne comme un assistant de recherche et d’écriture basé sur l’IA. Ce service, développé par Google, pourrait aider les professionnels de l’information à interagir plus facilement avec de multiples sources de données disparates.
Avec la capacité d’analyser des quantités importantes de texte, jusqu’à plusieurs milliers de pages d’un coup, et de traiter différents types de contenus (texte, audio, images, vidéos), NotebookLM répond bien aux besoins du professionnel de l’information moderne. Explorons comment cet outil, intégrant l’IA de manière native, pourrait influencer les pratiques de veille en permettant une exploration plus riche et contextualisée des données.
On pressent que la « révolution IA générative » va à terme jouer un rôle central dans la redéfinition des pratiques de veille stratégique et technologique. Dans ce nouveau Netsources, nous vous emmenons au cœur de cette métamorphose naissante.
Deux des experts reconnus de la veille en France, Mathieu Andro et Corinne Dupin, ont mené une nouvelle étude du marché des plateformes de veille. Nous sommes heureux d’ouvrir ce numéro avec leur analyse approfondie de l’enquête 2024. Leur étude révèle l’intégration croissante de l’IA dans ces systèmes, qui laisse présager une refonte en profondeur du modèle traditionnel du cycle de la veille.
La révolution de l’IA s’étend également au champ cognitif, démocratisant l’accès à la connaissance. Par exemple, dans le domaine scientifique, Aurélie Vathonne démontre comment de nouveaux outils dopés à l’IA permettent désormais à des veilleurs généralistes de s’immerger dans des domaines complexes, brisant ainsi les barrières d’entrée au savoir scientifique (« Comment se saisir avec pertinence de l’information scientifique lorsqu’on n’est pas scientifique ? »).
Par ailleurs, l’article « Perplexity, le couteau suisse de la découverte d’informations et de la curiosité » analyse l’évolution de ce moteur de réponses hybride, combinant les forces d’un moteur de recherche traditionnel et d’un agent conversationnel. Perplexity incarne cette nouvelle génération d’outils visant à réduire l’incertitude et à fournir des réponses claires, tout en suscitant des débats éthiques sur l’utilisation des sources et la propriété intellectuelle.
Enfin, nous aborderons une question rarement traitée, mais présente dans tous les esprits : «Faut-il optimiser ses prompts en fonction de chaque modèle d’IA ?». Cette interrogation souligne notre prise de conscience des enjeux liés à la personnalisation de nos interactions avec les modèles d’IA, afin d’en tirer le meilleur parti. Nous verrons également comment l’IA offre au veilleur/analyste généraliste de nouvelles perspectives en termes d’immersion dans des champs de connaissance qui lui étaient jusque-là inaccessibles.
Rappelons quand même que l’IA générative, même nourrie des meilleurs prompts et d’investissement personnel, reste un outil qui amplifie l’expertise humaine plutôt qu’un substitut à la réflexion critique et à l’expertise métier.
En 2022, nous avions déjà mené une première grande enquête sur les plateformes de veille. Elle avait fait l’objet d’un numéro spécial de la revue I2D.
Depuis cette date, le marché s’est transformé avec l’intégration de Digimind dans Onclusive (juillet 2022), les rachats successifs par Chapsvision, après celui de Bertin (AMI EI) en juin 2021, de QWAM (mars 2023) et Geotrend (juin 2023) et de plusieurs autres acteurs de l’OSINT, de la traduction ou de l’analyse de données, ou encore l’acquisition d’Iscope par KB Crawl en février 2024.
En parallèle, et depuis 2020, d’autres acteurs, plus petits et aux publics plus confidentiels, sont apparus sur le marché des éditeurs de veille, avec des solutions souvent boostées par l’intelligence artificielle. Le recours croissant aux technologies d’IA a considérablement accéléré la transformation des technologies de veille.
Il était donc devenu nécessaire d’actualiser notre enquête.
Mathieu Andro est Animateur du réseau de veille des Services du Premier ministre
Corinne Dupin est Consultante et formatrice au sein du cabinet Ourouk
Pendant assez longtemps, la veille business et la veille scientifique et technique ont constitué des champs tout à fait distincts avec des compétences et ressources spécialisées bien définies pour les piloter, ainsi que des objectifs, des méthodes, des outils et des sources propres.
Puis la mise en place de plus en plus courante de veilles dites « innovation » a commencé à brouiller les frontières, mêlant informations concurrentielles et technologiques, et l’on constate que les spécialistes de la veille au sein des départements marketing et R&D de grands groupes travaillent étroitement ensemble pour fournir leurs analyses stratégiques au top management.
La veille IST a longtemps nécessité un véritable background scientifique et technique dans un domaine spécifique, quel qu’il soit (matériaux, énergie, agro-alimentaire, etc.), pour pouvoir exercer ce rôle efficacement. Pourtant, comprendre non seulement la pertinence, mais aussi l’apport de certains travaux scientifiques ou d’articles techniques n’est plus mission impossible pour celui qui n’est pas du sérail, et ce grâce au développement récent des outils d’intelligence artificielle qui changent la donne.
Bien sûr, un veilleur « généraliste » ne pourra jamais se hisser au niveau d'expertise d’un ingénieur spécialiste, mais l’IA va lui permettre en revanche d’élever sa compréhension des documents sans avoir de bagage spécifique et sans connaître tout le vocabulaire scientifique et technique spécialisé.
À l’arrivée de ChatGPT, nous avons vu fleurir sur le web et les réseaux sociaux une quantité de conseils sur l’art subtil de la formulation des prompts. On a vu également émerger une multitude d’outils et de bibliothèques de prompts prêts à l’emploi, souvent payants, adaptés à divers secteurs et types de questions (cf. FOCUS IA : maîtriser et gérer ses prompts - BASES no421- Janvier 2024). Cette révolution IA a même donné naissance à un nouveau métier : le prompt engineering, qui semble se professionnaliser de plus en plus.
Rappelons au passage qu’un prompt (ensemble d’instructions ou encore d’invites) est adressé à un modèle de langage (LLM) via une interface utilisateur, qui peut prendre la forme d’un chatbot (interface conversationnelle) pour générer des réponses ou des contenus spécifiques. Par exemple, Open AI a développé le modèle GPT (avec ses déjà nombreuses versions) et a mis à disposition des utilisateurs le chatbot ChatGPT.
Ces conseils et outils se concentrent principalement autour de ChatGPT, ce qui ne surprend pas au regard de la large et rapide démocratisation de l’IA générative qu’OpenAI a su orchestrer : il était urgent de fournir un « mode d’emploi » pour utiliser efficacement ce chatbot.
Cependant, une question fondamentale demeure : peut-on utiliser les mêmes prompts pour tous les modèles d’IA établis sur le marché (outre GPT : Gemini, Claude, Mistral, Llama principalement) ? Par exemple, Claude répond-il de manière aussi satisfaisante à un prompt conçu pour ChatGPT ?
Perplexity se définit comme un «moteur de réponses» innovant, combinant les fonctionnalités d’un moteur de recherche traditionnel avec celles d’un agent conversationnel alimenté par l’IA : une sorte d’hybride entre ChatGPT et Google Search.
Son ambition affichée est de concurrencer Google sur le marché de la recherche en ligne, en proposant une approche radicalement différente : plutôt que de fournir une simple liste de liens, Perplexity génère des réponses textuelles rédigées en s’appuyant sur des sources d’information récentes, variées et toujours indiquées en référence par l’outil.
La start-up californienne fondée en 2022 par un ancien d’Open AI, a rapidement attiré l’attention des investisseurs, atteignant une valorisation d’un milliard de dollars en 2024.
Le nom «Perplexity AI» fait référence à la notion de perplexité en théorie de l’information, qui mesure l’incertitude, mais il est utilisé ici de manière inverse. L’objectif de Perplexity AI est de réduire l’incertitude (ou la perplexité) des utilisateurs en fournissant des réponses claires et précises, transformant ainsi la haute perplexité en basse perplexité dans le domaine de la recherche d’information.
Pour fonctionner, Perplexity extrait les données d’internet au moment où la question lui est posée, de sorte que les réponses sont réputées être toujours à jour. Il s’appuie ensuite sur plusieurs modèles de langage, le sien propre mais aussi celui d’OpenAI, le modèle open source Llama de Meta ou encore Claude 3, pour produire ses réponses. De plus, il propose des questions connexes à la requête initiale (rappelant un peu les requêtes suggérées de Google), permettant ainsi d’affiner progressivement la recherche.
L’accès peut se faire sans obligation de créer un compte, via le site web de l’application ou une application mobile, avec fonction de recherche vocale disponible sur iPhone. Il existe enfin une extension Chrome qui permet d’y accéder à partir de n’importe quelle page web, de lui faire résumer la page ou répondre à des questions sur ce qu’elle contient.
Dans ce numéro, nous continuons à explorer les défis que représentent pour les professionnels de l’information l’entrée dans l’ère de l’intelligence artificielle, tout en examinant les nouvelles méthodologies, les retours d’expérience et les tendances actuelles qui façonnent nos métiers.
L’émergence des IA génératives, illustrée par le succès fulgurant de ChatGPT, marque un tournant dans nos pratiques. Véronique Mesguich, dans la nouvelle édition de son ouvrage «Rechercher l’information stratégique sur le web», introduit l’impact des IA génératives sur la veille stratégique et la recherche d’information. Si ces outils offrent de nouvelles perspectives d’analyse et de traitement des données, ils nécessitent une approche critique pour éviter les écueils d’informations inexactes ou biaisées.
Le passage d’une «culture de stock» à une «culture de flux» reste un défi majeur, comme le souligne notre article « Adopter une logique de flux... plus facile à dire qu’à faire ». Cette transition n’est pas simplement une tendance, mais une nécessité pour rester pertinents et efficaces. Il s’agit de transformer notre rapport à l’information, en favorisant la capture et l’exploitation en temps réel des données plutôt que leur simple accumulation.
Dans «Bonnes pratiques pour systématiser la surveillance de vos concurrents», nous découvrons des méthodes structurées pour maintenir une veille efficace sans être submergés par l’information. La clé réside dans la sélection rigoureuse des sources et l’automatisation des processus, permettant de se concentrer sur l’analyse et la prise de décision.
L’article «Le jour où j’ai voulu mettre en place une veille collaborative» offre un retour d’expérience précieux sur les défis et les succès de la veille mutualisée. Cette aventure, menée au sein d’une PME, démontre que la mutualisation des efforts peut transformer les pratiques individuelles en intelligence collective, malgré des obstacles organisationnels et humains à ne pas sous-estimer.
Rester agile et professionnel, ce sont deux des nombreux mots clefs qui résument les défis actuels de nos métiers. Face aux transformations, nous sommes invités à nous adapter constamment, à nous former sans relâche et à réinventer sans cesse nos rôles et pratiques au sein des organisations.
À l’aube d’une nouvelle ère de l’information bouleversée par l’intelligence artificielle, Véronique Mesguich nous offre une troisième édition actualisée et enrichie de son ouvrage « Rechercher l’information stratégique sur le web - Sourcing, veille et analyse à l’heure de l’IA », publié chez De Boeck Supérieur.
Cette troisième édition à jour explore l’univers des IA génératives et leur impact sur la recherche d’informations et la veille. On y découvre (après une préface d’Anne Marie Libmann), comment les IA transforment les pratiques de la recherche web, ainsi que des exemples concrets d’utilisation de l’IA pour l’extraction et l’analyse d’informations stratégiques.
L’ouvrage aborde également d’autres méthodes de recherche et de veille, basées sur la maitrise des sources et l’OSINT.
Une grande partie de la veille concurrentielle repose sur une surveillance de la presse, du web ouvert et des réseaux sociaux. Mais comment s’y prendre de façon structurée et systématique sans être noyé sous l’information ? Cet article a pour objectif de rappeler aux professionnels tous les flux à identifier pour être sûrs de ne rien laisser passer tout en maîtrisant le volume à traiter.
La première étape consiste évidemment à répertorier la liste des concurrents à surveiller. Dès ce stade, prenez le temps d’associer à chaque concurrent une ou plusieurs zones géographiques.
Mettre en place un projet de veille collaborative dans une entreprise où il n’existe pas de service veille et où les collaborateurs ont l’habitude de pratiquer une veille individuelle est un vrai challenge ! Retour sur mon expérience dans une PME, sur les succès, mais aussi les difficultés rencontrées.
Lorsque j’étais en charge de la Documentation d’un bureau d’études technique (130 personnes environ), j’ai tenté d’initier une démarche de veille collaborative avec mes collègues ingénieurs.
J’avais l’intuition que les ingénieurs faisaient de la veille dans leur coin et de mon côté, j’avais l’ambition de développer mon offre de service. Je réalisais jusque-là des activités documentaires traditionnelles (panorama de presse, gestion d’un portail documentaire…) et je souhaitais proposer un service de veille.
Avec l’accord d’un des membres du Comex auquel j’étais directement rattachée, j’ai mené une enquête quantitative auprès de l’ensemble de la société (Direction comprise) sur leurs pratiques informationnelles.
Le numérique a bouleversé les modèles traditionnels de gestion de l’information. Longtemps cantonnés à une approche statique avec des informations stockées sur des supports inertes, les professionnels doivent désormais appréhender un flot continu et dynamique de données. Ce virage vers une « culture de flux » implique une profonde mutation des pratiques.
La nécessité de passer d’une culture de stock à une culture de flux pour les métiers de l’information n’est pas nouvelle, pourtant elle peine toujours à être pleinement embrassée - et pleinement organisée - dans la pratique professionnelle.
En 2013, déjà, Caroline Sauvajol-Rialland, dans son ouvrage « Infobésité, comprendre et maîtriser la déferlante d’informations » (Éditions Vuibert, p.136), précisait : « en situation de surcharge informationnelle, il ne s’agit surtout pas d’archiver pour archiver et de multiplier les copies inutiles, mais de passer d’une logique de stock à une logique de flux, de passer de l’individu, qui porte la connaissance née de l’information, au collectif, qui produit de l’efficacité au sein du collectif ».
Pour les professionnels de l’information, documentalistes, analystes ou chargés de veille stratégique, la production de présentations de grande qualité est devenue un must en termes de (re) présentation personnelle et de communication. Qu’il s’agisse de communiquer les résultats de leur veille, de leurs recherches ou de leurs activités, ils doivent choisir l’outil le plus adapté pour capter l’attention de leur audience et transmettre leur message avec clarté et efficacité.
L’IA a fait irruption sur ce segment en apportant beaucoup de créativité en termes de graphisme, mais aussi de contenu. Il faut donc désormais examiner les outils de production graphique à l’aune de ces deux critères.
Avec la multiplication des outils et applications promettant monts et merveilles en matière de présentation, on peut être tenté de se précipiter sur le plus « marketé ».
Dans une ère caractérisée par la volatilité des données numériques et le développement de l’IA dans notre sphère informationnelle, le rôle des professionnels continue de se transformer. Ceux-ci doivent affirmer toujours plus leur rôle de médiateur entre la technologie et les utilisateurs, et développer une compréhension critique des outils proposés.
La suppression du cache par Google a mis en lumière la fragilité de notre accès aux informations historiques, et marque d’une certaine façon la fin de l’ère de l’accès instantané et illimité. Elle met également en évidence l’importance qu’il y a à élaborer des stratégies d’archivage et de recherche rigoureuses pour sauvegarder les contenus numériques.
L’intégration croissante de l’intelligence artificielle dans les pratiques médiatiques modifie profondément les méthodes de travail des journalistes, mais aussi des professionnels de la veille. L’automatisation de tâches telles que la transcription de podcasts et la synthèse d’articles vise à libérer du temps pour des analyses journalistiques plus poussées. Toutefois, cela nécessite une vigilance accrue de notre part pour garantir la véracité et de qualité des informations, dont les méthodes de production deviennent parfois opaques.
Le fact-checking, autrefois domaine réservé à l’expertise humaine, bénéficie maintenant d’un coup de pouce de l’IA. Cependant, la fiabilité de ces outils de contrôle dopés à l’IA doit être constamment évaluée et testée. Nous nous retrouvons dans une situation inédite : utiliser l’IA pour contrôler l’exactitude d’autres productions potentiellement issues de l’IA elle-même.
Enfin, les agrégateurs de flux RSS, comme Inoreader, proposent de nouvelles manières de gérer notre mémoire informationnelle. Ces outils, véritables extensions du cerveau humain, permettent un accès rapide à l’information tout en exigeant une utilisation judicieuse pour éviter la surcharge d’informations et assurer la conservation de l’essentiel.
À lire dans ce numéro :
Médias + IA : la nouvelle équation à laquelle il faut s’adapter
Second cerveau digital : jusqu’où Inoreader nous aide-t-il ?
Google a récemment annoncé qu’il avait retiré le cache des pages Web dans les résultats du moteur. C’était pourtant une option bien utile quand une page ou un site n’était pas disponible.
Le cache est cependant toujours disponible si on utilise l’opérateur dédié dans la requête : cache:bases-publications.com
. Mais cette fonctionnalité a aussi vocation à disparaître dans les prochains mois.
Danny Sullivan, un des porte-parole de Google a expliqué que le cache « était destiné à aider les gens à accéder aux pages quand, à l’époque, on ne pouvait souvent pas compter sur le chargement d’une page. De nos jours, les choses se sont grandement améliorées. Il a donc été décidé de le retirer. »
Heureusement, il existe plusieurs options quand on souhaite visualiser l’historique d’un site ou quand il n’est tout simplement pas disponible. La plus connue et que l’on ne présente plus est la Wayback Machine proposée par Internet Archive (https://archive.org/), même si elle est loin d’être parfaite.
Une autre solution intéressante peut consister à utiliser le site CachedView (https://cachedview.nl/).
L'intelligence artificielle révolutionne le paysage médiatique en introduisant de nouvelles fonctionnalités telles que des résumés automatisés, des podcasts générés par l'IA, la traduction de contenu et des chatbots.
Si ces outils peuvent aider les professionnels de l'information à gagner du temps et à améliorer l'expérience utilisateur, ils ne remplacent pas le jugement et l'expertise humains. Il est crucial pour ces professionnels de s'adapter à ces changements en développant de nouvelles compétences et en se concentrant sur des tâches à plus forte valeur ajoutée pour rester pertinents dans l'ère de l'IA.
L’IA fait progressivement son chemin dans les produits, sites et contenus proposés par les médias en France et à l’international. Si en 2023, il s’agissait surtout de tests et de pilotes, en 2024, le nombre d’initiatives notables ne cesse de croître.
Et ceci est dans la plupart des cas généré grâce à de l’IA générative. Numerama le propose par exemple dans sa version payante. D’autres utilisent la génération de résumé cette fois-ci pour les commentaires des articles : c’est par exemple ce que propose l’Équipe depuis peu.
Inoreader est un agrégateur de flux RSS connu des professionnels de la veille qui sont particulièrement concernés par l’idée de se constituer un « second cerveau ». Ce dernier est capable de mémoriser l’information importante tout en facilitant sa disponibilité pour l’utiliser quand cela s’avère nécessaire. Jusqu’où et comment cet outil de veille peut-il contribuer à cette démarche ? Voici une méthode pas à pas.
L’idée de se construire un « second cerveau » digital, sorte d’externalisation de sa mémoire informationnelle est ancienne. Elle a été popularisée récemment avec succès par Tiago Forte (voir à ce sujet les articles de NETSOURCES N° 165, juillet-août 2023). Sa démarche se divise en quatre étapes, réunies sous l’acronyme CODE : Capturer, Organiser, Distiller et Exprimer.
Lire aussi :
Que valent les outils de reconnaissance faciale pour la veille image ou l’investigation ?, BASES N°414, Mai 2023
La veille et la recherche d’information à l’ère des « fake news » et de la désinformation, NETSOURCES N°140, Mai 2019
Tirer parti du fact-checking et du journalisme d’investigation pour la veille et la recherche d’information, NETSOURCES N°140, Mai 2019
Parmi les promesses de l’IA concernant les métiers de l’information, le fact-checking figure en bonne place. À côté des outils payants, figurent nombre d’outils gratuits ou peu onéreux qui pourraient s’avérer utiles aux professionnels de l’information pour combattre la désinformation… Mais qu’en est-il dans la réalité ?
Les contenus générés par IA sont largement susceptibles de divulguer de fausses informations. Vérifier si une information provient d’une IA constitue donc désormais une piste pour évaluer le niveau de fiabilité d’une source. Mais le contenu généré par IA est parfois tellement proche d’une production humaine dans sa forme, que nul ne peut dans ce cas faire la différence, si ce n’est… une autre IA.
Les « détecteurs d’IA » se multiplient ainsi sur la toile. Et ils peuvent détecter le texte, l’image, la vidéo ou même la voix, grâce notamment à l’analyse linguistique et à l’apprentissage automatique, à la recherche de modèles - les patterns - et d’attributs spécifiques indiquant la paternité de l’IA, tels qu’une faible variation dans la longueur des phrases et le choix des mots pour les textes, par exemple.
Produit documentaire classique, la newsletter a su devenir incontournable pour proposer des services, mais aussi valoriser des activités et l’image du service documentaire. Nous avons expérimenté deux outils de création et diffusion de contenus, Flashissue et MailChimp.
La newsletter fait partie des produits documentaires « vitrine » du service. Elle permet de communiquer auprès des utilisateurs sur divers sujets : nouvelles acquisitions du fonds documentaire pour les bibliothécaires et documentalistes, actualités du service, voire un panorama de presse dans le respect du copyright, sans oublier la valorisation de son expertise et image.
Utiliser un outil dédié permet non seulement de gagner du temps sur la mise en page, mais aussi de professionnaliser la production de la newsletter.
Depuis les années 90, l’Open Access, porté par l’essor d’Internet et la philosophie de la science ouverte, a profondément transformé l’accès aux publications scientifiques en démocratisant la diffusion des connaissances.
Cette révolution a été marquée par la création d’archives ouvertes et de moteurs de recherche académiques, facilitant l’accès, libre ou payant, à des articles scientifiques. Elle s’est amplifiée avec la création de plateformes avancées, des initiatives pour l’accès aux citations et résumés, et le développement d’outils dopés à l’intelligence artificielle qui améliorent l’accès, l’analyse, et l’utilisation des données scientifiques.
Tout en gardant à l’esprit les défis notamment en matière de financement et de droits d’auteur, nous avons exploré l’apport de ces ressources ouvertes aux chercheurs, veilleurs et documentalistes et les nouvelles possibilités d’interaction avec les données.
Il faut revenir aux années 90 pour voir émerger le mouvement de la science ouverte, principalement sous la forme de l’« open access », porté par la volonté de donner un accès libre et gratuit aux publications scientifiques.
Cela va se matérialiser au départ sous la forme d’archives ouvertes. L’archive ouverte ArXiv avec ses preprints, une des pionnières en la matière, a été créée en 1991.
La deuxième phase de développement se situe ensuite dans les années 2000 avec l’essor de l’Internet grand public. L’archive ouverte française HAL est ainsi lancée en 2001.
Beaucoup plus récemment, le développement des plug-ins d’accès à la littérature scientifique a permis de repérer beaucoup plus simplement un article disponible en libre accès quelque part sur le Web, éventuellement sous forme de preprint ce qui n’était pas toujours évident.
Par ailleurs, quand on parle d’open access, il faut bien distinguer :
● D’une part l’accès gratuit au document primaire (l’original);
● D’autre part l’accès à une plateforme ou à un moteur permettant de rechercher puis de visualiser gratuitement uniquement des références d’articles et de proceedings et aussi parfois de chapitres de livres.
Notre habitude est de construire des stratégies complexes, mêlant synonymes, mots écrits de différentes façons (crosslink ou « cross link » par exemple), avec des opérateurs booléens, de proximité, des possibilités d’exclure des thématiques et, enfin, de multiples possibilités de combiner des étapes. Autant le dire tout de suite, ces stratégies ne sont pas transposables en l’état dans ces nouveaux outils.
Pour réaliser nos tests, nous avons donc dû utiliser des stratégies relativement simples qui puissent fonctionner sur tous les outils. Nous nous sommes limités aux références d’articles ou de conférences, incluant les preprints qui sont de plus en plus pris en compte. En revanche nous n’avons pas, dans la mesure du possible, pris en compte les chapitres d’ouvrages et les thèses. Les recherches se font dans le titre, ce qui n’est pas toujours simple, certains systèmes n’offrant pas cette option, obligeant à faire des comptages manuels. Nous avons envisagé de tester une recherche par affiliation mais cette fonctionnalité n'est pas disponible dans tous les moteurs.
Cette comparaison entre les serveurs et les outils gratuits ne pouvant se faire que sur des stratégies simples, on laisse de côté la puissance de recherche et le confort d’utilisation pour ne comparer que le nombre de réponses. Par ailleurs, il est évident que ces tests n’ont aucune valeur statistique et que l’on ne peut rien généraliser à partir de leurs résultats.
En France, pays champion européen de l’open data, on parle souvent des startups qui parviennent à exploiter des données accessibles en accès gratuit, pour en faire des services, avec parfois une option payante, à l’instar de Pappers ou Doctrine.
Depuis la démocratisation de l’IA amorcée il y a plus d’un an avec la mise à disposition au public de ChatGPT, suivie depuis par d’autres IA génératives et services afférents, comment le traitement des données ouvertes a-t-il évolué et surtout, est-il davantage accessible à un utilisateur sans formation technique particulière en amont ? Exploration, étape par étape, du traitement des données, de l’extraction à la publication.
Première étape : la collecte des données. Celle-ci peut se faire de deux façons : en téléchargeant un dataset ou en procédant à l’extraction des données sur un document. C’est dans ce second cas que les outils IA interviennent. S’offrent alors deux possibilités d’extraction de données :
● Avec un outil IA où l’on importe un fichier de données.
● Avec un tableur habituel, auquel on ajoute un module IA.
Les outils IA qui permettent d’importer gratuitement des documents à traiter ne prennent pas en charge les formats de bases de données, mais uniquement les formats textes et PDF. Dans ce cas, extraire les données d’un document pour les récupérer sous forme texte ou de tableau est un jeu d’enfant.
L’année 2023 a été marquée par la démocratisation des IA génératives. Cette technologie de pointe, qui a émergé sur le marché en 2020, était alors réservée à quelques experts qui payaient une API. Amorcée par la mise sur le marché de l’interface gratuite ChatGPT d’OpenAI, dont la plupart des produits sont devenus payants dans les mois qui ont suivi, cette démocratisation pourrait néanmoins perdurer grâce au développement de modèles de langage sous licence ouverte (ou « open source »).
Cette licence permet en effet d’exploiter un modèle de langage pré-entraîné à moindres frais (moins de 500 dollars dans la plupart des cas et avec des ressources de calcul modestes), ouvrant ainsi l’accès à un large éventail de chercheurs, de développeurs et d’organisations.
Il existe néanmoins quelques freins pour que le veilleur puisse en profiter.
● L’étude du fonctionnement du système et l’inspection de ses composants ;
● L’utilisation de son système à n’importe quelle fin, sans avoir à demander la permission ;
● La modification du système pour changer ses recommandations, prédictions ou décisions afin de l’adapter à ses besoins ;
● Le partage du système avec ou sans modifications, à quelque fin que ce soit.
● Nombre de titres de presse écrite (2021, Ministère de la Culture) : 3872
● Nombre de radios (2022, Arcom) : + 1000
● Nombre de chaînes de télévision (2022, Arcom) : 30 chaînes nationales
● Classement de médias numériques (2021, Mind Media, par nombre d’abonnés) : Le Monde, L’Équipe, Le Figaro, Ouest-France, Les Échos, Libération, Le Parisien.
Vivendi (V. Bolloré) : Groupe Canal + (Canal+, Canal+ Cinema, Planète+, Canal+ Sport), CNews, C8, CStar), Prisma Media (Géo, Femme actuelle, Gala), Lagardère News (JDD, Europe 1, Paris Match, RFM, Europe 2, Elle International), etc.
La connaissance des médias est une compétence essentielle du sourcing et de l’analyse dans la veille informationnelle. Pourtant, les professionnels de la veille et des médias ne se côtoient que trop rarement. Or, connaître l’univers - et la diversité - médiatique est justement ce qui permet de constituer un corpus complet, c’est-à-dire qui prend en compte l’ensemble des opinions autour d’une question. Visite guidée, à l’aube d’une prochaine disruption médiatique.
Le paysage médiatique français est constitué d’un grand nombre de titres traditionnels : plus de 5000 titres de presse écrite, radios et chaînes de télévision en 2021, selon les chiffres du ministère de la Culture et de l’Arcom.
Les médias locaux évoluent et cela impacte directement le sourcing et les pratiques de veille. Comment identifier et intégrer ces sources et verticales dans son sourcing ?
Il y a des veilles et des recherches d’information où la dimension locale est primordiale. L’information locale qu’il faut réussir à capter, c’est alors celle fournie par des journaux locaux, radios et TV locales, collectivités locales, mais aussi par des internautes désireux de partager des informations.
Ces différentes sources vont permettre d’obtenir des informations uniques et stratégiques notamment au niveau de la politique et de l’économie locale.
En France, quand on pense information locale, on pense avant tout à la PQR (presse quotidienne régionale) et à la PHR (presse hebdomadaire régionale) et par extension à un secteur touché de plein fouet par les difficultés rencontrées par la presse depuis des années.
On aurait vite fait d’extrapoler et de se dire que la veille locale en France risque d’être de plus en plus compliquée avec des sources et des informations locales moins nombreuses. Mais malgré ce sombre tableau, l’information locale n’a pas dit son dernier mot et se renforce même à différents niveaux et via différents canaux.
Dans cet article, nous explorons cette évolution et examinons ses répercussions sur la veille et la recherche d’informations.
Les médias des collectivités locales sont des sources essentielles d’informations régionales au rôle bien singulier. Et comme l’intégration de ces ressources dans une veille reste un véritable défi, comment identifier, surveiller et intégrer ces médias à son système de veille.
Parmi les sources utiles pour trouver de l’information locale en France, les journaux des collectivités (communes, communautés de communes, départements ou régions) sont en bonne position. Ces médias ont une place bien à part dans le paysage des médias locaux. Ils ont la forme d’un journal ou d’un magazine, mais sont généralement la voix de l’équipe politique en place, à l’exception des quelques pages réservées à l’opposition.
Une fois que l’on a bien conscience du positionnement et des biais associés à ce type de publication, il n’en reste pas moins qu’on peut y trouver de l’information locale intéressante et parfois exclusive pour sa veille, notamment sous les angles de la politique et de l’économie locale, des acteurs locaux et de l’événementiel local.
Pourtant, réussir à les utiliser pour sa veille est loin d’être simple, car il n’existe à ce jour aucun agrégateur, outil centralisateur pour ce type de contenus et on se retrouve avec une multitude de magazines plus ou moins accessibles aux modalités et formats différents.
Dans cet article, nous verrons comment identifier ces médias, comment les mettre sous surveillance ou effectuer des recherches sur leurs contenus et comment leur trouver une place adéquate dans son système de veille.