À l’heure où OpenAI lance SearchGPT, son propre moteur de recherche intégré directement dans son chatbot, une question brûle sur toutes les lèvres : SearchGPT va-t-il détrôner Google ?
Au-delà de la « simple » question du modèle économique de Google et toutes réserves faites par ailleurs sur la robustesse des modèles d’IA face à leurs ambitions de déploiement planétaire, une autre question tout aussi cruciale nous semble se profiler : comment notre « expérience d’utilisateurs professionnels » est-elle transformée par les nombreux acteurs émergents de la recherche et de la veille ?
Depuis plusieurs mois, ces nouveaux acteurs consolident leur place et élargissent considérablement le champ d’utilisation opérationnelle des outils de veille et de recherche tels que nous les pratiquions jusqu’ici.
Dans ce nouveau numéro de Netsources, nous explorons ces transformations avec l’article de Véronique Mesguich qui analyse la concurrence entre You.com, «moteur de productivité polyvalent», et Perplexity, ainsi que l’article d’Ulysse Rajim sur NotebookLM, dont il analyse le rôle d' «un assistant pour la veille augmentée». Notons tout de même au passage que NotebookLM est produit par... Google.
Nous découvrirons sous leur plume comment ces moteurs ne se contentent plus d’afficher des résultats bruts. Ils permettent aux professionnels de l’information de réaliser des synthèses claires et structurées, enrichies par le traitement de très grandes quantités d’informations de multiples sources. L'information est désormais beaucoup plus facilement manipulable, permettant une structuration et un enrichissement en temps réel grâce à une grande puissance de traitement d'énormes volumes de données. Cela offre une nouvelle façon de gérer la connaissance, ce qui est essentiel pour la gestion de masses d'informations et de connaissances. L'utilisateur peut ainsi naviguer entre différents modes-recherche, génération de contenu et même création d'images-en fonction de ses besoins.
Nous serons également très attentifs à la méthode innovante et personnalisée que nous propose Ulysse Rajim avec un véritable guide de l’automatisation de la veille grâce à l’IA.
Le lecteur pourra mesurer en filigrane comment ils modifient en profondeur la collecte, le filtrage et l’analyse de l’information ainsi que la gestion des connaissances au sein des entreprises, en les rendant accessibles et exploitables par différents services et équipes à une échelle beaucoup plus large.
Automatiser sa collecte d'informations, synthétiser des documents très volumineux, personnaliser ses agents de recherche, toutes ces possibilités sont désormais à votre portée. L’idée est d’exploiter l’IA non pas comme une curiosité technologique, mais comme un véritable levier de productivité et de performance.
« Moteur de productivité » : c’est ainsi que se définit la plateforme You.com. Ce concept de productivité, souvent associé à des outils de travail collaboratif comme Notion ou Trello, serait-il annonciateur d’une nouvelle dimension apportée aux outils et méthodes de recherche professionnelle d’information ?
You n’est pourtant pas totalement un nouveau venu dans le monde des outils de recherche et a déjà été chroniqué dans les colonnes de Netsources. La plateforme a été lancée en effet dès 2020 par Richard Socher, ancien Chief Scientist chez Salesforce et spécialiste du traitement du langage naturel, et Bryan McCann, chercheur en IA. À l’origine, You.com se présentait comme un moteur agrégateur de contenus issus de pages web, ou de sources spécialisées (Reddit, LinkedIn…), la recherche web s’appuyant notamment sur le moteur Bing.
Depuis 2023, la plateforme a pris le virage des technologies d’IA générative et propose non seulement des services de recherche, mais également des applications d’aide à la rédaction, à la création d’images, ou encore au codage. You.com se présente ainsi désormais comme un assistant IA personnalisé. Commençons par un tour d’horizon de ses principales fonctionnalités.
Figure 1 : la page d’accueil de You.com
L’interface de You est assez sobre et riche en fonctionnalités. La page d’accueil donne le choix entre plusieurs agents.
L’agent « Smart » correspond au mode de recherche par défaut, et fonctionne à la manière de Perplexity. Le moteur extrait du web une dizaine de sources et effectue une synthèse en faisant référence à (seulement) quelques sources, parmi la dizaine figurant sur le panneau latéral à droite. Ce panneau offre également la possibilité d’effectuer des recherches d’images, vidéos et articles d’actualité (à noter que cette dernière fonctionnalité est basée sur le « news endpoint » de son API et dédiée à la recherche d’articles américains, donc inopérante pour des articles en français).
Figure 2 : Présentation des résultats de recherche de You.com en mode « Smart »
Le mode Research permet d’aller plus loin et génère une synthèse un peu plus longue, faisant référence à davantage de sources parmi les résultats de recherche mentionnés à droite.
Le mode Genius est conçu pour interagir avec l’utilisateur sous forme de conversation structurée. Ce mode multitâche est plutôt destiné à générer du code, ou résoudre des problèmes mathématiques. On peut l’utiliser également pour extraire des données d’un texte, et les présenter sous forme de tableau ou graphique, ce que le mode Smart n’effectue pas de manière satisfaisante.
L’onglet GPT-4o est explicite : il offre l’ensemble des fonctionnalités de GPT-4o, y compris l’accès au web en temps réel. D’autres modèles de langages sont également disponibles : GPT-4Turbo, Claude 3 Sonnet, Claude 3 Haiku, Gemini 1.5, Llama3, Mistral Large2… Les utilisateurs de la version Pro ont accès de plus à o1Preview (le nouveau modèle d’OpenAi) ou Claude3 Opus.
Enfin, You.com dispose d’une fonctionnalité de génération d’images à partir de descriptions textuelles, via son outil YouImagine, intégré dans le mode « Creative ». Alimenté par des modèles d’intelligence artificielle comme StableDiffusion, YouImagine propose des options de style artistique variées, y compris le modèle Open Journey, inspiré du style de Midjourney. Les images générées sont ainsi plus réalistes que les créations de ChatGPT via son outil de génération DALL-E.
Il est possible de travailler sur des sources spécifiques. Le bouton + dans le bandeau de conversation, donne accès à une nouvelle interface intitulée « Manage sources ». On peut y charger des documents en format texte, données ou image afin d’en effectuer des résumés, extractions ou analyses. Prometteuse également, la possibilité de limiter la recherche à un site donné et de poser des questions sur le contenu du site, en paramétrant préalablement le niveau d’exploration du site.
Figure 3 : Paramétrage de sources spécifiques
Cette option est malheureusement limitée dans la version gratuite, avec un seul chargement quotidien d’un document ou d’un site spécifique.
L’écosystème de You.com intègre plusieurs agents spécialisés. YouChat est l’assistant virtuel intégré à la plateforme qui permet d’interagir de manière conversationnelle. YouWrite est un outil destiné à la rédaction de contenu de toute nature. YouWrite, à l’instar de ChatGPT, offre différentes tonalités de rédaction (formelle, décontractée, persuasive, informative, etc.) Quant à YouCode, il s’agit d’un module spécialement conçu pour les développeurs. Toutes ces fonctionnalités sont désormais intégrées dans la plateforme You.com et ne sont plus accessibles en tant que telles.
Déjà abonné ? Connectez-vous...
La veille, on le sait, est une activité en première ligne face à la surcharge informationnelle.
Ce défi, auquel le veilleur est confronté quotidiennement, a été pris en compte par les plateformes de veille depuis plusieurs années, avec des résultats variables. Récemment, cependant, ces plateformes ont franchi une nouvelle étape en intégrant l’intelligence artificielle (cf. Netsources 171).
Quant à la majorité des veilleurs confrontés à la gestion quotidienne de cette infobésité, l’utilisation de l’IA représente également un atout considérable dans leur gestion quotidienne de l’information.
L’intelligence artificielle, et notamment les Large Language Models (LLMs), offrent des solutions pour relever ce défi en automatisant les tâches les plus chronophages du processus de veille : extraction des contenus, première phase d’analyse, catégorisation et synthèse. Nous proposons ici de vous guider avec une approche pragmatique pour intégrer ces nouvelles capacités dans vos workflows, en s’appuyant sur des outils d’automatisation et d’IA générative accessibles à tous.
L’automatisation par IA permet d’optimiser significativement le processus de veille en intervenant sur trois axes clés :
a) Collecte intelligente : au-delà de la simple agrégation de contenu, l’IA peut filtrer, classifier et prioriser l’information dès sa détection.
b) Analyse avancée : les LLMs excellent dans l’extraction de l’essence de grandes masses de contenus, la détection de tendances et la mise en relation d’informations issues de sources diverses.
c) Synthèses sur mesure : l’IA peut générer rapidement des synthèses personnalisées selon différents formats (rapports, briefs, bulletins, dashboards), tout en s’adaptant aux contraintes fournies par l’utilisateur.
Après la phase initiale de mise en place, un tel dispositif de veille augmentée permet de réduire significativement le temps consacré aux tâches répétitives pour se concentrer sur la curation, l’analyse stratégique et la diffusion ciblée de l’information.
Pour mettre en place une veille efficace assistée par IA, vous aurez besoin de trois types d’outils :
a) Plateformes d’automatisation
Les outils d’automatisation jouent un rôle clé en permettant de capturer l’information sans intervention manuelle. Parmi les solutions disponibles, nous en noterons trois :
Déjà abonné ? Connectez-vous...
À l’ère de l’IA générative, les outils de veille évoluent pour offrir de nouvelles capacités d’analyse documentaire.
Parmi les nouveaux venus dans l’écosystème des outils d’IA pour la veille, NotebookLM se positionne comme un assistant de recherche et d’écriture basé sur l’IA. Ce service, développé par Google, pourrait aider les professionnels de l’information à interagir plus facilement avec de multiples sources de données disparates.
Avec la capacité d’analyser des quantités importantes de texte, jusqu’à plusieurs milliers de pages d’un coup, et de traiter différents types de contenus (texte, audio, images, vidéos), NotebookLM répond bien aux besoins du professionnel de l’information moderne. Explorons comment cet outil, intégrant l’IA de manière native, pourrait influencer les pratiques de veille en permettant une exploration plus riche et contextualisée des données.
NotebookLM se base sur le dernier modèle d’IA générative de Google, Gemini 1.5 Pro. Ce modèle est conçu pour être multimodal et capable de gérer un long contexte, avec la possibilité de traiter jusqu’à deux millions de tokens en une seule session (ce qui correspond à environ 1,5 million de mots ou 3000 pages). Cela rend NotebookLM particulièrement adapté à l’analyse de données complexes et volumineuses. Fort de ces capacités d’IA avancées, NotebookLM est un outil redoutable pour la génération de synthèses à partir de documents longs, la création de foires aux questions, de chronologies, entre autres.
NotebookLM prend en charge plusieurs formats de données, notamment l’importation de texte (texte brut, PDF, Google Docs), de présentations (Google Slides), de contenus web et de fichiers audio (MP3). Cependant, il est important de noter qu’à ce stade, NotebookLM ne tire pas pleinement parti de toutes les fonctionnalités multimodales de Gemini 1.5 Pro. En effet, à l’heure actuelle l’outil n’effectue pas une réelle recherche multimodale sur les sources. Les fichiers audio, les vidéos YouTube et les PDF sont transcrits en texte brut et perdent ainsi toute information visuelle (images et vidéos) une fois importés dans le notebook. Nous pouvons néanmoins imaginer une version future de l’outil qui utiliserait nativement ces fonctionnalités pour améliorer davantage ses capacités.
La sécurité des données est un point crucial pour le veilleur, aussi convient-il de vérifier le traitement des données effectué par Google. Dans sa politique de confidentialité, Google indique que les données personnelles ne sont jamais utilisées pour entraîner NotebookLM, mais que les données pourraient être visualisées par des réviseurs humains si vous soumettez des commentaires à partir de votre compte Google. Pour les utilisateurs Enterprise ou Éducation, les données restent privées conformément aux conditions d’utilisation de Google Workspace. Toutefois, il est important de rappeler qu’il est préférable de ne pas y importer d’informations personnelles ou confidentielles, car même si Google respecte la confidentialité des utilisateurs, la prudence est de mise.
Pour utiliser NotebookLM, un compte Google est nécessaire.
L’outil, qui était jusqu’à récemment en statut expérimental, présente encore une interface parfois peu intuitive et des boutons mêlant français et anglais. Mais l’outil évolue très vite et de nouvelles fonctionnalités sont ajoutées chaque mois. Notez également qu’il est possible d’ajouter des sources dans la langue de votre choix.
Pour commencer à utiliser NotebookLM, rendez-vous sur et connectez-vous avec votre compte Google. Une fois connecté, vous pouvez créer un premier notebook. L’interface vous proposera alors d’uploader vos premières sources. Astuce : une fois les premières sources importées pensez à nommer votre notebook pour vous y retrouver par la suite.
Les concepteurs de NotebookLM ont fait le choix judicieux de regrouper toute la documentation liée à l’outil dans un notebook d’exemple intitulé « Introduction to NotebookLM ». Cette ressource permet aux nouveaux utilisateurs de poser directement leurs questions pratiques sur le fonctionnement de l’outil, tout en se familiarisant avec son utilisation. Notre guide NotebookLM couvre déjà l’essentiel des fonctionnalités clés ; toutefois, pour toute question connexe, nous vous invitons à vous référer à ce notebook.
NotebookLM est capable de manipuler des volumes de texte importants, ce qui est particulièrement utile pour l’analyse de rapports volumineux, tels que des documents réglementaires ou des études de recherche.
Pour illustrer cette utilisation, nous allons travailler avec le texte complet du règlement de l’AI Act, disponible à cette adresse. Vous pouvez télécharger ce document pour suivre le pas-à-pas.
Déjà abonné ? Connectez-vous...
On pressent que la « révolution IA générative » va à terme jouer un rôle central dans la redéfinition des pratiques de veille stratégique et technologique. Dans ce nouveau Netsources, nous vous emmenons au cœur de cette métamorphose naissante.
Deux des experts reconnus de la veille en France, Mathieu Andro et Corinne Dupin, ont mené une nouvelle étude du marché des plateformes de veille. Nous sommes heureux d’ouvrir ce numéro avec leur analyse approfondie de l’enquête 2024. Leur étude révèle l’intégration croissante de l’IA dans ces systèmes, qui laisse présager une refonte en profondeur du modèle traditionnel du cycle de la veille.
La révolution de l’IA s’étend également au champ cognitif, démocratisant l’accès à la connaissance. Par exemple, dans le domaine scientifique, Aurélie Vathonne démontre comment de nouveaux outils dopés à l’IA permettent désormais à des veilleurs généralistes de s’immerger dans des domaines complexes, brisant ainsi les barrières d’entrée au savoir scientifique (« Comment se saisir avec pertinence de l’information scientifique lorsqu’on n’est pas scientifique ? »).
Par ailleurs, l’article « Perplexity, le couteau suisse de la découverte d’informations et de la curiosité » analyse l’évolution de ce moteur de réponses hybride, combinant les forces d’un moteur de recherche traditionnel et d’un agent conversationnel. Perplexity incarne cette nouvelle génération d’outils visant à réduire l’incertitude et à fournir des réponses claires, tout en suscitant des débats éthiques sur l’utilisation des sources et la propriété intellectuelle.
Enfin, nous aborderons une question rarement traitée, mais présente dans tous les esprits : «Faut-il optimiser ses prompts en fonction de chaque modèle d’IA ?». Cette interrogation souligne notre prise de conscience des enjeux liés à la personnalisation de nos interactions avec les modèles d’IA, afin d’en tirer le meilleur parti. Nous verrons également comment l’IA offre au veilleur/analyste généraliste de nouvelles perspectives en termes d’immersion dans des champs de connaissance qui lui étaient jusque-là inaccessibles.
Rappelons quand même que l’IA générative, même nourrie des meilleurs prompts et d’investissement personnel, reste un outil qui amplifie l’expertise humaine plutôt qu’un substitut à la réflexion critique et à l’expertise métier.
En 2022, nous avions déjà mené une première grande enquête sur les plateformes de veille. Elle avait fait l’objet d’un numéro spécial de la revue I2D.
Depuis cette date, le marché s’est transformé avec l’intégration de Digimind dans Onclusive (juillet 2022), les rachats successifs par Chapsvision, après celui de Bertin (AMI EI) en juin 2021, de QWAM (mars 2023) et Geotrend (juin 2023) et de plusieurs autres acteurs de l’OSINT, de la traduction ou de l’analyse de données, ou encore l’acquisition d’Iscope par KB Crawl en février 2024.
En parallèle, et depuis 2020, d’autres acteurs, plus petits et aux publics plus confidentiels, sont apparus sur le marché des éditeurs de veille, avec des solutions souvent boostées par l’intelligence artificielle. Le recours croissant aux technologies d’IA a considérablement accéléré la transformation des technologies de veille.
Il était donc devenu nécessaire d’actualiser notre enquête.
Mathieu Andro est Animateur du réseau de veille des Services du Premier ministre
Corinne Dupin est Consultante et formatrice au sein du cabinet Ourouk
En complément des analyses qui vont suivre, l’ensemble de nos données sont de nouveau accessibles sur notre site d’enquête.
Nous avons contacté pas moins de 70 éditeurs parmi ceux qui avaient déjà répondu à notre précédente enquête, mais aussi parmi ceux que nous avons identifiés entre-temps. Tous n’ont malheureusement pas fait le choix de répondre à nos sollicitations. Nous avons également obtenu des réponses d’éditeurs que nous n’avions pas sollicités et qui ont répondu spontanément et directement à une enquête complètement ouverte.
Le partage des informations recueillies par nos soins vise à faciliter le travail de consultation des organisations qui cherchent à se doter de technologies, mais aussi à dépasser les démarches en silos. Cette initiative a également été pensée pour le bénéfice des éditeurs qui seront peut-être moins surchargés de questions et pourront aussi s’inspirer parfois positivement de leurs concurrents. La sincérité de leurs réponses nous semble être renforcée par la transparence auprès de leurs clients comme de leurs concurrents.
Pour notre nouvelle enquête, nous avons d’ailleurs ajouté des vidéos d’entretiens avec les éditeurs. Elles permettent de mieux connaître leurs cultures d’entreprise, de mettre des visages sur des entrepreneurs, mais aussi de « lever le capot » de leurs outils et de se faire une idée plus concrète de l’ergonomie et du fonctionnement de leurs solutions au-delà de leur seules déclarations. Les éditeurs Cikisi, Esprits Collaboratifs (Curebot), IXXO, KB Crawl, maïplug, niiwaa, Sindup et Wabtch ont ainsi accepté de se prêter au jeu des échanges et démonstrations vidéo.
Les éditeurs de plateformes sont généralement francophones et s’adressent essentiellement au marché francophone. Au-delà d’un biais évident lié à l’origine géographique des auteurs de l’enquête, il est possible que le métier de veilleur et ses outils soient une spécificité francophone et que dans les pays anglo-saxons, la veille soit davantage une compétence métier partagée.
La plus grande société représentée (en termes d’effectif) est Chapsvision avec 1000 personnes. Elle est suivie par Talkwalker qui a déclaré 400 collaborateurs, Valona (anciennement M-Brain) avec plus de 200, Digimind avec 160 et Akio avec 60 personnes. L’autre côté de l’échiquier est investi par des développeurs informatiques, détenteurs de petites structures, qu’ils soient enseignants-chercheurs (niiwaa, maïplug) ou ex-chargé de veille et de l’innovation (Wabtch).
Tous ces acteurs ne jouent évidemment pas dans la même cour. Si l’ambition générale est celle d’automatiser le recueil d’information, les plateformes de veille intégrées s’adressent de façon préférentielle à de grands comptes, des industriels et des sociétés de service auxquels ils proposent une panoplie de fonctionnalités collaboratives et de modalités de diffusion (portail de lecture, alertes, newsletters…), tandis que les solutions plus modestes d’entrepreneurs (qu’ils désignent eux-mêmes comme de simples « outils de surveillance du web » ou « moteur de recherche de renseignement ») ciblent davantage des PME, des start-up, voire des veilleurs « isolés » moins fortunés et/ou pragmatiques, surtout désireux de perdre le moins de temps possible dans la capture et le traitement des informations.
Si le modèle de la plateforme « monolithique » proposant des fonctionnalités intégrées pour chaque étape du cycle de la veille est dominant, on observe toutefois que ChapsVision, Coexel, IXXO, KB Suite, Valona et Wabtch offrent la possibilité d’acquérir des modules séparés. Cela permet, par exemple, d’acquérir un module pour la collecte chez un éditeur, un autre module pour la curation chez un autre, possiblement encore un autre module pour la diffusion ou pour l’analyse. La modularité est appréciable lorsque l’entreprise - ou le veilleur - dispose déjà de son propre espace de diffusion (intranet, SharePoint ou CMS quelconque) - auquel cas elle ou il pourra ne se doter que de la seule « brique » de la surveillance.
À l’instar de notre dernière enquête, les sources juridiques restent celles qui sont les plus difficiles à surveiller automatiquement. Seuls Aleph Search, Curebot et KB Crawl ont déclaré une certaine expertise en la matière. Cette difficulté récurrente est probablement liée au modèle économique des éditeurs de sources juridiques, qui se fonde sur la rareté de l’information et les amène à se protéger des robots.
Le modèle économique des éditeurs scientifiques est diamétralement opposé. Fondé sur la recherche de la visibilité et de la citation (facteurs d’impact), il incite les éditeurs à faciliter le crawling ou la surveillance
automatique des publications par des flux RSS complets.
On observe également une spécialisation des types d’outils et une séparation des technologies de social listening et d’e-réputation, lesquelles s’adressent surtout aux acteurs de la communication. C’est le cas d’Akio Insights, Aleph Search, Digimind Social et Talkwalker.
La dichotomie entre veilles sur sources spécifiques et veilles radars par combinaison de mots clés sur de gros bouquets de sources est également en train de s’estomper, la plupart des éditeurs proposant désormais des bouquets de sources.
Les clubs utilisateurs existent chez 56,3 % des éditeurs et sont un moyen privilégié pour capter les besoins d’évolution de leurs solutions.
Les coûts d’acquisition oscillent entre 2 000 € et 200 000 € pour une moyenne de 16 000 € par an. Cela dit, comme il s’agit d’une moyenne sur seulement 6 éditeurs ayant répondu à cette question, elle ne nous semble pas très significative, d’autant que lors de notre dernière enquête, cette moyenne excédait les 40 000 € par an.
Figure 1 : Page d’accueil de notre site-panorama des solutions de veille
La surveillance de contenus audiovisuels, grâce aux technologies de speech to text, reste minoritaire. 4 répondants la proposent (Curebot, Digimind Social, KB Suite et Sindup).
L’écriture collaborative - à savoir la possibilité pour plusieurs personnes d’intervenir simultanément sur un même contenu - est encore plus rare puisque seuls 3 éditeurs l’ont implémentée (Curebot, Digimind Social et Valona). La collaboration entre veilleurs pour dépasser les silos institutionnels, les pratiques de veille collaborative pour effacer la division traditionnelle entre la cellule de veille productrice d’information et les consommateurs de ses contenus semblent encore loin d’être la règle dans les organisations.
La possibilité de veiller à partir d’une image de logo ou de visage n’est proposée que par Aleph Search et Talkwalker.
Pour la diffusion des veilles, 40 % des éditeurs déclarent avoir recours à un CMS comme :
Concernant l’intelligence artificielle, 43,8 % des éditeurs déclarent la proposer pour détecter de nouvelles sources par apprentissage sur les sources déjà surveillées. C’est le cas d’Akio Insights, Aleph Search, Cikisi, Mytwip (Coexel), Curebot, Digimind Social et niiwaa.
Les fonctionnalités de curation automatisée ou semi-automatisée par apprentissage qu’on appelle aussi machine learning- des contenus validés ou rejetés par les veilleurs sont proposées majoritairement par 56,3 % des éditeurs.
La production de résumés automatiques est déjà majoritaire à 68,8 %. La production de synthèses de plusieurs articles est proposée par la moitié des répondants.
En revanche, la capacité à détecter des contenus produits par de l’intelligence artificielle générative est très minoritaire puisque seule la plateforme Valona la propose. La détection des infox et fake news, de même que l’évaluation du niveau de fiabilité de l’information sont également peu répandues. Seuls Curebot, Digimind Social et la plateforme Valona proposent ce type de service.
L’analyse du sentiment est une technologie déjà largement éprouvée. Elle est proposée par Akio Insights, Curebot, Digimind Social, Market Intelligence ChapsVision, Valona et Talkwalker. Il en est de même pour les analyses sémantiques par data visualisation de corpus de veille ou text mining, qui sont proposées par 43,8 % des répondants. Les cartes géographiques sur les entités nommées sont proposées quant à elles par 68,8 % des répondants.
Outre les fonctionnalités attendues d’une solution de veille selon les contextes d’usage et les coûts d’acquisition et de fonctionnement, les éléments de différenciation entre les différentes propositions du marché relèvent principalement de l’expérience utilisateur : confort perçu d’utilisation, réduction maximale du bruit, accès rapide à l’information pertinente…
Les filtres proposés pour affiner les requêtes ou faciliter l’exploitation des résultats de la veille contribuent à une expérience qualitative et dynamique, promue notamment par les éditeurs Cikisi ou IXXO :
La datavisualisation concourt elle aussi à faciliter l’exploitation des contenus : outre l’extraction d’entités nommées et les nuages de mots, assez souvent proposés, la clusterisation ou regroupement de contenus par grandes catégories (Curebot, IXXO…) peut être un plus, tout comme une gamme d’histogrammes, graphiques en mosaïque, cartes comptant une ou plusieurs variables ; par exemple : pays mentionnés dans les contenus, montants de contrats… (Cikisi). La cartographie des co-occurrences peut aussi s’avérer précieuse (IXXO, Geotrend…).
Pour un outil comme niwaa, la datavisualisation n’intervient pas dans l’analyse, mais au moment de la détermination du contexte de recherche, réorienté de façon itérative au fil des propositions algorithmiques.
La personnalisation de la navigation dans la plateforme peut également constituer un motif de choix d’une solution : codes couleurs différents à des fins de repérage (Cikisi, Wabtch..), expérience de lecture dynamisée par les recommandations de son IA Mila vers d’autres « itinéraires de lecture » chez Cikisi…
Un autre facteur de différenciation est la possibilité offerte par certaines solutions de lancer une investigation à partir d’une feuille blanche, sans corpus de sources constitué au départ faute de maîtrise du sujet. IXXO propose ainsi d’explorer ce qui se dit sur le web sur le sujet en question via une douzaine de moteurs de recherche, d’identifier des sous-concepts par traitement statistique, puis d’initier une stratégie de recherche et la création d’agents intelligents venant alimenter un « data lake » c’est-à-dire un corpus de données non structurées, puisqu’il s’agit ici de favoriser la rapidité de constitution d’un corpus et d’imprégnation du sujet.
D’autres comme Curebot proposent, sur des sujets non maîtrisés, de lancer une recherche web en mode exploratoire dans différents moteurs (Google, Bing…), ou encore de lancer sur 1 à 3 mois une campagne de surveillance de milliers de sources via un data broker.
Certains outils font plus radicalement l’économie de l’étape du sourcing : c’est le cas notamment du moteur de veille multilingue niiwaa qui interroge des millions d’enregistrements (data lakes) et des bases de données externes, ouvertes ou fermées,, au moyen de termes de recherche, puis apprend des votes effectués en fonction de la pertinence des items remontés. niwaa et maïplug se passent ainsi également de l’élaboration d’une requête : car comment formuler ce que l’on ne sait pas encore nommer ?.... Le mode interactif d’orientation de la collecte au moyen de votes se veut alors à l’image du mode de fonctionnement du cerveau.
Figure 2 : Aperçu de quelques options de filtrage disponibles sur la plateforme
L’intelligence artificielle, déjà mobilisée par les éditeurs depuis quelques années, notamment pour la recommandation de contenus similaires, la traduction automatique des articles en langue étrangère au fil de la lecture et la génération automatique de résumés, est envisagée à présent sous sa forme générative. Le chatbot est le moyen d’interaction pour faciliter l’exploitation des corpus de veille, en permettant de requêter en langage naturel ou « converser » à partir des contenus validés. C’est l’orientation prise par des acteurs comme Curebot, Cikisi, KB Crawl, ou Sindup sur son portail de veille… Cette fonctionnalité nouvelle ouvre le champ de la veille à des consommateurs ponctuels qui viendront l’interroger pour des besoins informationnels précis plus circonscrits dans le temps, davantage que sur des sujets récurrents.
L’IA, de façon plus anecdotique, vient aussi en renfort du scraping chez KB Crawl en détectant les zones pertinentes à surveiller en fonction des habitudes de scraping du veilleur.
Le développement de l’apprentissage automatique dans les solutions de veille sonnera peut-être à terme le glas du requêtage et de la sélection de mots-clés, considérés par bon nombre de veilleurs - comme le concepteur de maïplug - comme lourds, imparfaits, restrictifs, limitants quand l’IA est, elle, en mesure d’embrasser un volume de mots-clés largement plus important et croissant.
Autant dire que dans la perspective de la disparition (programmée ?) du sourcing et du requêtage et du développement des capacités de détection, filtrage, reconnaissance, classification et recommandation des systèmes d’IA, le paysage des solutions de veille risque à plus ou moins long terme d’être drastiquement bouleversé, et avec lui les compétences attendues des veilleurs.
Pendant assez longtemps, la veille business et la veille scientifique et technique ont constitué des champs tout à fait distincts avec des compétences et ressources spécialisées bien définies pour les piloter, ainsi que des objectifs, des méthodes, des outils et des sources propres.
Puis la mise en place de plus en plus courante de veilles dites « innovation » a commencé à brouiller les frontières, mêlant informations concurrentielles et technologiques, et l’on constate que les spécialistes de la veille au sein des départements marketing et R&D de grands groupes travaillent étroitement ensemble pour fournir leurs analyses stratégiques au top management.
La veille IST a longtemps nécessité un véritable background scientifique et technique dans un domaine spécifique, quel qu’il soit (matériaux, énergie, agro-alimentaire, etc.), pour pouvoir exercer ce rôle efficacement. Pourtant, comprendre non seulement la pertinence, mais aussi l’apport de certains travaux scientifiques ou d’articles techniques n’est plus mission impossible pour celui qui n’est pas du sérail, et ce grâce au développement récent des outils d’intelligence artificielle qui changent la donne.
Bien sûr, un veilleur « généraliste » ne pourra jamais se hisser au niveau d'expertise d’un ingénieur spécialiste, mais l’IA va lui permettre en revanche d’élever sa compréhension des documents sans avoir de bagage spécifique et sans connaître tout le vocabulaire scientifique et technique spécialisé.
Pourquoi ? Parce que l’IA joue le rôle d’un véritable interlocuteur capable de s’adapter à n’importe quel niveau de connaissance et que la grande valeur des systèmes d’IA pour cet exercice est la capacité du chatbot à dialoguer et à reformuler inlassablement ses explications, comme le ferait finalement un excellent professeur !
L’outil d’IA va savoir en effet : répondre aux questions, aux demandes de précisions, de définitions, donner des explications simplifiées et compréhensibles par tous, supprimer les termes trop techniques, utiliser des analogies…
De plus, on sait bien que l’abstract disponible en anglais pour les articles scientifiques est souvent imprécis, trop généraliste ; il reste bien souvent une méta-description et ne permet pas réellement d’appréhender le contenu à valeur ajoutée de l’article.
Il est donc plus efficace de faire effectuer un nouveau résumé à partir du texte intégral lorsqu’on y a accès. Mais plutôt que de demander un simple résumé de l’article, le prompt devra spécifier un maximum de ces éléments :
Une fois ce premier résumé fourni par l’outil d’IA, on peut appliquer un deuxième traitement en poursuivant la conversation :
Déjà abonné ? Connectez-vous...
À l’arrivée de ChatGPT, nous avons vu fleurir sur le web et les réseaux sociaux une quantité de conseils sur l’art subtil de la formulation des prompts. On a vu également émerger une multitude d’outils et de bibliothèques de prompts prêts à l’emploi, souvent payants, adaptés à divers secteurs et types de questions (cf. FOCUS IA : maîtriser et gérer ses prompts - BASES no421- Janvier 2024). Cette révolution IA a même donné naissance à un nouveau métier : le prompt engineering, qui semble se professionnaliser de plus en plus.
Rappelons au passage qu’un prompt (ensemble d’instructions ou encore d’invites) est adressé à un modèle de langage (LLM) via une interface utilisateur, qui peut prendre la forme d’un chatbot (interface conversationnelle) pour générer des réponses ou des contenus spécifiques. Par exemple, Open AI a développé le modèle GPT (avec ses déjà nombreuses versions) et a mis à disposition des utilisateurs le chatbot ChatGPT.
Ces conseils et outils se concentrent principalement autour de ChatGPT, ce qui ne surprend pas au regard de la large et rapide démocratisation de l’IA générative qu’OpenAI a su orchestrer : il était urgent de fournir un « mode d’emploi » pour utiliser efficacement ce chatbot.
Cependant, une question fondamentale demeure : peut-on utiliser les mêmes prompts pour tous les modèles d’IA établis sur le marché (outre GPT : Gemini, Claude, Mistral, Llama principalement) ? Par exemple, Claude répond-il de manière aussi satisfaisante à un prompt conçu pour ChatGPT ?
Cette interrogation est d’autant plus naturelle que chaque modèle d’IA possède ses propres spécificités et capacités d’« intelligence générative » distinctes, fruit d’investissements colossaux et d’approches de développement différents. Cette diversité suggère qu’une stratégie de prompts sur mesure pour chaque modèle pourrait s’avérer efficace pour exploiter pleinement les forces de chaque modèle et de contourner éventuellement ses biais ou limitations.
Lorsqu’on utilise fréquemment l’IA générative, on comprend intuitivement que la qualité des réponses est liée à l’optimisation des prompts et que « défricher le raisonnement » du modèle peut aider. En effet, le raisonnement du modèle n’est pas uniquement statistique, et une compréhension approfondie de ses capacités peut améliorer l’efficacité des interactions.
Ils sont nombreux. Comment dialoguer et développer son interaction avec le modèle d’IA choisi alors que l’on ne sait pas vraiment quel est son profil et son « bagage culturel » initial ? Avec quelles données et langues a-t-il été « nourri » ? Les entreprises sont notoirement réticentes à divulguer les détails de leurs corpus d’entraînement pour des raisons de propriété intellectuelle et de concurrence.
Il faut admettre qu’il est difficile, même à partir de recherches dans la littérature spécialisée, de progresser au-delà d’un certain niveau de généralité dans l’optimisation des prompts. On reste souvent à un niveau expérimental.
Ainsi, notre approche issue de notre expérience personnelle sera pragmatique.
Distinguons tout d’abord deux types de cas d’usage, autour desquels nous axerons ces recommandations.
Pour des questions portant sur une « simple » demande de connaissance, il est possible de rester sur un niveau de requêtage simple, en s’exprimant clairement, mais sans besoin de structurer le prompt. On sera plutôt dans une interaction dynamique avec l’IA, qui propose souvent des reformulations et questions complémentaires.
En revanche, pour des tâches impliquant des opérations intellectuelles complexes, une préparation soignée du prompt sera indispensable, et c’est ici que notre question sur l’utilisation de prompts différenciés prend son sens.
Comment évaluer l’importance d’adapter et d’optimiser le prompt pour chaque modèle d’IA spécifique ?
Déjà abonné ? Connectez-vous...
Perplexity se définit comme un «moteur de réponses» innovant, combinant les fonctionnalités d’un moteur de recherche traditionnel avec celles d’un agent conversationnel alimenté par l’IA : une sorte d’hybride entre ChatGPT et Google Search.
Son ambition affichée est de concurrencer Google sur le marché de la recherche en ligne, en proposant une approche radicalement différente : plutôt que de fournir une simple liste de liens, Perplexity génère des réponses textuelles rédigées en s’appuyant sur des sources d’information récentes, variées et toujours indiquées en référence par l’outil.
La start-up californienne fondée en 2022 par un ancien d’Open AI, a rapidement attiré l’attention des investisseurs, atteignant une valorisation d’un milliard de dollars en 2024.
Le nom «Perplexity AI» fait référence à la notion de perplexité en théorie de l’information, qui mesure l’incertitude, mais il est utilisé ici de manière inverse. L’objectif de Perplexity AI est de réduire l’incertitude (ou la perplexité) des utilisateurs en fournissant des réponses claires et précises, transformant ainsi la haute perplexité en basse perplexité dans le domaine de la recherche d’information.
Pour fonctionner, Perplexity extrait les données d’internet au moment où la question lui est posée, de sorte que les réponses sont réputées être toujours à jour. Il s’appuie ensuite sur plusieurs modèles de langage, le sien propre mais aussi celui d’OpenAI, le modèle open source Llama de Meta ou encore Claude 3, pour produire ses réponses. De plus, il propose des questions connexes à la requête initiale (rappelant un peu les requêtes suggérées de Google), permettant ainsi d’affiner progressivement la recherche.
L’accès peut se faire sans obligation de créer un compte, via le site web de l’application ou une application mobile, avec fonction de recherche vocale disponible sur iPhone. Il existe enfin une extension Chrome qui permet d’y accéder à partir de n’importe quelle page web, de lui faire résumer la page ou répondre à des questions sur ce qu’elle contient.
Perplexity propose deux formules : une version gratuite qui ne contient pas de publicité et un abonnement Pro Search à 20$/mois. La version gratuite offre des recherches rapides illimitées en utilisant un modèle d’IA standard et cinq recherches Pro par jour, traitées avec une plus grande puissance de calcul. L’abonnement Pro débloque des fonctionnalités avancées telles que 600 recherches Pro quotidiennes, le choix entre différents modèles d’IA (GPT-4o, Claude-3, Sonar Large), l’analyse illimitée de fichiers PDF, et la génération d’images.
Les paramètres du profil utilisateur permettent de personnaliser l’expérience utilisateur, en choisissant la langue de l’interface, l’apparence, et même un avatar. De plus, les custom instructions ou instructions personnalisées, permettent d’améliorer et de personnaliser les réponses en fonction des besoins spécifiques de l’utilisateur, de sa langue et de sa localisation. Cette personnalisation améliore la pertinence des résultats et l’adaptent à un contexte professionnel spécifique.
Pour les recherches sensibles ou confidentielles, le mode Incognito s’avère particulièrement utile. Dans ce mode, le fil de discussion n’est pas utilisé pour entraîner les modèles de langage et n’est conservé que pendant 24 heures, sans apparaître dans l’historique des conversations. Il existe également un réglage d’effacement des données entrées dans le paramétrage du compte.
L’analyse de documents PDF et d’images, notamment d’infographies, est une fonctionnalité particulièrement appréciable pour les documentalistes et les veilleurs. Elle permet d’extraire rapidement des informations clés de documents complexes, facilitant ainsi le travail d’analyse et de synthèse.
Déjà abonné ? Connectez-vous...
Dans ce numéro, nous continuons à explorer les défis que représentent pour les professionnels de l’information l’entrée dans l’ère de l’intelligence artificielle, tout en examinant les nouvelles méthodologies, les retours d’expérience et les tendances actuelles qui façonnent nos métiers.
L’émergence des IA génératives, illustrée par le succès fulgurant de ChatGPT, marque un tournant dans nos pratiques. Véronique Mesguich, dans la nouvelle édition de son ouvrage «Rechercher l’information stratégique sur le web», introduit l’impact des IA génératives sur la veille stratégique et la recherche d’information. Si ces outils offrent de nouvelles perspectives d’analyse et de traitement des données, ils nécessitent une approche critique pour éviter les écueils d’informations inexactes ou biaisées.
Le passage d’une «culture de stock» à une «culture de flux» reste un défi majeur, comme le souligne notre article « Adopter une logique de flux... plus facile à dire qu’à faire ». Cette transition n’est pas simplement une tendance, mais une nécessité pour rester pertinents et efficaces. Il s’agit de transformer notre rapport à l’information, en favorisant la capture et l’exploitation en temps réel des données plutôt que leur simple accumulation.
Dans «Bonnes pratiques pour systématiser la surveillance de vos concurrents», nous découvrons des méthodes structurées pour maintenir une veille efficace sans être submergés par l’information. La clé réside dans la sélection rigoureuse des sources et l’automatisation des processus, permettant de se concentrer sur l’analyse et la prise de décision.
L’article «Le jour où j’ai voulu mettre en place une veille collaborative» offre un retour d’expérience précieux sur les défis et les succès de la veille mutualisée. Cette aventure, menée au sein d’une PME, démontre que la mutualisation des efforts peut transformer les pratiques individuelles en intelligence collective, malgré des obstacles organisationnels et humains à ne pas sous-estimer.
Rester agile et professionnel, ce sont deux des nombreux mots clefs qui résument les défis actuels de nos métiers. Face aux transformations, nous sommes invités à nous adapter constamment, à nous former sans relâche et à réinventer sans cesse nos rôles et pratiques au sein des organisations.