Sélectionner le numéro de "Bases" à afficher

IA générative et recherche brevets : ce que révèlent 14 outils analysés 

François LIBMANN
Bases no
443
publié en
2026.01
156
Acheter ce no
Tags
brevets | recherche publique | veille technologique | Intelligence artificielle
IA générative et recherche brevets : ce que révèlent 14 ... Image 1
IA générative et recherche brevets : ce que révèlent 14 ... Image 1

L’Intelligence artificielle générative investit toujours plus de secteurs. Celui des brevets n’y échappe pas.

L’annonce inattendue par PERPLEXITY d’une recherche spécifique brevet nous a incité à explorer le paysage. Nous pensions que cela serait rapide avec une offre limitée. En réalité, nous avons constaté l’inverse : il existe plus d’une quinzaine d’outils et de services à travers le monde qui proposent de réaliser des recherches de brevets en ligne, assistées par l’intelligence artificielle censée les rendre plus efficaces.

Ces outils offrent la possibilité de sélectionner réellement des documents pertinents en réponse à une requête en langage libre, constituant ainsi un état de l’art partiel. Ils ne se limitent pas à l’établissement d’un classement par pertinence sur la base d’une recherche booléenne classique, comme le propose PubMed, ni à l’extraction automatisée de codes CPC à partir d’un document, telle que réalisée par Espacenet.

La frontière entre recherche sémantique et intelligence artificielle est souvent floue dans les outils de recherche de brevets utilisant l’IA, car la sémantique repose déjà sur des modèles de traitement du langage naturel (PNL) et machine learning (ML) pour relier des concepts au-delà des mots-clés. Nous avons donc inclus les deux types d'outils dans notre analyse : ceux basés sur la similarité sémantique, qui identifie des brevets conceptuellement proches, et ceux intégrant l'IA générative, qui accélère la synthèse et l'analyse des résultats. Dans cet article, « IA » désigne principalement l'IA générative, même si plusieurs outils combinent différentes technologies.

La découverte d’une offre consistante et diversifiée

Nous savions déjà que certains serveurs traditionnels, tels que Questel avec Orbit Intelligence et Minesoft Origin, proposaient des offres déjà en service. D’autres, comme STN, restent encore très flous dans leurs déclarations, semblant cibler uniquement certains groupes d’utilisateurs spécifiques, avec en outre une diffusion particulièrement échelonnée dans le temps.

Nous avons néanmoins recherché d’autres offres de cette nature. Et au cours de ces recherches, nous avons identifié de nombreux outils permettant d’effectuer des recherches de brevets à l’aide de l’intelligence artificielle. Cette évolution résulte notamment de la disponibilité sous forme électronique du corpus mondial de brevets et des progrès significatifs réalisés dans le domaine des technologies d’IA.

Pour cet article, nous avons analysé quatorze outils, qui représentent une grande partie de l’offre actuelle.

Nous avons choisi de ne pas détailler la présen­tation de chaque outil, ni d’exposer l’ensemble de leurs fonctionnalités, souvent nombreuses, ainsi que leurs possibilités d’analyse, également très étoffées. Une telle démarche aurait dépassé le cadre éditorial habituel d’un article pour BASES.

Nous avons opté pour une introduction concise de ces outils, accompagnée d’un tableau synthétique mentionnant le nombre total de résultats trouvés (limité le cas échéant à soixante), ainsi que le nombre de résultats jugés pertinents.

tags

Déjà abonné ? Connectez-vous...

Connexion

Connexion

Votre identifiant

ENTER YOUR PASSWORD

Forgot Password or Username
Créer un compte

Isabelle Orzechowski : « Je ne laisserai pas l’IA prendre le pas sur mon cerveau ! »

 Christel RONSIN
Bases no
443
publié en
2026.01
142
Acheter ce no
Tags
Intelligence artificielle | knowledge management | veille métier | formation Veille Infodoc
Isabelle Orzechowski : « Je ne laisserai pas l’IA prendre ... Image 1
Isabelle Orzechowski : « Je ne laisserai pas l’IA prendre ... Image 1

Interview d' Isabelle Orzechowski, knowledge manager indépendante - Doc et Plume, menée par Christel RONSIN.

Isabelle Orzechowski est knowledge manager indépendante depuis 2021, après huit ans en tant que gestionnaire de bases de données et formatrice. Elle est aussi secrétaire du Club Proknow, association qui participe à la diffusion de la gestion des connaissances.

Nous avons échangé avec Isabelle pour aborder une question qui suscite de nombreux débats parmi les professionnels de l’information : l’utilisation de l’intelligence artificielle générative (IAG). Son analyse apporte un regard nuancé et expert pour comprendre comment concilier innovation et rigueur dans la gestion de l’information.

Christel RONSIN : Isabelle, vous avez fait le choix de ne pas recourir à l’intelligence artificielle générative, pouvez-vous nous expliquer les raisons de cette décision ?

Isabelle ORZECHOWSKI : Face à l’émergence de nouveaux outils, surtout lorsqu’ils suscitent un engouement rapide, j’ai toujours adopté une posture d’observation et de retrait initial. Cette prudence m’a permis de constater, dès les premiers mois, des dérives similaires à celles que nous avions déjà observées avec l’avènement des réseaux sociaux. Ces dérives, tant comportementales que structurelles, m’ont alertée.

L’intelligence artificielle en tant que telle ne me pose pas de problème en soi. Je reconnais son utilité à condition qu’elle reste un outil - et non une dépendance systématique pour chaque aspect de notre vie professionnelle ou personnelle. L’utilisation de l’IA générative soulève des questions majeures en termes de sécurité notamment.

CR : Quels sont, selon vous, les principaux risques liés à l’utilisation de l’intelligence artificielle générative ?

tags

Déjà abonné ? Connectez-vous...

Connexion

Connexion

Votre identifiant

ENTER YOUR PASSWORD

Forgot Password or Username
Créer un compte

La France s’attaque au vol de contenus par les IA génératives

Philippe MASSERON
Bases no
443
publié en
2026.01
135
Acheter ce no
Tags
Intelligence artificielle | droit d'auteur
La France s’attaque au vol de contenus par les IA ... Image 1
La France s’attaque au vol de contenus par les IA ... Image 1

Nous inaugurons une nouvelle rubrique où Philippe MASSERON, ancien directeur général du CFC et actuel directeur général du gf2i, nous apporte son expertise sur les questions majeures liées au droit d’auteur à l’ère de l’intelligence artificielle générative (IAG).

Prouver qu’une IA a utilisé ses œuvres sans autorisation ? Quasi impossible pour un ayant droit.

Le 12 décembre 2025, un groupe transpartisan de sénatrices et sénateurs (1) a déposé une proposition de loi « relative à l’instauration d’une présomption d’exploitation des contenus culturels par les fournisseurs d’intelligence artificielle ».

Cette initiative forte vise à rééquilibrer le rapport entre ayants droit d’œuvres protégées et fournisseurs de systèmes d’intelligence artificielle.

Droit d’auteur et droits voisins bousculés par l’IAG

Les fournisseurs de services d’intelligence artificielle générative (SIAGen) sont des utilisateurs massifs de données, dont des contenus protégés par le droit d’auteur et les droits voisins. Pour autant, ils rechignent à respecter les textes européens (le règlement du 13 juin 2024 sur l’intelligence artificielle, la directive du 17 avril 2019 relative au droit d’auteur et aux droits voisins dans le marché unique numérique (2)) qui imposent transparence et respect du droit d’auteur et des droits voisins.

Leur ligne de défense ? Ils opposent le bénéfice des dispositions de l’article 4 de la directive de 2019, exception dite de « fouille de textes et de données » (text and data mining- TDM, en anglais).

Cette exception est cependant conditionnée à ce que les titulaires de droits ne se soient pas expressément opposés à l’usage de leurs œuvres à ces fins de fouille. Ce que l’on nomme « l’opt-out ». Par ailleurs, l’absence de transparence sur les données utilisées pour l’entraîne­ment des modèles (les jeux de données utilisées sont rarement publiés) complique à l’excès la tâche des ayants droit pour faire valoir leur opt-out et démontrer l’utilisation de leurs œuvres.

Cette situation met ainsi en échec le respect de leurs droits et paralyse leur droit de recours.

tags

Déjà abonné ? Connectez-vous...

Connexion

Connexion

Votre identifiant

ENTER YOUR PASSWORD

Forgot Password or Username
Créer un compte

Les outils d’IA qui transforment la prise de notes et les résumés de reunions

Elodie CHARRIÈRE
Bases no
443
publié en
2026.01
140
Acheter ce no
Tags
Intelligence artificielle | ChatGPT | knowledge management | veille métier
Les outils d’IA qui transforment la prise de notes et les ... Image 1
Les outils d’IA qui transforment la prise de notes et les ... Image 1

Pendant longtemps, la prise de notes en réunion nécessitait de faire plusieurs choses à la fois, et cela pouvait rendre la tâche plus difficile : écouter, écrire, lire, ne rien oublier… au risque de passer à côté de l’essentiel. Aujourd’hui, l’intelligence artificielle s’impose comme un véritable assistant, capable de capturer, structurer et synthétiser automatiquement les échanges. Résultat : des réunions plus efficaces et une information mieux exploitée.

Ainsi, il existe plusieurs outils pour faciliter la prise de note. Ces derniers reposent sur trois grandes étapes : la première est l’enregistrement audio et vidéo de la réunion , la deuxième se traduit par la transcription automatique de la parole en texte grâce à la reconnaissance vocale, et la troisième est la synthèse intelligente des échanges avec les points clés, les décisions, les actions à suivre ou encore les horodatages précis.

Certaines solutions vont plus loin en analysant le contenu pour détecter les sujets récurrents, identifier les intervenants ou proposer des résumés personnalisés selon le rôle de l’utilisateur (manager, commercial, RH).

Fireflies.ai

Parmi les outils d’intelligence artificielle les plus populaires pour la prise de notes et les résumés de réunions, fireflies.ai fait figure de référence. Connecté aux principales plateformes de visioconférence comme Zoom, Google Meet ou Microsoft Teams, il enregistre automatiquement les réunions, les transcrit en temps réel et génère un résumé structuré à la fin de l’échange. L’outil permet ensuite de rechercher un mot-clé dans l’ensemble des réunions enregistrées, ce qui en fait un véritable moteur de recherche conversationnel . Il est particulièrement apprécié dans les équipes professionnelles qui enchaînent les réunions et ont besoin de retrouver rapidement une décision ou une information précise.

Fathom

Autre solution très utilisée, Fathom se positionne comme un assistant de réunion discret et efficace. Il se concentre sur la génération de résumés clairs, avec une mise en avant des points clés et des actions à retenir . L’utilisateur peut personnaliser le type de résumé souhaité et partager facilement les comptes rendus avec ses collègues. Fathom est souvent choisi pour sa simplicité d’utilisation et son interface épurée, adaptée aux environnements professionnels qui cherchent à gagner du temps sans multiplier les outils complexes.  

tags

Déjà abonné ? Connectez-vous...

Connexion

Connexion

Votre identifiant

ENTER YOUR PASSWORD

Forgot Password or Username
Créer un compte

L’édition scientifique va-t-elle dans le mur ?

FRANÇOIS LIBMANN
Bases no
442
publié en
2025.12
457
Acheter ce no
Tags
veille technologique | littérature scientifique | science ouverte | Intelligence artificielle
L’édition scientifique va-t-elle dans le mur ? Image 1
L’édition scientifique va-t-elle dans le mur ? Image 1

Depuis plusieurs siècles les publications scientifiques sont un des fondements de l’évolution de la science. En effet, le plus ancien périodique scientifique le Journal des sçavans  est paru à Paris le 5 janvier 1665.

Aujourd’hui plusieurs signes inquiétants viennent mettre en doute la possibilité pour ce système de poursuivre son évolution de façon harmonieuse et de continuer à accompagner l’avancement de la science comme il l’a fait jusqu’à présent.

Une illustration en est la journée 2025 Science ouverte du CNRS sur le thème « La mort annoncée des publications scientifiques ? .

Une croissance incontrôlée

Le nombre de publications scientifiques croît nettement plus rapidement que le nombre de chercheurs. Par exemple, entre 2016 et 2020 les principales bases de données bibliographiques ont grossi de 50 % alors que le nombre de scientifiques n’augmentait que de 16 %. C’est ce qu’on lit dans le BlogCNRS du 16 décembre 2025 intitulé « Publications scientifiques : une surproduction fatale ? ».

Cette croissance n’est pas uniformément répartie, car certains éditeurs ont, en particulier grâce à la multiplication des numéros spéciaux, des croissances bien supérieures. Elle est de 1 080 % pour MDPI, de 675 % pour Frontiers et de 139 % pour Hindawi. À eux trois, ils ont contribué à plus de 54 % de l’augmentation totale des articles publiés durant cette période.

Le cas d’Indawi est caricatural.

En effet, créé en 1997, il est passé dans les années 2000 progressivement au modèle gold open access (où l’auteur paye des APC - article processing charges) publiant jusqu’à 400 revues. Il est racheté en 2021 par Wiley pour 298 M$. Une crise éclate finalement en 2023 : 8 000 articles, principalement issus de numéros spéciaux, sont rétractés, un record pour un éditeur en une seule année, et Wiley finit par abandonner la marque Indawi en intégrant un nombre limité de ses publications.

Les moteurs de l’inflation éditoriale

Ce développement accéléré du nombre de publications et d’articles est d’abord dû au développement « naturel » de la science qui a pour conséquence une augmentation du nombre des publications selon le schéma traditionnel : création de revues dans des spécialités nouvelles, nouveaux sujets d’étude, etc.

On observe aussi un accroissement de la présence de publications en provenance du monde non occidental qu’on appelle aussi « Sud Global ».

tags

Déjà abonné ? Connectez-vous...

Connexion

Connexion

Votre identifiant

ENTER YOUR PASSWORD

Forgot Password or Username
Créer un compte

La recherche sur les valeurs des propriétés physiques

François LIBMANN
Bases no
442
publié en
2025.12
400
Acheter ce no
Tags
littérature scientifique | brevets | veille technologique | derwent
La recherche sur les valeurs des propriétés physiques Image 1
La recherche sur les valeurs des propriétés physiques Image 1

La recherche sur les valeurs d’une grandeur physique à l’intérieur d’un texte, qu’il s’agisse d’un article ou d’un brevet, ne s’utilise a priori pas tous les jours.

En revanche, quand il est utile de l’employer cela apporte une plus-value certaine, car cela rajoute une possibilité de recherche de nature différente permettant de répondre à une autre série de questions.

Plusieurs systèmes proposent aujourd’hui ce type de recherche d’une façon développée. Nous en avons identifié chez trois des grands serveurs et une banque de données qui fait partie des classiques.

Le serveur STN : une offre depuis 2013 avec sa « Numerical property search » (NPS)

Elle est disponible dans 15 banques de données offrant le texte intégral des brevets (EP et PCT plus12 pays) ainsi que dans Derwent World Patent Index et RDisclosure, la base des publications défensives (voir l’article sur les publications défensives dans BASES N° 325, avril 2015).

Elle est aussi disponible dans sept banques de données bibliographiques, mais Chemical Abstracts n’y figure pas, pas plus que les bases de données biomédicales ou Inspec qui a son système propre comme on le verra plus loin.

Les valeurs numériques de 55 propriétés physiques (si on enlève les pourcentages et le symbole du système international, et les parts par million [ppm]) sont ainsi recherchables dans cinq systèmes d’unités dont les plus connus sont le SI (Sytème International basé sur mètre-kilo-seconde) et le CGS (centimètre-gramme-seconde) auquel il faut rajouter le propre système de STN basé sur le SI.

Le système convertit automatiquement les données trouvées dans les brevets ou les articles.

Dans la recherche, on utilise deux catégories d’opérateurs : d’une part des opérateurs numériques : >, <, >=, <, et « dans un intervalle » et des opérateurs de proximité (nW) pour deux termes à n mots maximum dans cet ordre et (nA) dans n’importe quel ordre.

On écrira par exemple S particle (3A) SIZE (3A) 1-100 nm/LEN pour rechercher des nanoparticules d’une dimension comprise entre 1 et 100 nanomètres (un nanomètre est un milliardième de mètre).

Orbit Intelligence a lancé récemment son propre outil

Pendant une période prolongée, STN était le seul serveur à proposer ce type de recherche. Récemment, il a été rejoint par Orbit Intelligence de Questel ainsi que par Minenesoft Origin.

La requête dans Orbit est de nature très semblable. Pour accéder à l’écran de recherche, il faut cliquer sur « gérer les champs & modèles » en haut de l’écran de recherche et cliquer sur « Mesure » dans la rubrique « CHAMPS SPÉCIAUX ».

On entre ensuite la stratégie par une série de menus déroulants. Il n’y a pas d’opérateur de proximité à ajouter, car la proximité maximale automatiquement appliquée est de 100 caractères avant et 40 caractères après le(s) terme(s) de recherche.

tags

Déjà abonné ? Connectez-vous...

Connexion

Connexion

Votre identifiant

ENTER YOUR PASSWORD

Forgot Password or Username
Créer un compte

CAS BIOACTIVITY : une nouvelle base sur STN

François LIBMANN
Bases no
442
publié en
2025.12
77
Acheter ce no
Tags
veille concurrentielle | veille technologique | données statistiques | chimie
CAS BIOACTIVITY : une nouvelle base sur STN Image 1
CAS BIOACTIVITY : une nouvelle base sur STN Image 1

Le serveur STN vient de mettre en ligne la banque de données CAS BIOACTIVITY (label CASBIOACTIVI). Elle vient enrichir la collection de bases de données de Chemical Abstracts liées au numéro de registre (RN) des produits chimiques, créé et maintenu par CAS et disponible sur STN dans la banque de données Registry.

Elle est présentée comme la plus grande collection de contenus normalisés et standardisés dans le domaine des sciences de la vie, disponible sur le marché.

La nouvelle base est positionnée comme une référence pour les données structurées de relations structure-activité (SAR), de pharmacocinétique (ADME) et de toxicité.

Elle offre plus de 5,5 millions de documents contenant des informations issues de brevets et de plus de 7 000 publications.

Une de ses plus-values par rapport aux banques publiques (CheMBL et PubChem) est la présence de codes de rôles de Chemical Abstracts (BAC pour Biological Activity, PAC pour Pharmacological Activity ou ADV pour Adverse Effect, etc.) Une autre est sa mise à jour bi-hebdomadaire.

Chaque document est présenté en deux parties. Dans la première, figure essentiellement le nom du ligand et son numéro de registre (RN). Un ligand est une molécule ou un ion qui se lie spécifiquement à une autre entité chimique (molécule) appelée récepteur ou protéine afin de provoquer un effet biologique ou chimique.

tags

Déjà abonné ? Connectez-vous...

Connexion

Connexion

Votre identifiant

ENTER YOUR PASSWORD

Forgot Password or Username
Créer un compte

Quand l’IA apprend à vous manipuler : les nouveaux dark patterns dont vous ne vous rendez même pas compte

Élodie CHARRIÈRE
Bases no
442
publié en
2025.12
456
Acheter ce no
Tags
Intelligence artificielle | dark social | e-réputation
Quand l’IA apprend à vous manipuler : les nouveaux dark ... Image 1
Quand l’IA apprend à vous manipuler : les nouveaux dark ... Image 1

Vous pensez encore cliquer librement sur Internet ? Que vos choix sont rationnels, réfléchis, volontaires ? Désolée de vous décevoir, mais derrière votre écran, une intelligence artificielle a peut-être déjà décidé à votre place. Pas en vous forçant. Juste en vous influençant, doucement, sans que vous vous en rendiez vraiment compte. Bienvenue dans l’ère des dark patterns 2.0, version intelligence artificielle.

D’abord, c’est quoi un dark pattern ?

Les dark patterns, ce sont des techniques de design utilisées pour vous pousser à faire quelque chose contre votre réel intérêt. Cela peut être un abonnement “gratuit” qui se renouvelle automatiquement, un bouton “Accepter tout” bien visible, et un “Refuser” caché au fond de la page ou encore une notification qui vous fait paniquer : “Plus que 2 places disponibles !”. Jusqu’ici, c’était déjà limite. Mais maintenant, avec l’IA, ces techniques sont devenues personnalisées, plus subtiles, et surtout… invisibles.

Là où le dark pattern classique s’adresse à tout le monde de la même façon, l’IA, elle, s’adapte à vous. Elle analyse : vos heures de connexion, votre temps d’hésitation avant un clic, les contenus que vous regardez quand vous procrastinez, ce qui vous rassure, vous angoisse ou vous fait culpabiliser. Résultat ? Deux personnes sur le même site ne verront jamais la même interface.

Le plus troublant, c’est que ces nouveaux dark patterns ne ressemblent plus du tout à de la manipulation. Ils prennent la forme d’une suggestion bien placée, d’un rappel ou d’un message qui tombe “au bon moment”.

Les nouveaux dark patterns dont il faut se méfier

L’un des plus répandus aujourd’hui est ce qu’on appelle « l’urgence artificielle personnalisée ». Vous êtes sur un site, vous hésitez, vous comparez. Au bout de quelques secondes, un message apparaît : « D’autres personnes regardent ce produit en ce moment » ou « Cette offre est très demandée ». Rien de choquant en apparence. Pourtant, ce message ne s’affiche pas au hasard. L’IA a détecté que vous ralentissiez, que vous doutiez, et déclenche une légère pression pour vous empêcher de fermer l’onglet. Le but ? Inciter votre cerveau à prendre une décision rapide.

tags

Déjà abonné ? Connectez-vous...

Connexion

Connexion

Votre identifiant

ENTER YOUR PASSWORD

Forgot Password or Username
Créer un compte

Google (News, Discover) vs Perplexity (Discover) : l’IA est-elle devenue le nouveau rédacteur en chef ?

Anne-Marie LIBMANN
Bases no
442
publié en
2025.12
433
Acheter ce no
Tags
Intelligence artificielle | veille medias | droit d'auteur | copyright
Google (News, Discover) vs Perplexity (Discover) : l’IA ... Image 1
Google (News, Discover) vs Perplexity (Discover) : l’IA ... Image 1

La guerre de l’info franchit un seuil critique. Avec l’irruption de Perplexity Discover et l’intégration des AI Overviews dans la sphère Google, nous ne parlons plus seulement d’indexation ou de diffusion : ici, l’IA franchit le Rubicon et endosse le rôle d’éditorialiste.

Ce passage d’un Web « clic-centrique » à un Web « IA-centrique » offre un gain de temps immense, mais pose une question vitale : quel sera le prix de cette commodité si, à force d’être résumée par des algorithmes, l’information indépendante finit par ne plus être produite ? Pour les éditeurs, c’est un combat pour la survie.

L’arrivée de Perplexity AI est l’une des bonnes surprises de l’IA dans notre sphère informationnelle. Grâce à son positionnement « Search + IA », elle apporte une diversité bienvenue face au moteur de recherche Google.

La domination de Google est également, pour la première fois, sérieusement contestée sur un nouveau terrain, celui de l’actualité, par l’approche disruptive de Perplexity qui vient challenger le puissant écosystème structuré par Google depuis les années 1990 autour de Google News.

Ce duel ne repose pas sur de la « performante brute », mais sur deux philosophies de l’informa­tion. Google conserve une avance décisive sur l’exhaustivité et le local : c’est l’outil de la couverture universelle, s’appuyant sur des données géolocalisées et un index infini. À l’inverse, Perplexity s’impose par sa «profondeur» : il ne se contente pas de lister, il analyse, fusionne et synthétise.

Le «bibliothécaire du web» doit désormais faire face à un «rédacteur algorithmique» qui ne se contente plus de pointer vers l’info, mais qui la raconte.

Trois plateformes, trois philosophies de la découverte

Pour comprendre ce qui se joue, il faut disséquer le fonctionnement de ces trois systèmes qui marquent chacun une étape de notre rapport à l’information :

1. Google News (lancé en 2002) : le bastion de la presse structurée. Après plus de deux décennies d’existence, il reste le pilier de l’actualité hiérarchisée. Son algorithme compile des milliers de sources classées par catégories (Monde, Tech, Sport, etc.). La personnalisation y est «douce» : elle repose sur vos intérêts et votre historique, mais conserve l’illusion d’un kiosque traditionnel. L’expérience varie selon les pays et les accords légaux locaux. C’est encore «l’ère du lien» : l’utilisateur choisit un titre et clique pour lire le contenu directement chez l’éditeur.

2. Google Discover (déployé depuis 2018) : la curation passive et prédictive. Contrairement à Google News, où l’utilisateur consulte activement les actualités par rubrique, Discover propose une approche différente :

  • Le passage au flux « Push » : l’information est envoyée à l’utilisateur, qui la reçoit sans devoir ouvrir une application de presse ou saisir une recherche.
  • Le magazine prédictif exploite les données des utilisateurs telles que l’historique de navigation, la localisation et les centres d’intérêt afin de générer un flux d’actualités personnalisé. Ce système privilégie la découverte spontanée de contenus, reléguant ainsi la recherche ciblée au second plan.
  • Depuis 2024, Google Discover a évolué en adoptant des formats inspirés des réseaux sociaux et, dans certains pays comme les États-Unis, les premiers éléments des AI Overviews. Ces résumés génératifs font de Discover un lieu de consommation directe de l’information, sans quitter la plateforme.

tags

Déjà abonné ? Connectez-vous...

Connexion

Connexion

Votre identifiant

ENTER YOUR PASSWORD

Forgot Password or Username
Créer un compte

IA générative : les sources sous tensions

ANNE-MARIE LIBMANN
Bases no
441
publié en
2025.11
774
Acheter ce no
Tags
IA | droit d'auteur
IA générative : les sources sous tensions Image 1
IA générative : les sources sous tensions Image 1

Un écosystème en transition : entre pillage massif, rééquilibrages juridiques et premiers modèles sous droits


L'IA générative ne se contente pas de « produire du texte ». Elle recompose le cadre même dans lequel l'information circule, est transformée et prend de la valeur.

Après quelques décennies d'un écosystème hybride, mêlant presse sous droits, bases professionnelles, web ouvert et intermédiation dominante de Google - un nouveau paysage se dessine, où des agents IA, encore largement alimentés par du scraping massif des contenus, souvent dénoncé comme une forme de captation non autorisée par les éditeurs, pourraient à terme fonctionner sur des corpus contractuels négociés.

Mais cette transition est loin d'être accomplie. Nous sommes dans un « entre-deux » instable où se côtoient pillage, litiges, opacité technique et premières tentatives de régulation. Les enjeux sont cruciaux pour les éditeurs, les professionnels de l'info-doc, les journalistes et, plus largement, l'ensemble des usagers.

 D'un écosystème hybride à un accès algorithmique aux contenus

Contrairement à l'idée parfois avancée d'un « avant » dominé par un web ouvert, l'écosystème informationnel qui a précédé l'IA générative était déjà profondément hybride. Une large part des contenus reposait sur des dispositifs sous droits : presse payante, agences, agrégateurs, bases professionnelles.

Cet univers, structuré par des licences et des usages encadrés, était gouverné par des éditeurs, des institutions réglementaires et des professionnels de l'information qui en assuraient la cohérence juridique et documentaire.

À côté de cet espace contractuel existait le web ouvert, un territoire libre d'accès et riche en signaux documentaires, où la traçabilité des pages, l'identification des auteurs, la présence des liens et la possibilité de suivre la circulation des contenus constituaient autant de repères essentiels.

Entre ces deux pôles se tenait Google, une interface quasi incontournable. Son modèle économique basé sur la publicité créait de tensions fortes avec les éditeurs, imposait de nouvelles dépendances économiques et influençait parfois très négativement les stratégies éditoriales. Pourtant, malgré ses effets ambivalents, Google garantissait au moins une certaine forme d'échange : il permettait la visibilité des contenus, générait du trafic vers les sites et participait, même de façon imparfaite, à leur découvrabilité.

Cet ensemble composite, déjà traversé de conflits et d'interdépendances, forme aujourd'hui le socle sur lequel viennent se greffer les recompositions provoquées par l'IA générative.

Un changement de paradigme juridique : l'IA ne copie pas les contenus, elle les ingère

Et c'est là que se situe la rupture. Le débat public se concentre encore sur la notion de « reproduction » des contenus par les modèles d'IA. Or ce cadre ne correspond plus à la réalité technologique. Les systèmes génératifs ne stockent pas des copies d'articles ; ils ingèrent des textes sous forme de représentations vectorielles.

Cette ingestion est un processus informationnel au sens strict : extraction de caractéristiques, intégration dans des modèles distribués, recombinaisons ultérieures.

C'est lors de l'ingestion que le modèle s'approprie, sur le plan computationnel, les caractéristiques linguistiques, sémantiques et structurelles du corpus, qu'il réutilisera ensuite pour générer des réponses – même si aucune reproduction textuelle n'apparaît dans les sorties. Cela met à mal la logique traditionnelle du droit d'auteur, historiquement centré sur la copie visible.

L'entraînement : un processus continu alimenté par des flux de données hétérogènes

Contrairement à l'idée souvent avancée d'un « entraînement initial » stabilisé, les modèles d'IA suivent des cycles continus : mises à jour, fine-tuning spécifiques, etc.

Les pipelines d'ingestion restent actifs. De nouveaux corpus peuvent être intégrés, volontairement ou via les usages des utilisateurs, comme nous allons le voir.

Ce fonctionnement continu ne pose pas tant un problème de gouvernance qu'une question juridique centrale : à quel moment l'utilisation d'un contenu devient-elle rémunérable ? Plusieurs acteurs considèrent logiquement que c'est au moment de l'ingestion que se jouent la captation de valeur et son intégration durable dans ses représentations, mais ce point reste juridiquement ouvert.

Les utilisateurs comme contributeurs involontaires : un angle mort critique

Un flux d'alimentation bien moins visible que le scraping massif provient aujourd'hui des utilisateurs eux-mêmes. À travers leurs essais, leurs copier-coller ou le téléversement de documents dans des outils d'IA, ils introduisent dans les modèles des contenus qui, pour beaucoup, relèvent du droit d'auteur : articles sous paywall, extraits de bases sous licence, analyses internes, rapports de veille, documents d'archives.

Or le statut de ces apports est rarement clair. Selon les outils, on ignore si les documents sont stockés, s'ils servent à ajuster les modèles, s'ils sont susceptibles d'être réutilisés dans d'autres interactions, ou même s'ils sont correctement effacés.

Pour les organisations, le risque est double. Elles s'exposent, d'une part, à une perte de contrôle sur leurs corpus propriétaires ou sous licence, et, d'autre part, à des enjeux de conformité qui dépassent la seule dimension documentaire : respect du droit d'auteur, responsabilité en cas de réutilisation non autorisée, exposition potentielle à des violations du RGPD lorsqu'un document contient des données personnelles.
Autrement dit, un acte apparemment anodin – déposer un PDF pour obtenir un résumé – peut transformer l'utilisateur en contributeur involontaire d'un système tiers, au détriment de l'éditeur du contenu et, finalement, de son entreprise elle-même.

tags

Déjà abonné ? Connectez-vous...

Connexion

Connexion

Votre identifiant

ENTER YOUR PASSWORD

Forgot Password or Username
Créer un compte
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • ›
  • Fin