Il faut revenir aux années 90 pour voir émerger le mouvement de la science ouverte, principalement sous la forme de l’« open access », porté par la volonté de donner un accès libre et gratuit aux publications scientifiques.
Cela va se matérialiser au départ sous la forme d’archives ouvertes. L’archive ouverte ArXiv avec ses preprints, une des pionnières en la matière, a été créée en 1991.
La deuxième phase de développement se situe ensuite dans les années 2000 avec l’essor de l’Internet grand public. L’archive ouverte française HAL est ainsi lancée en 2001.
Beaucoup plus récemment, le développement des plug-ins d’accès à la littérature scientifique a permis de repérer beaucoup plus simplement un article disponible en libre accès quelque part sur le Web, éventuellement sous forme de preprint ce qui n’était pas toujours évident.
Par ailleurs, quand on parle d’open access, il faut bien distinguer :
● D’une part l’accès gratuit au document primaire (l’original);
● D’autre part l’accès à une plateforme ou à un moteur permettant de rechercher puis de visualiser gratuitement uniquement des références d’articles et de proceedings et aussi parfois de chapitres de livres.
Notre habitude est de construire des stratégies complexes, mêlant synonymes, mots écrits de différentes façons (crosslink ou « cross link » par exemple), avec des opérateurs booléens, de proximité, des possibilités d’exclure des thématiques et, enfin, de multiples possibilités de combiner des étapes. Autant le dire tout de suite, ces stratégies ne sont pas transposables en l’état dans ces nouveaux outils.
Pour réaliser nos tests, nous avons donc dû utiliser des stratégies relativement simples qui puissent fonctionner sur tous les outils. Nous nous sommes limités aux références d’articles ou de conférences, incluant les preprints qui sont de plus en plus pris en compte. En revanche nous n’avons pas, dans la mesure du possible, pris en compte les chapitres d’ouvrages et les thèses. Les recherches se font dans le titre, ce qui n’est pas toujours simple, certains systèmes n’offrant pas cette option, obligeant à faire des comptages manuels. Nous avons envisagé de tester une recherche par affiliation mais cette fonctionnalité n'est pas disponible dans tous les moteurs.
Cette comparaison entre les serveurs et les outils gratuits ne pouvant se faire que sur des stratégies simples, on laisse de côté la puissance de recherche et le confort d’utilisation pour ne comparer que le nombre de réponses. Par ailleurs, il est évident que ces tests n’ont aucune valeur statistique et que l’on ne peut rien généraliser à partir de leurs résultats.
En France, pays champion européen de l’open data, on parle souvent des startups qui parviennent à exploiter des données accessibles en accès gratuit, pour en faire des services, avec parfois une option payante, à l’instar de Pappers ou Doctrine.
Depuis la démocratisation de l’IA amorcée il y a plus d’un an avec la mise à disposition au public de ChatGPT, suivie depuis par d’autres IA génératives et services afférents, comment le traitement des données ouvertes a-t-il évolué et surtout, est-il davantage accessible à un utilisateur sans formation technique particulière en amont ? Exploration, étape par étape, du traitement des données, de l’extraction à la publication.
Première étape : la collecte des données. Celle-ci peut se faire de deux façons : en téléchargeant un dataset ou en procédant à l’extraction des données sur un document. C’est dans ce second cas que les outils IA interviennent. S’offrent alors deux possibilités d’extraction de données :
● Avec un outil IA où l’on importe un fichier de données.
● Avec un tableur habituel, auquel on ajoute un module IA.
Les outils IA qui permettent d’importer gratuitement des documents à traiter ne prennent pas en charge les formats de bases de données, mais uniquement les formats textes et PDF. Dans ce cas, extraire les données d’un document pour les récupérer sous forme texte ou de tableau est un jeu d’enfant.
L’année 2023 a été marquée par la démocratisation des IA génératives. Cette technologie de pointe, qui a émergé sur le marché en 2020, était alors réservée à quelques experts qui payaient une API. Amorcée par la mise sur le marché de l’interface gratuite ChatGPT d’OpenAI, dont la plupart des produits sont devenus payants dans les mois qui ont suivi, cette démocratisation pourrait néanmoins perdurer grâce au développement de modèles de langage sous licence ouverte (ou « open source »).
Cette licence permet en effet d’exploiter un modèle de langage pré-entraîné à moindres frais (moins de 500 dollars dans la plupart des cas et avec des ressources de calcul modestes), ouvrant ainsi l’accès à un large éventail de chercheurs, de développeurs et d’organisations.
Il existe néanmoins quelques freins pour que le veilleur puisse en profiter.
● L’étude du fonctionnement du système et l’inspection de ses composants ;
● L’utilisation de son système à n’importe quelle fin, sans avoir à demander la permission ;
● La modification du système pour changer ses recommandations, prédictions ou décisions afin de l’adapter à ses besoins ;
● Le partage du système avec ou sans modifications, à quelque fin que ce soit.
● Nombre de titres de presse écrite (2021, Ministère de la Culture) : 3872
● Nombre de radios (2022, Arcom) : + 1000
● Nombre de chaînes de télévision (2022, Arcom) : 30 chaînes nationales
● Classement de médias numériques (2021, Mind Media, par nombre d’abonnés) : Le Monde, L’Équipe, Le Figaro, Ouest-France, Les Échos, Libération, Le Parisien.
Vivendi (V. Bolloré) : Groupe Canal + (Canal+, Canal+ Cinema, Planète+, Canal+ Sport), CNews, C8, CStar), Prisma Media (Géo, Femme actuelle, Gala), Lagardère News (JDD, Europe 1, Paris Match, RFM, Europe 2, Elle International), etc.
La connaissance des médias est une compétence essentielle du sourcing et de l’analyse dans la veille informationnelle. Pourtant, les professionnels de la veille et des médias ne se côtoient que trop rarement. Or, connaître l’univers - et la diversité - médiatique est justement ce qui permet de constituer un corpus complet, c’est-à-dire qui prend en compte l’ensemble des opinions autour d’une question. Visite guidée, à l’aube d’une prochaine disruption médiatique.
Le paysage médiatique français est constitué d’un grand nombre de titres traditionnels : plus de 5000 titres de presse écrite, radios et chaînes de télévision en 2021, selon les chiffres du ministère de la Culture et de l’Arcom.
Les médias locaux évoluent et cela impacte directement le sourcing et les pratiques de veille. Comment identifier et intégrer ces sources et verticales dans son sourcing ?
Il y a des veilles et des recherches d’information où la dimension locale est primordiale. L’information locale qu’il faut réussir à capter, c’est alors celle fournie par des journaux locaux, radios et TV locales, collectivités locales, mais aussi par des internautes désireux de partager des informations.
Ces différentes sources vont permettre d’obtenir des informations uniques et stratégiques notamment au niveau de la politique et de l’économie locale.
En France, quand on pense information locale, on pense avant tout à la PQR (presse quotidienne régionale) et à la PHR (presse hebdomadaire régionale) et par extension à un secteur touché de plein fouet par les difficultés rencontrées par la presse depuis des années.
On aurait vite fait d’extrapoler et de se dire que la veille locale en France risque d’être de plus en plus compliquée avec des sources et des informations locales moins nombreuses. Mais malgré ce sombre tableau, l’information locale n’a pas dit son dernier mot et se renforce même à différents niveaux et via différents canaux.
Dans cet article, nous explorons cette évolution et examinons ses répercussions sur la veille et la recherche d’informations.
Les médias des collectivités locales sont des sources essentielles d’informations régionales au rôle bien singulier. Et comme l’intégration de ces ressources dans une veille reste un véritable défi, comment identifier, surveiller et intégrer ces médias à son système de veille.
Parmi les sources utiles pour trouver de l’information locale en France, les journaux des collectivités (communes, communautés de communes, départements ou régions) sont en bonne position. Ces médias ont une place bien à part dans le paysage des médias locaux. Ils ont la forme d’un journal ou d’un magazine, mais sont généralement la voix de l’équipe politique en place, à l’exception des quelques pages réservées à l’opposition.
Une fois que l’on a bien conscience du positionnement et des biais associés à ce type de publication, il n’en reste pas moins qu’on peut y trouver de l’information locale intéressante et parfois exclusive pour sa veille, notamment sous les angles de la politique et de l’économie locale, des acteurs locaux et de l’événementiel local.
Pourtant, réussir à les utiliser pour sa veille est loin d’être simple, car il n’existe à ce jour aucun agrégateur, outil centralisateur pour ce type de contenus et on se retrouve avec une multitude de magazines plus ou moins accessibles aux modalités et formats différents.
Dans cet article, nous verrons comment identifier ces médias, comment les mettre sous surveillance ou effectuer des recherches sur leurs contenus et comment leur trouver une place adéquate dans son système de veille.
Après les moteurs de recherche et les médias sociaux, l’IA générative redistribue de nouveau les cartes pour les médias d’information. Avec des impacts considérables sur la production, la diffusion et la monétisation du contenu. Comment les médias s’adaptent-ils et comment cela affecte-t-il l’activité de veille ? Petit tour des initiatives en cours.
Dans ses recherches, au cours de ses analyses ou de la réalisation de ses livrables, le professionnel de la veille est de plus en plus exposé, de façon plus ou moins subtile, à l’information en provenance des IA génératives.
Au départ, les réponses créées par les chatbots d’IA générative comme ChatGPT, Bard et quelques autres, lui ont offert un autre mode d’accès à l’information : un accès direct aux réponses, sans cliquer sur les sources. Et cet usage devrait perdurer si l’on en croit la prochaine version de Google, SGE, qui valorise les réponses générées par IA au détriment des résultats de recherche présentés sous forme de liens.
Mais le contenu généré par IA commence aussi à concurrencer les médias sous une autre forme : des sites entièrement créés par IA s’invitent en effet dans les résultats des moteurs de recherche. Leur contenu, écrit pour correspondre aux règles actuelles de SEO, serait même mieux référencé que celui des médias. Récemment, le service américain de notation de l’actualité NewsGuard a identifié près de 600 sites Web (ils étaient 49 en mai dernier) qui fonctionnent avec peu ou pas d’intervention humaine. Et un site généré par l’IA produit jusqu’à 1200 articles par jour, contre 100 pour Le Monde ou 250 pour le New York Times ! Certains sont même financés par la publicité.
Les médias ont donc raison de craindre une baisse de leur propre trafic, qui provient à plus de 90 % de Google. Pour la veille, cela signifie davantage de difficultés à trouver certains contenus en provenance de médias pertinents, soudainement noyés dans des pseudos sites d’actualités générés par l’IA, mais difficiles à identifier, car ils reprennent les codes graphiques des sites d’actualités. Ce qui nécessite donc davantage de rigueur encore en phase de sourcing.
Dans la plupart des entreprises, la veille brevet est souvent négligée. La veille brevet peut pourtant être une source d’informations précieuse pour l’intelligence concurrentielle. Elle permet de suivre l’évolution des technologies, d’identifier les concurrents, et d’exploiter toutes les opportunités de marché en développant une vraie stratégie. Entretien avec Philippe Borne, Délégué Régional de l’INPI pour la Région Grand Est (1), et également rédacteur occasionnel pour notre lettre BASES à titre d’expert.
François Libmann : La veille brevet a un potentiel qui nous semble sous-évalué dans le domaine de l’intelligence concurrentielle. Comment l’interprétez vous ?
Philippe Borne : Beaucoup d’entreprises ont une vision très juridique du brevet, considéré uniquement comme un outil de protection, et donc avec des stratégies brevet très traditionnelles. Et du fait de cette vision, on retrouve la même attitude en ce qui concerne la veille brevet. Cette vision très juridique du brevet en France a pour conséquence qu’il n’est pas tenu compte de son potentiel en tant que source d’informations pour l’intelligence concurrentielle. Cela ne vient, en effet, pas à l’esprit qu’on puisse faire de la veille technologique sur ce type d’information.
(1) Philippe Borne s’exprime ici à titre personnel et les opinions qu’il expose n’engagent que lui-même.