En septembre dernier, nous évoquions la question de la veille sur les réseaux sociaux, qui depuis le déclin de X (Twitter) devient de plus en plus fragmentée (cf. La veille sur les réseaux sociaux s’annonce de plus en plus fragmentée, BASES n°417, Septembre 2023). Si cette question subsiste et continue à rendre la veille sur les réseaux sociaux toujours plus complexe et chronophage, ce n’est pas la seule difficulté à laquelle est aujourd’hui confronté le veilleur.
L’autre dimension à prendre en compte, c’est l’essor du dark social depuis quelques années et du shadow social, nouvelle tendance théorisée par Marie Dollé en ce début d’année.
C’est un fait aujourd’hui bien documenté, les internautes partagent de moins en moins de contenus de manière publique sur les réseaux sociaux et ont plutôt tendance à se reporter sur des espaces plus restreints composés de leurs proches, cercles d’amis ou communautés qui se rassemblent autour d’intérêts communs.
Sur les réseaux sociaux, il existe donc des espaces privés et fermés que l’on appelle le dark social et des espaces à mi-chemin entre le public et le privé que Marie Dollé appele le shadow social et qui ne cessent de prendre de l’ampleur.
Lire aussi :
La veille sur les réseaux sociaux s’annonce de plus en plus fragmentée (09/2023)
Comment utiliser Discord pour ses veilles et ses recherches ? (09/2023)
Veille Instagram : quoi, comment, pour quoi faire ? (06/2022)
Réussir à utiliser LinkedIn pour la veille et la recherche d’information (06/2022)
Qu’on se rassure, le dark social n’a rien à voir avec le dark web et d’éventuels contenus et pratiques illicites. La comparaison est plutôt à chercher du côté du Web visible et invisible et sa fameuse image d’iceberg, car le dark social représente la partie immergée et donc invisible des réseaux sociaux.
Le dark social, ce sont donc ces espaces privés sur les réseaux sociaux où les internautes communiquent, partagent des contenus, mais qui ne sont pas référencés par les moteurs de recherche Web ou internes aux réseaux sociaux et sont donc invisibles aux non-membres.
Il faut revenir aux années 90 pour voir émerger le mouvement de la science ouverte, principalement sous la forme de l’« open access », porté par la volonté de donner un accès libre et gratuit aux publications scientifiques.
Cela va se matérialiser au départ sous la forme d’archives ouvertes. L’archive ouverte ArXiv avec ses preprints, une des pionnières en la matière, a été créée en 1991.
La deuxième phase de développement se situe ensuite dans les années 2000 avec l’essor de l’Internet grand public. L’archive ouverte française HAL est ainsi lancée en 2001.
Beaucoup plus récemment, le développement des plug-ins d’accès à la littérature scientifique a permis de repérer beaucoup plus simplement un article disponible en libre accès quelque part sur le Web, éventuellement sous forme de preprint ce qui n’était pas toujours évident.
Par ailleurs, quand on parle d’open access, il faut bien distinguer :
● D’une part l’accès gratuit au document primaire (l’original);
● D’autre part l’accès à une plateforme ou à un moteur permettant de rechercher puis de visualiser gratuitement uniquement des références d’articles et de proceedings et aussi parfois de chapitres de livres.
Pour rendre un livrable et une formation efficaces en vérifiant le niveau de compréhension de son public ou tout simplement pour rajouter une touche de divertissement, le quiz est un outil pédagogique qui peut s’avérer un précieux allié. Et aujourd’hui avec les modèles d’IA générative, un quiz peut être créé en une minute, ou presque. Florilège de nos 4 outils préférés.
Lire aussi :
Livrables : trois outils IA pour maximiser vos présentations (11/2023)
4 générateurs de videos freemiums au banc d’essai (10/2023)
Le text to mindmap depoussiere les cartes mentales (09/2023)
Opexams est une plateforme pédagogique qui propose la génération de quiz parmi d’autres fonctionnalités.
Son « Quiz Generator » est accessible sans inscription. Le quiz est généré à partir d’un texte à fournir (jusqu’à 3000 signes environ) et, comme toujours avec ces outils IA, le procédé est simplifié au maximum : on copie son texte, puis on sélectionne les options suivantes : le type de quiz (choix multiples, vrai/faux ou questions ouvertes), la langue, le nombre d’options par question (cinq maximum), puis on clique sur « Générer un quiz ».
L’option « par sujet » permet d’entrer uniquement un thème de son choix, qu’il soit dans le domaine scolaire ou professionnel. Aux options précédentes, s’ajoute le niveau de difficulté souhaité (facile/moyen/difficile).
Notre habitude est de construire des stratégies complexes, mêlant synonymes, mots écrits de différentes façons (crosslink ou « cross link » par exemple), avec des opérateurs booléens, de proximité, des possibilités d’exclure des thématiques et, enfin, de multiples possibilités de combiner des étapes. Autant le dire tout de suite, ces stratégies ne sont pas transposables en l’état dans ces nouveaux outils.
Pour réaliser nos tests, nous avons donc dû utiliser des stratégies relativement simples qui puissent fonctionner sur tous les outils. Nous nous sommes limités aux références d’articles ou de conférences, incluant les preprints qui sont de plus en plus pris en compte. En revanche nous n’avons pas, dans la mesure du possible, pris en compte les chapitres d’ouvrages et les thèses. Les recherches se font dans le titre, ce qui n’est pas toujours simple, certains systèmes n’offrant pas cette option, obligeant à faire des comptages manuels. Nous avons envisagé de tester une recherche par affiliation mais cette fonctionnalité n'est pas disponible dans tous les moteurs.
Cette comparaison entre les serveurs et les outils gratuits ne pouvant se faire que sur des stratégies simples, on laisse de côté la puissance de recherche et le confort d’utilisation pour ne comparer que le nombre de réponses. Par ailleurs, il est évident que ces tests n’ont aucune valeur statistique et que l’on ne peut rien généraliser à partir de leurs résultats.
En France, pays champion européen de l’open data, on parle souvent des startups qui parviennent à exploiter des données accessibles en accès gratuit, pour en faire des services, avec parfois une option payante, à l’instar de Pappers ou Doctrine.
Depuis la démocratisation de l’IA amorcée il y a plus d’un an avec la mise à disposition au public de ChatGPT, suivie depuis par d’autres IA génératives et services afférents, comment le traitement des données ouvertes a-t-il évolué et surtout, est-il davantage accessible à un utilisateur sans formation technique particulière en amont ? Exploration, étape par étape, du traitement des données, de l’extraction à la publication.
Première étape : la collecte des données. Celle-ci peut se faire de deux façons : en téléchargeant un dataset ou en procédant à l’extraction des données sur un document. C’est dans ce second cas que les outils IA interviennent. S’offrent alors deux possibilités d’extraction de données :
● Avec un outil IA où l’on importe un fichier de données.
● Avec un tableur habituel, auquel on ajoute un module IA.
Les outils IA qui permettent d’importer gratuitement des documents à traiter ne prennent pas en charge les formats de bases de données, mais uniquement les formats textes et PDF. Dans ce cas, extraire les données d’un document pour les récupérer sous forme texte ou de tableau est un jeu d’enfant.
Après la période de vide laissé par le départ en retraite de Martine Michel, CAS (Chemical Abstracts Services qui gère STN en collaboration avec FIZ Karlsruhe) vient de recréer son équipe en charge de la France.
Cette nouvelle équipe a organisé une réunion en présentiel, ce qui n’était pas arrivé depuis fort longtemps.
Cette réunion était centrée sur la chimie et les brevets. Les autres banques de données présentes sur STN seront, quant à elles, évoquées lors d’une prochaine rencontre.
L’année 2023 a été marquée par la démocratisation des IA génératives. Cette technologie de pointe, qui a émergé sur le marché en 2020, était alors réservée à quelques experts qui payaient une API. Amorcée par la mise sur le marché de l’interface gratuite ChatGPT d’OpenAI, dont la plupart des produits sont devenus payants dans les mois qui ont suivi, cette démocratisation pourrait néanmoins perdurer grâce au développement de modèles de langage sous licence ouverte (ou « open source »).
Cette licence permet en effet d’exploiter un modèle de langage pré-entraîné à moindres frais (moins de 500 dollars dans la plupart des cas et avec des ressources de calcul modestes), ouvrant ainsi l’accès à un large éventail de chercheurs, de développeurs et d’organisations.
Il existe néanmoins quelques freins pour que le veilleur puisse en profiter.
● L’étude du fonctionnement du système et l’inspection de ses composants ;
● L’utilisation de son système à n’importe quelle fin, sans avoir à demander la permission ;
● La modification du système pour changer ses recommandations, prédictions ou décisions afin de l’adapter à ses besoins ;
● Le partage du système avec ou sans modifications, à quelque fin que ce soit.
Cela fait des années que l’on entend parler de Cross-Language Information Retrieval (CLIR) pour la recherche d’information. Il s’agit de la capacité à rechercher dans une langue et à recueillir des résultats dans d’autres langues. Jusqu’à maintenant, les produits ou fonctionnalités de ce type étaient rares et n’ont jamais véritablement décollé, à l’instar de la fonctionnalité proposée par Google de 2007 à 2013.
Et pourtant, il y a là un vrai besoin notamment pour les professionnels de l’information : dans un monde globalisé, il est en effet souvent nécessaire d’élargir à des sources en anglais (ce qui est souvent gérable), mais aussi à des sources dans des langues dont on ne maîtrise pas toujours les rudiments.
Si on peut malgré tout à mettre en place un système qui fonctionne en s’aidant de dictionnaires et d’outils de traduction, le processus reste long et fastidieux (voir NETSOURCES n°163, Avril 2023 consacré à la veille multilingue).
Lire aussi :
Sourcing, de la théorie à l’épreuve de la pratique
Les nouvelles dimensions du multilinguisme pour la veille
Veille multilingue : comment trouver ses mots ?
Veille internationale : comment trouver des sources en langue étrangère ?
Comprendre les résultats de sa veille multilingue en un clin d’œil
Perplexity est le seul outil IA positionné comme un moteur de recherche. Il fonctionne avec GPT et son modèle propriétaire (Pplx). Il vient de s’améliorer en permettant de sélectionner son corpus. Cette fonctionnalité, discrète, se cache derrière le bouton « Focus ».
Il propose de filtrer ses recherches par corpus : Academic (en provenance de Semantic Scholar), Wolfram/Alpha (pour l’informatique), YouTube et Reddit, mais aussi par format (image ou vidéo).
C’est un bon moyen pour réduire la marge d’erreur (et donc le niveau d’hallucination) de l’outil et d’améliorer la précision des résultats. Last but not least, cela permet aussi de savoir d’où viennent les sources.
Par exemple, si l’on cherche Hemingway
, puis que l’on choisit « Youtube », six vidéos sont proposées, suivies par une courte biographie (générée) et de trois questions suggérées. À droite, trois autres vidéos sont proposées, ainsi qu’une « Recherche Image » et une « Génération d’image » (accès payant). Pour une recherche filtrée avec des résultats en provenance du forum « Reddit », il nous est aussi proposé une « recherche video ».
Si 2023 a été l’année de ChatGPT et de la déferlante de nouveaux outils dopés à l’IA générative, 2024 sera celle de l’intégration de l’IA générative dans les outils traditionnels du pro de l’info. Explorez avec nous les diverses innovations des acteurs traditionnels en matière d’IA et interrogeons-nous sur la pertinence de délaisser les outils IA de la cuvée 2023 au profit des outils classiques.
En 2023, l’arrivée de ChatGPT et de l’IA générative a conduit les professionnels de l’information à adapter leur arsenal d’outils pour marier habilement les outils traditionnels (qu’ils soient grand public, tels que les moteurs de recherche Web, ou spécialisés, tels que les outils de veille et bases de données) avec les nouveaux outils boostés par l’IA générative (résumés automatiques, assistants IA, dialogues avec des PDFs ou vidéos, etc.).
Aujourd’hui, c’est cette même panoplie traditionnelle qui intègre progressivement des fonctionnalités d’IA générative, avec des annonces nombreuses et difficiles à suivre.
Lire aussi :
La vague d’outils IA pour l’Information Scientifique et Technique (IST)