Avec la multiplication des médias sociaux et les changements récents au sein de X (ex-Twitter) qui conduisent à se poser sérieusement la question d’une alternative, les professionnels de la veille sont amenés à tester, maintenant plus que jamais, de nouveaux canaux pour surveiller (et diffuser) leurs informations.
L’une des plateformes où trouver de l’information de qualité, souvent de niche, est Discord. L’outil étant réservé au départ aux gamers et peu intuitif au premier abord dans une démarche de veille, beaucoup de professionnels n’ont sans doute pas encore osé franchir le pas. Pourtant, la qualité des communautés, du contenu et des relations entretenues sur cette plateforme, ainsi qu’une expérience plus saine pour notre santé mentale, garantie sans intrusion publicitaire ni surcharge algorithmique, valent la peine de fournir un effort supplémentaire. Mode d’emploi.
Si les communautés se sont diversifiées, l’outil est toutefois resté fidèle à celles de départ. Mais que l’on ne s’y trompe pas, on retrouvera ici, noyées dans les communautés de jeux, celles de ses outils de recherche et de veille, comme Flint Media, Kagi Search, Inoreader, Video Highlight, Midjourney, mais aussi des cercles VIP de marques de luxe comme Prada, des communautés de journalistes avec Écran Mobile, ou les principales communautés OSINT comme Bellingcat, OZINT ou OSINT-Fr.
Faire partie de la communauté d’un outil, c’est accéder en temps réel aux remontées de bugs et solutions. Par exemple, quand X (ex-Twitter) a cessé de donner l’accès à son API à des tiers, c’est là que les utilisateurs d’Inoreader chattaient avec Inoreader pour identifier des solutions possibles. On retrouve la même chose aujourd’hui avec Midjourney, par exemple, dont le serveur est public.
C’est ici que l’on peut suivre les tutoriels de Bellingcat ou l’actualité d’un outil de veille en temps réel, par exemple. Ou encore la curation des professionnels, tous secteurs confondus. Et il est finalement assez simple de s’y repérer quand on a les clefs. Les voici.
Déjà abonné ? Connectez-vous...
Les universités américaines publient de grandes quantités de journaux et disposent également d’« entrepôts de données » bien garnis, mais ces informations ne sont pas facilement accessibles et il est exclu de les rechercher sur chaque site d’université.
Ce ne sont pas, en général, des articles « validés par les pairs » tels que ceux dont on trouve les références dans beaucoup de banques de données classiques. Mais ils ne sont pas, pour autant, sans intérêt, car on peut difficilement croire que ces publications sont des « revues prédatrices ».
Nous avons dans ce cadre identifié une source originale et peu connue, qui offre l’accès à des données produites par 655 universités grâce au Digital Commons Network.
On y trouve plus de 4,5 millions de documents en libre accès : articles, thèses et différents types d’ouvrages.
Il faut savoir que cela ne représente qu’une petite partie des informations publiées par les universités américaines dans leur ensemble, car elles sont plus de 4 000.
● Tous les documents auxquels on a accès sont disponibles gratuitement en texte intégral, le plus souvent en PDF, mais, dans quelques cas, il n’y a pas d’abstract.
● Outre le contenu essentiellement d’origine américaine, on trouve aussi un petit nombre de documents provenant d’universités non américaines situées en Colombie (documents en langue espagnole), en Irlande, en Australie ou à Singapour.
● On remarquera que, pour une fois, le contenu n’est pas quasi uniquement scientifique puisque les sciences humaines et sociales sont très fortement représentées.
Une des originalités de ce site est la possibilité de définir avec beaucoup de précision son domaine de recherche.
En effet, on dispose, à la connexion à partir d’un PC - mais pas à partir d’un téléphone/smartphone - d’une grande roue dans laquelle figure, sur trois niveaux, l’essentiel des thématiques académiques (voir Figure 1).
Figure 1 : La page d’accueil du Digital Commons Network présente les recherches sous forme de grande roue.
Déjà abonné ? Connectez-vous...
La fiabilité des sources est un critère essentiel pour les professionnels de la veille. En effet, ils doivent s’assurer que les informations qu’ils collectent sont exactes et fiables afin de pouvoir les transmettre à leurs clients.
Pour cela, ils vérifient davantage la fiabilité des sources en amont en bâtissant un dispositif solide, plutôt que via un «fact-checking après coup» des sources des informations. Cette opération serait en effet bien trop chronophage, le temps devant être consacré à la validation et l’analyse du contenu de l’information lui-même.
C’est ainsi que pour les zones géographiques que l’on maîtrise, on a son échelle de valeur de qualité des sources. Sur des zones que l’on connaît mal, c’est plus difficile.
Aujourd’hui, devant l’impact des IA génératives sur la chaîne de l’information et par souci d’exhaustivité, le veilleur n’a d’autre choix que d’explorer les solutions alimentées à l’IA. Il s’expose ainsi à une masse de contenu non fiable, en provenance des générateurs de texte comme ChatGPT ou Bard, ainsi que des moteurs de recherche dopés à l’IA comme Bing Chat ou Perplexity.
Pour en évaluer le contenu, ces textes générés par IA, dits « synthétiques », doivent être a minima vérifiables. Pour cela, trois éléments sont à vérifier : la source, les faits et leur interprétation. Or, non seulement l’IA génère de fausses informations, mais elle ne permet pas actuellement de les vérifier. Ce faisant, elle va jusqu’à inverser le rapport au temps du veilleur entre la production d’une analyse (qui devient très rapide) et sa vérification (chronophage).
Tout d’abord, que deviennent les sources à l’heure de l’IA et comment sont-elles traitées par l’IA ?
Traditionnellement, les sources apparaissent sous forme de liens enrichis de snippets - avec des informations complémentaires - dans les moteurs de recherche. Et la recherche entre différentes sources permet de dresser sa propre analyse. Avec l’IA, c’est cette dernière qui fait la recherche à la place de l’utilisateur et lui fournit une réponse. Dans l’absolu, ce n’est donc pas un outil de recherche.
Pour répondre à une question posée, les IA génératives actuelles donnent une réponse sur un ton assertif, mais qui n’est pas vérifiable, là où un moteur de recherche traditionnel ne donne pas de réponse claire, mais plein de sources pour se faire son propre avis.
Lorsque l’on demande une information à ChatGPT, Bard ou aux moteurs de recherche IA, la réponse est instantanée et se suffit à elle-même. Qu’il s’agisse d’une analyse, d’un résumé ou d’une simple requête pratique, les sources s’invisibilisent : les liens sont absents, peu visibles ou même incohérents.
Du côté des générateurs de texte, ChatGPT ne cite pas ses sources (Cf. Figure 1.) et Bard se contente de proposer des recherches complémentaires sur Google, sous forme de boutons. Il y a au moins deux raisons à cette invisibilité :
● Les références sont interprétées comme gênantes pour la fluidité de la lecture ;
● Les IA génératives procèdent à une nouvelle forme de sélection de l’information, probabiliste et non déterministe. Le choix d’une information donnée est fonction d’un critère de probabilité et non comme c’est le cas traditionnellement, déterminés par des événements antérieurs. De plus, ces dernières sont programmées non pas pour dire la vérité (elles n’ont pas cette notion), mais pour être persuasives à notre regard.
Déjà abonné ? Connectez-vous...
Parmi les outils IA, ceux qui proposent la fonctionnalité de Text-to-Speech (ou Text to Voice) représentent un gain de productivité. On les utilise pour écouter ses sources, ou pour faire écouter son livrable en format audio.
Nous en avons sélectionné quatre, en accès gratuit ou freemium, parmi une vingtaine d’outils explorés.
Nous les avons choisis pour la qualité du son généré par IA, c’est-à-dire le plus proche possible de la voix humaine, et pour la richesse de ce qu’ils offrent déjà dans leur version gratuite.
ElevenLabs, le plus reconnu (freemium)
ElevenLabs (https://beta.elevenlabs.io/) est sans conteste celui qui produit la meilleure qualité de voix pour générer un livrable en contenu audio dans plusieurs langues.
C’est aussi le plus généreux dans sa version gratuite puisqu’il offre 10 000 signes/mois à lire (c’est la longueur moyenne d’un article de NETSOURCES), par extraits de 2500 signes maximum (espaces compris), que l’on peut télécharger au format MP3. Ce qui permet un usage régulier.
Surtout, dans la version gratuite, on peut :
● Choisir une voix de synthèse (Speech Synthesis) en version multilingue (huit langues) pour éviter l’accent américain d’un texte français, mais les chiffres sont parfois lus en anglais (même avec un texte français !) ;
● Composer une voix de synthèse dans le VoiceLab (on choisit le genre, le niveau d’accent, et même l’âge !) ;
● Accéder à la « bibliothèque », une nouvelle fonctionnalité avec des voix créées par les utilisateurs. La bibliothèque est intéressante car souvent ces outils sont alimentés par la même API, si bien qu’ils proposent le même catalogue de voix (on les reconnaît car elles ont le même nom sur différents outils !) .../...
Déjà abonné ? Connectez-vous...
Il existe de très nombreuses banques de données bibliographiques de littérature scientifique. Selon les cas, les possibilités de recherche sont plutôt rustiques ou, au contraire, plus ou moins sophistiquées (indexation, opérateurs de proximité, troncatures, conversion des orthographes américaine et anglaises, reconnaissance des abréviations, recherche sur des valeurs numériques, liens citants/cités, recherche par structures chimiques, recherche dans plusieurs banques de données à la fois…).
Europe PMC (https://europepmc.org/) va plus loin même si elle n’offre pas toutes ces possibilités et nous n’hésitons pas à la qualifier de banque de données augmentée car elle permet, d’une part, de focaliser la recherche sur certaines parties d’un article, par exemple les éléments de méthodologie ou les figures. Elle permet aussi, ce qui est original, d’établir, à partir du contenu d’une référence des liens avec plusieurs banques de données externes plutôt factuelles/numériques, spécialisées dans le domaine des sciences de la vie telles que ChEMBL-small molecules ou MGnify-Metagenomics.
Commençons par le contenu, totalement en open access qui est très diversifié tout en restant centré sur les sciences de la vie.
Europe PMC présente, d’une part, ses contenus d’une façon globale, chiffres régulièrement mis à jour :
● 42,7 millions de références dont 35,9 millions venant de PubMed/Medline comme le nom de cette banque de données le laisse entendre. A noter que 70% d'entre elles ont un abstract ;
● 9 millions d’articles en texte intégral ;
● 0,92 millions de références de documents issues de la banque de données Agricola (qui en offre 8,3 millions). Les références les plus récentes apparaissent comme étant publiées en … 2 122. Vérification faite sur le site web, il s’agit bien de 2 023. La plus ancienne date de 1 885 ;
● 4,2 millions de brevets provenant de la banque de données Espacenet de l’OEB (qui en propose 140 millions en tout) ;
● 2 262 NHS guidelines qui sont des « evidence reviews ». Elles sont produites par le plus important organisme de santé au Royaume-Uni. On y accède spécifiquement de la façon suivante, qui est loin d’être intuitive (Cf. Figure 1.) : dans la boite de la recherche simple il faut entrer PUBLISHER:"nice" OR PUBLISHER:"national institute for health and clinical excellence" OR PUBLISHER:"national institute for health and care excellence"
● 628 045 preprints qui proviennent de 31 serveurs de preprints parmi lesquels arXiv, agriRixv, Beilstein archives, bioRxiv, preprints.org, F100 research.
Figure 1. Interface de Europe PMC
La deuxième façon de présenter le contenu est aussi plus opérationnelle puisqu’elle permet de sélectionner une ou plusieurs source(s) parmi celles présentées dans une liste.
Déjà abonné ? Connectez-vous...
Sur Dialog, nous effectuons en général, pour commencer, une recherche sur l’ensemble des banques de données disponibles et, dans un deuxième temps, sélectionnons, au vu des résultats, les banques de données dans lesquelles nous allons poursuivre la recherche.
Voilà un moment que, sur Dialog, nous avions remarqué qu’il arrivait souvent qu’une référence d’Embase (coût 13,24 $) apparaisse alors que la référence au même document dans Medline (coût 3,29 $) était également disponible sur le serveur.
Bien sûr, ces deux bases de données ne sont pas identiques, mais les références communes sont nombreuses et si les abstracts semblent identiques pour ces références communes, les indexations sophistiquées sont propres à chaque base.
Nous avons enfin fini, grâce au service assistance, par comprendre le mécanisme et pouvoir choisir d’obtenir la référence issue de Medline plutôt que celle issue d’Embase.
Dans nos paramètres de recherche (à droite de l’écran), l’option « supprimer les doublons » est activée en permanence, ce qui semble logique, le système choisit alors la référence qui est entrée la première dans Dialog, alors que nous pensions que le choix se faisait en respectant « l’ordre des bases de données préférées » qui figure également à la droite de l’écran. Nous avions préalablement défini cet ordre en mettant en première position « Publicly available content » qui est gratuite et, juste après Medline, Embase arrivant plus loin.
Déjà abonné ? Connectez-vous...
Cela fait plusieurs années que Questel n’avait pas organisé physiquement une réunion d’utilisateurs comme c’était le cas auparavant, ce qui a fait que celle organisée récemment a été fort bien accueillie.
Pendant ce temps, la vie ne s’est pas pour autant arrêtée pour Questel, qui a continué ses acquisitions de sociétés dans le domaine de la propriété intellectuelle, 18 en cinq ans, portant le groupe à un effectif de 1 700 salariés.
Ces acquisitions ont conduit Questel à ne plus être juste un fournisseur de logiciel mais une plateforme de gestion de la propriété intellectuelle au service de tous types de professionnels de la propriété intellectuelle. Questel définit maintenant sa mission de la façon suivante : « répondre à tous les besoins au long du cycle de vie des titres de propriété intellectuelle ». Cela se traduit par une proposition d’externalisation de la plupart des actes administratifs dans la gestion d’un portefeuille de brevets, en liaison avec le conseil en propriété intellectuelle ou l’expert interne.
Ces actes administratifs concernent en particulier la gestion des paiements des annuités, les entrées en phase nationale des PCT, les traductions, etc.
Questel propose pour cela aux grandes entreprises la plateforme EQUINOX qui est un système d’IPMS (Intellectual Property Management System) développé par la société anglaise du même nom dans laquelle Questel a pris une participation majoritaire en 2022.
L’autre point que l’on retiendra de cette journée est le développement de l’utilisation de l’intelligence artificielle dans l’offre Questel. Nous avons échangé à ce sujet à l’issue de la réunion avec Benoit Chevalier qui est Customer Success & Marketing Director.
Déjà abonné ? Connectez-vous...
Ne dites plus « lecteurs de flux RSS » mais « lecteurs d’information » ou « App d’actualité ». Nouvelles applis, nouvelles fonctionnalités, nouveaux looks, nouvelles promesses… Au cours de leur veille outils, les professionnels de l’info ont vu apparaître dernièrement de nouveaux acteurs, avec un discours marketing prometteur. Les lecteurs se moderniseraient-ils au point de gagner en notoriété ? Faut-il se préparer à remplacer Feedly ou Inoreader ? C’est à ces questions que nous nous proposons de répondre.
Apparues dans le sillage du déploiement de l’IA à grande échelle, ces plateformes sont de deux natures différentes. Il y a celles qui se présentent comme des « apps d’actualité », conçues pour être consultées principalement ou uniquement sur mobile, et celles qui se présentent davantage comme des lecteurs RSS consultables sur le web, même si leur fonctionnement est parfois différent.
Si leur défi d’apparaître (enfin!) comme une solution face à la « fatigue informationnelle » qui touche le grand public réussit, cela pourrait normaliser l’usage des lecteurs et créer le réflexe du grand public de centraliser son actualité pour mieux s’approprier l’information. Un rêve éveillé pour les veilleurs souvent seuls à s’émerveiller devant le potentiel d’un lecteur de flux RSS.
Et si les lecteurs RSS reviennent sur le devant de la scène auprès du grand public, cela entraînerait aussi des conséquences positives pour les professionnels car cela pourrait engendrer de nouveaux développements : des sites qui remettent du RSS, de nouveaux outils et nouvelles fonctionnalités, etc. En attendant, qu’ont-elles vraiment à offrir aux veilleurs, grands consommateurs d’information ?
Lire aussi :
Maîtriser le RSS, le socle inamovible de la veille (09/2022)
Comment choisir la méthode la plus adaptée pour mettre une source en veille à partir d'un flux RSS ? (09/2022)
Comment récupérer un flux RSS sur les moteurs web et Google Actualités ? (09/2022)
Comment récupérer des flux RSS sur les réseaux sociaux ? (09/2022)
Comment transformer une newsletter en flux RSS ? (09/2022)
Comment récupérer un flux RSS sur la majorité des sites web ? (09/2022)
Sur quoi se basent ces outils pour réenchanter l’information ? Mode de consultation épuré inspiré de celui des réseaux sociaux, ouverture des formats d’intégration des RSS aux APIs, fonctionnalités IA qui facilitent la consultation des corpus… voici les pistes que nous avons relevées après avoir testé une dizaine d’outils, notamment Artifact, Informed, Feeeed, Apricot, Gistreader, Readwise Reader, etc.
L’ambition la plus forte est celle d'Artifact. Il s'agit de « créer un réseau social de l’information ». Avec cette promesse de créer un espace dédié à l’information, où le public passerait autant de temps et serait aussi engagé que sur les réseaux sociaux, l'appli - disponible uniquement en téléchargement sur mobile - a fait l’objet de relais uniques à l’échelle internationale, tant dans la presse techno que dans la presse généraliste.
Figure 1. Configuration graduelle sur Artifact pour alimenter son algorithme, sous forme de Bonus à gagner.
La raison d’un tel engouement ? Ses fondateurs ne sont autres que ceux d’Instagram : Kevin Systrom and Mike Krieger. De quoi rendre Artifact, et tous ses lecteurs avec, un espace déjà plus trendy qu’Inoreader ou Feedly… avant même de l’avoir testé.
Déjà abonné ? Connectez-vous...
Pour ce nouvel article de « Focus IA », nous avons décidé de nous intéresser spécifiquement aux outils qui permettent de résumer et d’interroger des vidéos YouTube.
Nous avons identifié une vingtaine d’outils répondant à nos critères et nous les avons tous testés sur quatre vidéos : une vidéo d’actualité en français émanant d’un grand média français et une autre en anglais émanant d’un média américain, un webinaire d’une heure proposé par un éditeur de veille en français et enfin une vidéo tech en anglais recommandant plusieurs extensions ChatGPT.
Parmi la vingtaine d’outils, nombreux sont très décevants mais quatre sortent du lot et produisent des résultats intéressants pour les professionnels de l’information. Voici notre sélection !
Lire aussi :
Les meilleurs outils IA pour résumer et interroger les contenus de la veille
Notre sélection d’annuaires d'outils IA
Attention : Même si ces outils « hallucinent » beaucoup moins que ChatGPT, ils ne sont pas exempts d’erreurs et approximations. Il est nécessaire de toujours revérifier les informations de ces outils si on souhaite les réutiliser par la suite.
Déjà abonné ? Connectez-vous...
Sur le Web, les commentaires publiés sous des articles, billet de blogs et sous les posts des réseaux sociaux peuvent parfois receler de véritables pépites mais ce sont des contenus difficiles à intégrer dans ses veilles et recherche d’information. En effet, on peut ponctuellement avoir besoin de plonger dans les commentaires sur les réseaux sociaux, par exemple pour une étude d’image, pour obtenir des informations complémentaires à l’article lui-même, pour y trouver des réponses, pour les analyser en vue d’une étude ou les sauvegarder en vue d’un usage futur.
Mais comment extraire les commentaires associés à un tweet sur Twitter, ou à un post sur Facebook, Instagram, LinkedIn, YouTube et les autres surtout quand ils sont nombreux et qu’on on ne dispose pas de budget ni d’un besoin suffisant pour acquérir une grosse plateforme payante ? Nous avons choisi ici l’angle des outils gratuits ou peu onéreux car l’extraction de commentaires ne représente souvent qu’un besoin ponctuel pour les professionnels de l’information et ne justifie donc pas l’acquisition d’une plateforme très onéreuse.
C’est ce que nous avons exploré dans cet article en testant différentes méthodes et outils et en vous proposant la meilleure issue de nos tests.
Lire aussi :
Comment surveiller Twitter après la fermeture en cascade des outils dédiés ? (04/2023)
Réussir à utiliser LinkedIn pour la veille et la recherche d’information (06/2022)
Veille Instagram : quoi, comment, pour quoi faire ? (06/2022)
Comment intégrer YouTube dans votre dispositif de veille (04/2022)
Facebook : toutes les clefs pour ouvrir ce coffre bien fermé à la veille ou la recherche
Nous avons choisi de tester les méthodes et outils à partir des réseaux sociaux suivants :
● YouTube
À chaque fois, nous avons testé les outils sur des publications qui avaient une centaine de commentaires.
La méthode la plus simple et ne nécessitant pas l’utilisation d’outil externe consiste tout simplement à se positionner sur le post qui nous intéresse puis de copier-coller dans un fichier texte (Word) ou tableur (Excel par exemple) l’ensemble des commentaires.
Notre avis
Point positif, c’est la seule méthode qui ne nécessite pas l’usage d’outils externes. Cela peut fonctionner, mais c’est très chronophage quand il y a beaucoup de commentaires et il y a un très gros travail de reformatage pour réussir à obtenir des données véritablement exploitables. On ne recommandera pas cette méthode.
Passons maintenant aux outils dont le rôle principal est justement d’exporter les commentaires depuis les réseaux sociaux.
Certains sont multi-réseaux sociaux (sauf pour LinkedIn) comme Export Comments (https://exportcomments.com/) ou Comment Picker (https://commentpicker.com/).
On trouve également des outils spécialisés sur l’exportation de commentaires depuis un réseau social spécifique :
● Pour Facebook : FB Comments Extractor
● Pour LinkedIn : LinkedIn comment Exporter mais limité à dix commentaires par fichier dans la version gratuite. Il faut ensuite payer entre 5 à 10$/mois
● Pour Instagram : Exportgram, IG Comment export, Instaloadgram ou encore Youtogift.
● Pour YouTube, YouTube Comments Downloader ou encore YouTube comments Scraper
On notera que la fin de la gratuité de l’API Twitter a mis un coup d’arrêt à la plupart des outils d’export pour ce réseau et il n’en reste aujourd’hui que très peu, souvent payants.
Déjà abonné ? Connectez-vous...