La datavisualisation a un rôle à jouer à toutes les étapes de la veille comme nous avons pu le voir dans le précédent numéro de NETSOURCES. Cela commence dès les premières étapes de la veille avec la définition précise d’un sujet ainsi que le choix des mots-clés et du champ lexical à utiliser pour créer de futures alertes.
Dans cet article résolument pratique, nous avons voulu montrer comment la représentation de données pouvait apporter une aide précieuse dès cette première étape de formalisation du besoin et surtout comment s’y prendre concrètement, avec quelles méthodes et quels outils.
Pour nous aider à déterminer les angles de la veille, les thèmes à surveiller et les termes à mettre sous surveillance, nous avons choisi d’analyser un gros volume d’articles de presse sur le sujet, car même si ChatGPT est apparu récemment dans les médias, le volume d’articles consacré à cette IA est considérable et donc peu assimilable humainement.
Nous partirons donc d’un corpus d’articles de presse conséquent que nous analyserons grâce à plusieurs outils de datavisualisation spécialisés dans l’analyse textuelle et letext mining. Ces outils devraient nous permettre de voir rapidement quels sont les thèmes et les termes clés à prendre en compte. Nous analyserons ensuite la valeur ajoutée de cette démarche par rapport à une démarche classique manuelle, mais aussi ses limites.
Il faut d’abord s’entendre sur ce que signifie « récupérer un corpus de presse ». Il peut s’agir de récupérer un corpus d’articles en texte intégral ou bien un corpus de références d’articles avec les titres d’articles et les premières lignes.
Récupérer des articles en texte intégral permet une analyse plus poussée, mais c’est aussi la méthode la plus complexe et onéreuse.
D’autant plus que si on constitue son corpus sur le Web, il est de plus en plus rare de trouver des articles de presse gratuits et si on utilise des agrégateurs de presse payants, il est fréquent d’avoir une limite dans le nombre d’articles que l’on peut consommer chaque mois. Pour des raisons budgétaires, il est donc peu envisageable d’extraire un corpus constitué de milliers d’articles de presse en texte intégral, corpus qui, dans ce cas précis, ne sert que pour la mise en place de la veille.
Déjà abonné ? Connectez-vous...