Les données en open data sont une mine d’or pour la recherche et la veille professionnelle. Seul problème, la très grande majorité des moteurs et plateformes d’open data ne permettent que de rechercher sur les métadonnées, ce qui ne permet pas d’exploiter tout leur potentiel.
Fort heureusement, de plus en plus d’acteurs créent des outils de recherche (moteur, base de données interrogeable, carte interactive) à partir des données disponibles sur les plateformes d’open data. Et ces outils peuvent être d’une aide précieuse.
Lire aussi :
Comment trouver des outils de recherche d’information thématiques ?
Veille et recherche : le retour de la sélectivité face à la quantité
Ces nouveaux outils qui surfent sur la sélectivité des sources
Comment construire ses propres outils de recherche d'information thématiques ?
Déjà abonné ? Connectez-vous...
Il y a un besoin croissant d’outils de recherche thématiques pour la recherche d’information professionnelle. Et fort heureusement, de nombreux outils thématiques se développent depuis quelques années. Dans un article paru en 2017 dans BASES « L’avenir de la recherche sera-t-il thématique ? » - BASES n°351, septembre 2017, nous avions évoqué cette tendance.
Deux ans et demi après, elle se confirme et de nouveaux outils de recherche thématiques continuent de voir le jour. Pour autant, identifier ces outils n’est pas toujours évident, car ils n’ont pas la même visibilité ni la même force de frappe que les grands outils de recherche sur le marché.
Lire aussi :
L’avenir de la recherche sera-t-il thématique ?
Open data : les outils de recherche issus des données de data.gouv.fr
Veille et recherche : le retour de la sélectivité face à la quantité
Ces nouveaux outils qui surfent sur la sélectivité des sources
Comment construire ses propres outils de recherche d'information thématiques ?
Nous nous intéresserons aussi plus spécifiquement à 3 aspects qui prennent de plus en plus d’ampleur :
Les outils de recherche thématiques et spécialisés se divisent en deux catégories :
- ceux qui se focalisent sur un type de documents et contenus (PDF, présentations, rapports, études de marché, statistiques, appels d’offres, images, vidéos, etc.)
- ceux qui se focalisent sur un secteur d’activité ou une thématique précise (secteur pharma, recherche sur les entreprises, agroalimentaire, juridique, etc.)
Dans cet article, nous nous intéresserons surtout à la deuxième catégorie.
Pour illustrer cette méthodologie, nous prendrons l’exemple suivant : « l’identification de projets de construction dans plusieurs pays ».
Déjà abonné ? Connectez-vous...
Alors que la majorité des grandes plateformes de veille sur le marché intègrent toujours plus leurs contenus et des types de sources de plus en plus diversifiées (sites, Web, médias sociaux, littérature scientifique, presse payante, vidéos, etc.), d’autres acteurs choisissent le chemin inverse à l’image de DeepNews et ses newsletters de veille thématiques.
Deepnews est à la base un projet lancé en 2016, mais ce n’est qu’au début de l’année 2020 que l’entreprise a lancé ses premiers produits publics : des newsletters en anglais en grande partie automatisées sur un sujet donné.
Chaque newsletter regroupe une sélection d’articles de presse, à valeur ajoutée, de qualité et jugés les plus pertinents sur un sujet donné. L’utilisateur dispose du titre des articles, du nom de la source, du lien vers l’article, d’une indication sur le caractère gratuit ou payant de l’article, d’un extrait pertinent en quelques lignes et, pour certains articles, d’un commentaire de l’éditeur avec des éléments de contexte sur la source ou sur le contenu.
Lire aussi :
La curation pour les managers : le sens de l’information vu par Curation Corp
Ces start-ups qui investissent le champ de l’évaluation des sources et contenus
Open data : les outils de recherche issus des données de data.gouv.fr
Veille et recherche : le retour de la sélectivité face à la quantité
Comment construire ses propres outils de recherche d'information thématiques ?
En outre, à l’instar de tous les nouveaux outils que l’on voit apparaître en ce moment, l’outil met l’accent sur l’IA. Son slogan est d’ailleurs : « utiliser le machine learning pour mettre en avant le journalisme de qualité sur Internet ».
En termes de produits, Deepnews propose :
Déjà abonné ? Connectez-vous...
Dans un contexte de surinformation, les outils de recherche généralistes ne sont pas en mesure de répondre seuls à des besoins d’information complexes qui nécessitent d’avoir une vision d’ensemble d’un sujet.
Google effectue une sélection de 100 à 200 résultats qu’il juge les plus pertinents. Les agrégateurs de presse ne disposent pas de toutes les sources pertinentes sur une thématique ou un secteur d’activité. Les plateformes de veille ont une antériorité limitée et ne sont pas conçues pour être des outils de recherche, même si cela évolue un peu depuis quelques années.
Quand on travaille sur des sujets, thématiques ou secteurs d’activité récurrents, on a donc intérêt à se créer ses propres outils de recherche thématiques que l’on peut aller interroger dès qu’une question ponctuelle ou une étude se présente.
Lire aussi :
ILI 2019 : une vision anglo-saxonne de l’avenir des professionnels de l’information
La curation pour les managers : le sens de l’information vu par Curation Corp
Ces start-ups qui investissent le champ de l’évaluation des sources et contenus
Open data : les outils de recherche issus des données de data.gouv.fr
Veille et recherche : le retour de la sélectivité face à la quantité
Ces nouveaux outils qui surfent sur la sélectivité des sources
La première étape indispensable est celle du sourcing. De même que l’étape du sourcing est indispensable dans un processus de veille, elle l’est tout autant pour la construction d’un outil de recherche.
Puisque nous cherchons à mettre en place des outils de recherche thématiques, on privilégiera des sources spécialisées BTP ou des parties de sites dédiées à cette thématique.
À titre d’exemple, on n’ajoutera pas l’intégralité du site des Echos mais uniquement les articles publiés dans la rubrique « Immobilier / BTP ».
Nous ne détaillerons pas dans cet article comment faire un sourcing précis et détaillé, mais il faudra bien prendre en compte les sources suivantes :
Déjà abonné ? Connectez-vous...
TENDANCES • La révolution multimédia bouscule la veille
PANORAMA
• Outils de recherche de vidéos : des métadonnées au speech to text
• Outils de recherche sur les contenus audios : un segment encore pauvre
• Outils de recherche d’images : des métadonnées à la reconnaissance de texte, d’objets et de visages
METHODOLOGIE • Mettre en place une veille sur les contenus multimédias
OUTILS DE VEILLE • Comment valoriser les contenus multimédias dans un livrable de veille ?
INDEX • Index NETSOURCES 2019
Déjà abonné ? Connectez-vous...
La veille ou la recherche de contenus connaît certainement aujourd’hui un réel bouleversement qu’il est encore difficile de bien mesurer : la présence de plus en plus forte de vidéos, podcasts, infographies comme médias d’information à part entière.
Coexistant à côté des sources d’information traditionnelles, ou encore, cas plus complexe, intégrés dans ces mêmes médias traditionnels, de plus en plus de journaux, surtout dans la sphère économique, sociale et politique, en créent et diffusent (incluent) dans leur version numérique.
Les veilleurs et plus généralement tous les professionnels de l’information, traditionnellement orientés vers la recherche et l’analyse de contenus textuels, vont devoir rapidement se préoccuper de l’intégration de ces nouveaux réservoirs d’informations pour au moins deux raisons.
- D’une part, les données présentes dans ces vidéos, podcasts ou encore infographies risquent de ne pas se retrouver sur les supports textuels.
- D’autre part, ces nouveaux formats sont plus que de simples supports, ils constituent, du fait de leur professionnalisation, de plus en plus des moyens d’information à part entière, avec leurs propre dynamiques, recherches et analyses.
Lire aussi :
Outils de recherche de vidéos : des métadonnées au speech to text
Outils de recherche sur les contenus audios : un segment encore pauvre
Outils de recherche d’images : vers la reconnaissance de texte, objet et visage
Mettre en place une veille sur les contenus multimédias
Comment valoriser les contenus multimédias dans un livrable de veille ?
En pratique, cela reste souvent plus facile à dire qu’à faire.Faire de la veille ou des recherches sur des contenus multimédias reste aujourd’hui bien plus compliqué et « frustrant » que sur des contenus textuels classiques. On ne recherche bien souvent que sur des métadonnées, ces contenus peuvent être très mal mis en valeur, décrits et indexés par leurs auteurs et on peut difficilement passer en revue un contenu audio ou vidéo comme on le ferait pour un texte en lecture rapide.
Certaines initiatives prometteuses de recherche d’information multimédia grand public et gratuites, développées il y a quelques années, sont en voie de disparition.
Par exemple le moteur de speech to text Voxalead vient de fermer ses portes après des années d’abandon et Telescoop, l’excellent moteur du contenu télé, dont nous avions parlé il y a quelques années existe toujours, mais ne permet plus de faire grand chose.
Pourtant, les technologies existent et ne cessent de s’améliorer grâce aux progrès de l’intelligence artificielle : il est ainsi possible de transcrire en texte les contenus audio des vidéos et podcasts grâce aux technologies de speech to text. Il est possible de repérer des logos ou encore d’identifier des visages dans des images et vidéos, . Malheureusement, bon nombre de ces technologies ne sont pas accessibles en ligne pour l’internaute lambda et sont réservées aux clients d’outils spécialisés qui requièrent un budget conséquent.
C’est à toutes ces questions que nous avons choisi de répondre de ce numéro de NETSOURCES.
Déjà abonné ? Connectez-vous...
Intéressons-nous maintenant à la recherche d’images. Nous avons choisi ici de nous focaliser sur la recherche d’images pour trouver des informations ou répondre à une question dans un cadre professionnel.
Nous n’aborderons pas la question des images libres de droits ou photos de stocks pour illustrer ses livrables.
La recherche d’images est plus complexe qu’elle n’y paraît au premier abord, car il coexiste différentes façons de rechercher :
il y a tout d’abord la recherche classique par mot-clé où la recherche porte sur des métadonnées ou - c’est encore très rare - sur du contenu textuel présent dans des images ;
la recherche inversée par l’image où le point de départ est une image et non du texte et où l’on recherche des images identiques ou similaires.
Lire aussi :
La révolution multimédia bouscule la veille
Outils de recherche de vidéos : des métadonnées au speech to text
Outils de recherche sur les contenus audios : un segment encore pauvre
Mettre en place une veille sur les contenus multimédias
Comment valoriser les contenus multimédias dans un livrable de veille ?
Parmi les moteurs d’images, on retrouve les moteurs classiques comme Google Images, Bing Images, Qwant images, DuckDuckGo images, Yandex Images.
On trouve également des moteurs comme Creative Commons Search (https://search.creativecommons.org) ou Flickr mais ils sont tout de même rarement utiles pour trouver des informations dans un cadre professionnel, car il s’agit souvent de photos personnelles. Néanmoins, on gardera en tête que certaines entreprises, associations, organisations utilisent Flickr pour stocker les photos de leurs événements et on pourra s’en servir dans certains cas précis.
Nous avons repris notre exemple sur le marché des chèques cadeaux en France pour tester ces différents moteurs et leurs forces et faiblesses dans un contexte de recherche professionnel.
Nous avons entré sur tous ces moteurs la requête marché des chèques cadeaux en France
(voir figure 1.)
Figure 1. Performance des différents moteurs d’images concernant la requête « Wedoogift »
Moteur | Pertinence des résultats | Fonctionnalités de recherche |
Google Images | +++ | +++ |
Bing Images | + | +++ |
Yandex Images | 0 | +++ |
Qwant Images | ++ | ++ |
DuckDuckGo Images | ++ | ++ |
Déjà abonné ? Connectez-vous...
On ne recherche pas des vidéos comme on recherche des images ou des contenus audio. Chaque type de contenus multimédias dispose de ses propres outils et il y a finalement assez peu d’outils qui englobent toutes ces dimensions.
Pour rechercher des vidéos, il existe trois grandes catégories de sources et d’outils :
d’une part les moteurs de vidéos développés par les grands acteurs du Web comme Google, Bing, Qwant, Yandex, etc. ;
il y a ensuite les grandes plateformes d’hébergement de vidéos comme YouTube, Dailymotion (de moins en moins utilisé) ou encore Vimeo qui disposent tous trois de leurs propres moteurs internes.
enfin, il existe toute une panoplie de petits outils plus confidentiels et spécialisés à connaître et à savoir mobiliser dans certains cas précis.
Lire aussi :
La révolution multimédia bouscule la veille
Outils de recherche sur les contenus audios : un segment encore pauvre
Outils de recherche d’images : des métadonnées à la reconnaissance de texte, d’objets et de visages
Mettre en place une veille sur les contenus multimédias
Comment valoriser les contenus multimédias dans un livrable de veille ?
Nous sommes tout d’abord allés interroger les différents grands moteurs : Google Vidéos, Bing Vidéos, Yandex, Qwant Vidéos, DuckDuckGo Vidéos ainsi que les plateformes d’hébergement de vidéos YouTube, Dailymotion et Vimeo.
Pour nos tests, nous avons repris notre exemple déjà utilisé dans les précédents articles sur le marché des chèques cadeaux en France. Nous avons ici opté pour une requête simple avec le nom d’une startup spécialisée sur le marché des chèques cadeaux appelée Wedoogift
(voir tableau en figure 1.). Contrairement aux grands acteurs du secteur, cette startup avait l’avantage de générer un volume faible de résultats, de fait plus faciles à analyser.
Déjà abonné ? Connectez-vous...
La recherche d’information professionnelle de contenus audio va essentiellement porter sur les émissions radios et podcasts d’information.
Pour rechercher sur des contenus radios et podcasts, on retrouve tout d’abord quelques outils communs à la recherche vidéo :
- les sites d’archives audiovisuelles comme l’INA;
- Internet Archive;
- les agrégateurs de presse qui indexent des contenus télé et radio. On notera que Newsdesk propose également des podcasts (1000 au total, mais seulement 3 pour la France).
Lire aussi :
La veille face aux nouveaux médias : podcasts, Stories, Lives, etc.
La révolution multimédia bouscule la veille
Outils de recherche de vidéos : des métadonnées au speech to text
Outils de recherche d’images : des métadonnées à la reconnaissance de texte, d’objets et de visages
Mettre en place une veille sur les contenus multimédias
Comment valoriser les contenus multimédias dans un livrable de veille ?
Pour la recherche de radio et podcasts en ligne, il existe plusieurs outils de recherche :
Déjà abonné ? Connectez-vous...
Comme nous avons pu le voir, rechercher des contenus multimédias est déjà un défi en soi. Mettre en place une veille sur ces contenus en est un autre.
Les outils de recherche de vidéos, d’images, ou de contenus audio proposent très rarement des fonctionnalités d’alertes et les flux RSS se font plutôt rares ou alors sont très bien cachés.
Sur Dailymotion, les flux RSS existaient il y a encore peu de temps, mais ils étaient bien cachés.
Il suffisait d’ajouter /rss après www.dailymotion.com. Malheureusement, nos récents tests montrent que cela ne fonctionne plus...
Lire aussi :
La veille face aux nouveaux médias : podcasts, Stories, Lives, etc.
La révolution multimédia bouscule la veille
Outils de recherche de vidéos : des métadonnées au speech to text
Outils de recherche d’images : des métadonnées à la reconnaissance de texte, d’objets et de visages
Outils de recherche sur les contenus audios : un segment encore pauvre
Comment valoriser les contenus multimédias dans un livrable de veille ?
Sur Instagram, pas de flux RSS, mais il existe un outil Queryfeed permettant de créer un flux RSS sur Instagram. La fonctionnalité qui était disponible en version gratuite est devenue payante depuis août dernier.
Sur Pinterest, il est possible de créer des flux RSS sur l’actualité d’un utilisateur ou son board. Mais pas sur des requêtes par mots-clés.
Soundcloud le permet également. On trouvera la méthode sur le blog Keep it simple : https://www.keepitsimple.fr/liste-rss
Sur Vimeo, il suffit d’ajouter /videos/rss à la suite de l’URL.
Sur YouTube, il est possible de récupérer un flux RSS pour les dernières vidéos :
Mais depuis 2015, il n’est plus possible de suivre une requête par mot-clé.
Déjà abonné ? Connectez-vous...