Le terme « agrégateur de presse » est indissociable de la recherche d’information presse mais il revêt aujourd’hui de multiples dimensions.
A l’origine, le terme faisait exclusivement référence aux agrégateurs de presse payants comme Factiva, Nexis, Press’edd, etc. qui fournissaient un outil de recherche mais également un accès au texte intégral à tous les articles de presse qu’ils indexaient.
Aujourd’hui, la grande majorité de ces acteurs intègrent des contenus plus larges (blogs, médias sociaux, sites, etc.) et se contentent pour certaines sources de crawler les sites Web sans donner accès au texte intégral.
Lire aussi :
Quelles alternatives crédibles à Google Actualités en 2020 ?
Les agrégateurs de presse payants ont-ils toujours de la valeur ?
Déjà abonné ? Connectez-vous...
Nous avons pu voir dans l’article « Google Actualités : la tendance n’est pas au beau fixe » de ce dossier spécial que Google Actualités s’avérait de plus en plus décevant dans un contexte professionnel et que de récentes annonces ne faisaient d’ailleurs que venir noircir un peu plus le tableau.
Des alternatives gratuites à Google Actualités existent depuis des années… mais jusqu’ici aucune n’était réellement satisfaisante.
Lire aussi :
Les agrégateurs payants ont-il toujours de la valeur ?
Google Actualités : la tendance n’est pas au beau fixe
Nous avons fait le tour des solutions disponibles et nous les avons testées pour comparer leur performance par rapport à Google Actualités. Nous avons effectué nos tests depuis le moteur Web de Google puis en choisissant l’onglet Actualités et non depuis l’interface dédiée de Google Actualités. Car comme nous l’avons vu précédemment, les deux interfaces produisent des résultats très différents et l’interface de Google Actualités ne répond plus aux besoins des professionnels.
Déjà abonné ? Connectez-vous...
Face à la dégradation de Google Actualités et à l’absence d’alternatives réelles en matière d’agrégateurs de presse gratuits, on pourrait être tenté de considérer que seuls les agrégateurs de presse payants peuvent permettre de réaliser de bonnes recherches d’information sur la presse.
Sur le papier, leurs corpus de sources continuent de s’enrichir et se diversifier avec les années et les fonctionnalités de recherche expertes restent présentes tandis que de nouvelles se développent.
Les agrégateurs de presse payants sont-ils aujourd’hui la seule solution pour réaliser des recherches d’information de qualité ? Ou bien à l’image des agrégateurs de presse gratuits, eux aussi seraient-ils en réalité sur une pente descendante ?
Lire aussi :
Google Actualités : la tendance n’est pas au beau fixe
Quelles alternatives crédibles à Google Actualités en 2020 ?
Presse, réseaux sociaux, contenus multimédias, littérature scientifique, données ... : rechercher sur des contenus très disparates
Tous les acteurs sur le marché vantent aujourd’hui la taille de leur corpus de sources et vendent l’idée d’un accès centralisé à la presse française et/ou internationale.
Ils ont fait grossir leur corpus de manière exponentielle en quelques années et mettent en avant la veille à 360° avec l’intégration de contenus hors presse papier et numérique tels que la radio, la télévision, les blogs ou encore les médias sociaux.
À les croire, toutes les sources utiles pour une recherche d’information ou une veille se trouveraient donc dans leurs plateformes.
Pas si sûr...
Déjà abonné ? Connectez-vous...
DOSSIER SPECIAL CONFERENCE SEARCH SOLUTIONS 2019 - Londres
• Le SEO et la veille au défi des moteurs
BREVES • LexisNexis Newsdesk devient Nexis Newsdesk
SERVEURS • WTI : des ressources allemandes peu connues
INDEX • Les lettres de BASES 2019
Déjà abonné ? Connectez-vous...
Pour la troisième année consécutive, nous avons assisté à la journée « Search Solutions » à Londres où se côtoient ceux qui font les moteurs (ingénieurs, data scientists, informaticiens, etc.) et ceux qui les utilisent (professionnels de l’information et du SEO).
L’intelligence artificielle et plus particulièrement le machine learning et le NLP (Natural Language Processing) étaient encore une fois au cœur de la très grande majorité des présentations.
Lire aussi :
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Des nouveaux moteurs qui tirent parti des contenus multimédia
Le SEO et la veille au défi des moteurs
Déjà abonné ? Connectez-vous...
Après les moteurs spécialisés sur le juridique, le recrutement ou la santé, il a également été question de nouveaux moteurs qui tirent parti des contenus multimédia.
On le sait, les contenus multimédia prolifèrent et il est de plus en plus important de les inclure dans son dispositif de veille et ses recherches d’information. Pourtant, ce sont des contenus difficiles d’accès car peu représentés dans les outils traditionnels et surtout peu « recherchables » car la recherche ne porte généralement que sur les métadonnées.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Le SEO et la veille au défi des moteurs
Déjà abonné ? Connectez-vous...
Etre un expert de la veille et de la recherche d’information, et maintenir son expertise, est plus que jamais un challenge car le monde de l’information est en perpétuel mouvement.
Les outils de recherche et de veille évoluent très rapidement, de nombreux acteurs apparaissent et disparaissent régulièrement, les sources d’information évoluent et changent de business model, ce qui nécessite une surveillance large de son environnement.
Dans ce contexte, les lettres BASES et NETSOURCES organiseront à Paris le vendredi 24 avril 2020 une journée « MasterClass Veille & Search 2020 » pour se former et s’informer autour de ces problématiques.
Il y sera question :
Les abonnés à BASES et/ou NETSOURCES bénéficieront d’un tarif très préférentiel.
La première intervention de cette conférence annuelle à Londres revenait en détail sur le fonctionnement de la recherche sémantique, qui, rappelons-le, est aussi mise en œuvre dans des moteurs comme Google depuis quelques années.
Andreas Kaltenbrunner est directeur de la recherche chez NTENT, une société qui propose un moteur de recherche sémantique en marque blanche pour les entreprises.
Il est revenu en détail sur le fonctionnement de leur moteur. Pour créer un moteur sémantique, il faut tout d’abord une ontologie, un lexique (un par langue) associé à l’ontologie, un « onomasticon » (une sorte de glossaire des noms propres) et des règles linguistiques.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Des nouveaux moteurs qui tirent parti des contenus multimédia
Le SEO et la veille au défi des moteurs
Le moteur sémantique va devoir intégrer les fonctionnalités suivantes :
Déjà abonné ? Connectez-vous...
Les moteurs de recherche spécialisés (recrutement, juridique, santé) étaient à l’honneur cette année.
Et tous ces acteurs s’intéressent à la façon dont ils peuvent faire évoluer leurs outils en tirant parti du développement de l’IA tout en restant à l’écoute de leurs utilisateurs.
Trois acteurs étaient venus présenter certains axes de recherche sur lesquels ils ont travaillé récemment pour améliorer leurs moteurs.
Nous commencerons avec un outil de recherche spécialisé dans le recrutement et les ressources humaines appelé Texternel, fondé en 2011 à Amsterdam. Il s’agit d’un moteur principalement utilisé par les services RH des entreprises et qui permet de rechercher sur des bases de CV et réseaux sociaux afin d’identifier les bons candidats pour un poste.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Des nouveaux moteurs qui tirent parti des contenus multimédia
Le SEO et la veille au défi des moteurs
A partir d’une offre d’emploi, l’outil va extraire automatiquement les éléments importants : titre du poste, parcours académique souhaité, nombre d’années d’expérience, compétences requises, etc. Et partir de ces éléments, l’outil va enrichir les différents concepts avec des synonymes, taxonomies, etc. Tous les éléments seront ensuite utilisés pour rechercher dans la base de CVs.
Jusqu’à il y a encore deux ans, le moteur fonctionnait uniquement sur un modèle traditionnel par mot-clé où l’utilisateur avait complètement la main sur sa recherche et pouvait sans-cesse améliorer sa requête pour augmenter la pertinence des résultats. Mais les requêtes pouvaient être très longues et très complexes, ce dont certains utilisateurs se plaignaient. Et comme toujours, lorsque l’on construit une longue requête, il y a un risque d’erreur et de propagation d’erreurs pouvant par la suite fausser les résultats.
Les équipes de TextKernel ont alors expérimenté un nouveau système de recherche à base de deep learning. Même si la pertinence des résultats était généralement plus élevée (selon eux, il y aurait 33% de chances en moins d’avoir des résultats non pertinents par rapport à l’approche traditionnelle), ce n’était pas non plus parfait et l’utilisateur n’avait plus du tout la main sur la requête elle-même, ne pouvant plus l’influencer en mettant l’accent sur certains termes.
Les équipes sont alors arrivées à la conclusion qu’il fallait combiner les deux approches pour de meilleurs résultats. Ils ont ainsi testé une première approche consistant à utiliser d’un côté la recherche traditionnelle et de l’autre l’approche à base de deep learning et à mixer les résultats uniquement au niveau de l’affichage des résultats ; puis une seconde consistant à combiner les deux dès le début.
Finalement, chaque solution a ses avantages et inconvénients et TextKernel n’a pas encore implémenté de solution définitive.
Déjà abonné ? Connectez-vous...
Très éloignée des autres présentations, celle de Dawn Anderson, spécialiste du SEO (Search Engine Optimization) était néanmoins intéressante dans la mesure où elle faisait écho à ce que vivent les professionnels de l’information.
Le monde du SEO et de ceux qui développent les moteurs sont des mondes avec très peu de connexions.
Le SEO est encore trop souvent perçu par les informaticiens comme des personnes qui manipulent les résultats de recherche et sont souvent associés à l’image du spam.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Des nouveaux moteurs qui tirent parti des contenus multimédia
Ces articles académiques sont tout d’abord de plus en plus accessibles grâce au développement de l’open access mais aussi et surtout, le SEO devient de plus en plus difficile.
Fini le temps où les moteurs n’avaient que quelques critères qui influençaient leurs algorithmes. Google en utilise aujourd’hui plus de 200. Et le développement du machine learning ne simplifie pas la tâche des professionnels du SEO, car les moteurs ressemblent de plus en plus à des boîtes noires dont il faut essayer de comprendre les grands principes sans jamais réussir à percer les secrets des détails précis de l’algorithme.
Déjà abonné ? Connectez-vous...