Face à la dégradation de Google Actualités et à l’absence d’alternatives réelles en matière d’agrégateurs de presse gratuits, on pourrait être tenté de considérer que seuls les agrégateurs de presse payants peuvent permettre de réaliser de bonnes recherches d’information sur la presse.
Sur le papier, leurs corpus de sources continuent de s’enrichir et se diversifier avec les années et les fonctionnalités de recherche expertes restent présentes tandis que de nouvelles se développent.
Les agrégateurs de presse payants sont-ils aujourd’hui la seule solution pour réaliser des recherches d’information de qualité ? Ou bien à l’image des agrégateurs de presse gratuits, eux aussi seraient-ils en réalité sur une pente descendante ?
Lire aussi :
Google Actualités : la tendance n’est pas au beau fixe
Quelles alternatives crédibles à Google Actualités en 2020 ?
Presse, réseaux sociaux, contenus multimédias, littérature scientifique, données ... : rechercher sur des contenus très disparates
Tous les acteurs sur le marché vantent aujourd’hui la taille de leur corpus de sources et vendent l’idée d’un accès centralisé à la presse française et/ou internationale.
Ils ont fait grossir leur corpus de manière exponentielle en quelques années et mettent en avant la veille à 360° avec l’intégration de contenus hors presse papier et numérique tels que la radio, la télévision, les blogs ou encore les médias sociaux.
À les croire, toutes les sources utiles pour une recherche d’information ou une veille se trouveraient donc dans leurs plateformes.
Pas si sûr...
Déjà abonné ? Connectez-vous...
DOSSIER SPECIAL CONFERENCE SEARCH SOLUTIONS 2019 - Londres
• Le SEO et la veille au défi des moteurs
BREVES • LexisNexis Newsdesk devient Nexis Newsdesk
SERVEURS • WTI : des ressources allemandes peu connues
INDEX • Les lettres de BASES 2019
Déjà abonné ? Connectez-vous...
Pour la troisième année consécutive, nous avons assisté à la journée « Search Solutions » à Londres où se côtoient ceux qui font les moteurs (ingénieurs, data scientists, informaticiens, etc.) et ceux qui les utilisent (professionnels de l’information et du SEO).
L’intelligence artificielle et plus particulièrement le machine learning et le NLP (Natural Language Processing) étaient encore une fois au cœur de la très grande majorité des présentations.
Lire aussi :
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Des nouveaux moteurs qui tirent parti des contenus multimédia
Le SEO et la veille au défi des moteurs
Déjà abonné ? Connectez-vous...
Après les moteurs spécialisés sur le juridique, le recrutement ou la santé, il a également été question de nouveaux moteurs qui tirent parti des contenus multimédia.
On le sait, les contenus multimédia prolifèrent et il est de plus en plus important de les inclure dans son dispositif de veille et ses recherches d’information. Pourtant, ce sont des contenus difficiles d’accès car peu représentés dans les outils traditionnels et surtout peu « recherchables » car la recherche ne porte généralement que sur les métadonnées.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Le SEO et la veille au défi des moteurs
Déjà abonné ? Connectez-vous...
Etre un expert de la veille et de la recherche d’information, et maintenir son expertise, est plus que jamais un challenge car le monde de l’information est en perpétuel mouvement.
Les outils de recherche et de veille évoluent très rapidement, de nombreux acteurs apparaissent et disparaissent régulièrement, les sources d’information évoluent et changent de business model, ce qui nécessite une surveillance large de son environnement.
Dans ce contexte, les lettres BASES et NETSOURCES organiseront à Paris le vendredi 24 avril 2020 une journée « MasterClass Veille & Search 2020 » pour se former et s’informer autour de ces problématiques.
Il y sera question :
Les abonnés à BASES et/ou NETSOURCES bénéficieront d’un tarif très préférentiel.
La première intervention de cette conférence annuelle à Londres revenait en détail sur le fonctionnement de la recherche sémantique, qui, rappelons-le, est aussi mise en œuvre dans des moteurs comme Google depuis quelques années.
Andreas Kaltenbrunner est directeur de la recherche chez NTENT, une société qui propose un moteur de recherche sémantique en marque blanche pour les entreprises.
Il est revenu en détail sur le fonctionnement de leur moteur. Pour créer un moteur sémantique, il faut tout d’abord une ontologie, un lexique (un par langue) associé à l’ontologie, un « onomasticon » (une sorte de glossaire des noms propres) et des règles linguistiques.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Des nouveaux moteurs qui tirent parti des contenus multimédia
Le SEO et la veille au défi des moteurs
Le moteur sémantique va devoir intégrer les fonctionnalités suivantes :
Déjà abonné ? Connectez-vous...
Les moteurs de recherche spécialisés (recrutement, juridique, santé) étaient à l’honneur cette année.
Et tous ces acteurs s’intéressent à la façon dont ils peuvent faire évoluer leurs outils en tirant parti du développement de l’IA tout en restant à l’écoute de leurs utilisateurs.
Trois acteurs étaient venus présenter certains axes de recherche sur lesquels ils ont travaillé récemment pour améliorer leurs moteurs.
Nous commencerons avec un outil de recherche spécialisé dans le recrutement et les ressources humaines appelé Texternel, fondé en 2011 à Amsterdam. Il s’agit d’un moteur principalement utilisé par les services RH des entreprises et qui permet de rechercher sur des bases de CV et réseaux sociaux afin d’identifier les bons candidats pour un poste.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Des nouveaux moteurs qui tirent parti des contenus multimédia
Le SEO et la veille au défi des moteurs
A partir d’une offre d’emploi, l’outil va extraire automatiquement les éléments importants : titre du poste, parcours académique souhaité, nombre d’années d’expérience, compétences requises, etc. Et partir de ces éléments, l’outil va enrichir les différents concepts avec des synonymes, taxonomies, etc. Tous les éléments seront ensuite utilisés pour rechercher dans la base de CVs.
Jusqu’à il y a encore deux ans, le moteur fonctionnait uniquement sur un modèle traditionnel par mot-clé où l’utilisateur avait complètement la main sur sa recherche et pouvait sans-cesse améliorer sa requête pour augmenter la pertinence des résultats. Mais les requêtes pouvaient être très longues et très complexes, ce dont certains utilisateurs se plaignaient. Et comme toujours, lorsque l’on construit une longue requête, il y a un risque d’erreur et de propagation d’erreurs pouvant par la suite fausser les résultats.
Les équipes de TextKernel ont alors expérimenté un nouveau système de recherche à base de deep learning. Même si la pertinence des résultats était généralement plus élevée (selon eux, il y aurait 33% de chances en moins d’avoir des résultats non pertinents par rapport à l’approche traditionnelle), ce n’était pas non plus parfait et l’utilisateur n’avait plus du tout la main sur la requête elle-même, ne pouvant plus l’influencer en mettant l’accent sur certains termes.
Les équipes sont alors arrivées à la conclusion qu’il fallait combiner les deux approches pour de meilleurs résultats. Ils ont ainsi testé une première approche consistant à utiliser d’un côté la recherche traditionnelle et de l’autre l’approche à base de deep learning et à mixer les résultats uniquement au niveau de l’affichage des résultats ; puis une seconde consistant à combiner les deux dès le début.
Finalement, chaque solution a ses avantages et inconvénients et TextKernel n’a pas encore implémenté de solution définitive.
Déjà abonné ? Connectez-vous...
Très éloignée des autres présentations, celle de Dawn Anderson, spécialiste du SEO (Search Engine Optimization) était néanmoins intéressante dans la mesure où elle faisait écho à ce que vivent les professionnels de l’information.
Le monde du SEO et de ceux qui développent les moteurs sont des mondes avec très peu de connexions.
Le SEO est encore trop souvent perçu par les informaticiens comme des personnes qui manipulent les résultats de recherche et sont souvent associés à l’image du spam.
Lire aussi :
Un avant-goût de l'avenir de la recherche sur le Web avec Search Solutions 2019
Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser
Moteurs de recherche spécialisés : entre IA et approche traditionnelle
Des nouveaux moteurs qui tirent parti des contenus multimédia
Ces articles académiques sont tout d’abord de plus en plus accessibles grâce au développement de l’open access mais aussi et surtout, le SEO devient de plus en plus difficile.
Fini le temps où les moteurs n’avaient que quelques critères qui influençaient leurs algorithmes. Google en utilise aujourd’hui plus de 200. Et le développement du machine learning ne simplifie pas la tâche des professionnels du SEO, car les moteurs ressemblent de plus en plus à des boîtes noires dont il faut essayer de comprendre les grands principes sans jamais réussir à percer les secrets des détails précis de l’algorithme.
Déjà abonné ? Connectez-vous...
Newsdesk, le produit LexisNexis à mi‑chemin entre un agrégateur de presse et une plateforme de veille, change de nom et devient Nexis Newsdesk.
Ce changement est effectif depuis novembre.
Lire aussi :
BASES N°244 de Décembre 2007 à commander en direct en nous écrivant à : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
Il arrive même parfois que la société change de nom en prenant celui d’une société qu’elle vient de racheter comme cela a été le cas pour Maid avec Dialog ou Cambridge Scientific Abstracts avec Proquest. On trouvera plusieurs illustrations dans notre article « Proquest les champions du changement de nom » dans BASES N°244 de Décembre 2007 (contactez nous à Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser. pour une copie de l'article)
Pour en revenir à Nexis Newsdesk, ce changement correspond à une certaine logique puisque Lexis se réfère spécifiquement au droit, un des points forts historique de la société mais qui est complètement absent de Nexis Newsdesk.
Reste que LexisNexis est plus connu que Nexis.
Lorsque nous nous étions intéressés à l’évolution de la banque de données RAPRA, devenue Polymer Library, nous avons découvert qu’elle était produite maintenant par WTI-Frankfurter- digital GmbH qui est également un des serveurs qui l’héberge.
Ce serveur fort peu connu a été créé fin 2010 ou début 2011 (les sources divergent) sous le nom de WTI Frankfurter eG par le personnel de FIZ Technik après la faillite de cet organisme.
Début 2019, la société a été refondée sous le nom de WTI-Frankfurt-digital GmbH, à la fois un producteur et un serveur de banque de données et qui met en avant son indépendance vis-à-vis des éditeurs.
L’intérêt de ce serveur est double :
Déjà abonné ? Connectez-vous...