Lire un no sur 1 page - Bases & Netsources

Des nouveaux moteurs qui tirent parti des contenus multimédia - Dossier spécial Search solutions 2019

Carole Tisserand-Barthole

Bases no

376

publié en

2019.12

1761

Acheter ce no

Tags

Des nouveaux moteurs qui tirent parti des contenus ... Image 1

Après les moteurs spécialisés sur le juridique, le recrutement ou la santé, il a également été question de nouveaux moteurs qui tirent parti des contenus multimédia.

On le sait, les contenus multimédia prolifèrent et il est de plus en plus important de les inclure dans son dispositif de veille et ses recherches d’information. Pourtant, ce sont des contenus difficiles d’accès car peu représentés dans les outils traditionnels et surtout peu « recherchables » car la recherche ne porte généralement que sur les métadonnées.

Découvrons ici des projets et moteurs multimédia innovants.

Déjà abonné ? Connectez-vous...

Connexion

« MasterClass Veille & Search 2020 »

Rédaction

Bases no

376

publié en

2019.12

101742

Acheter ce no

Tags

agenda | formation Veille Infodoc | méthodologie | professionnel de l'information

« MasterClass Veille & Search 2020 » Image 1

Etre un expert de la veille et de la recherche d’information, et maintenir son expertise, est plus que jamais un challenge car le monde de l’information est en perpétuel mouvement.

Les outils de recherche et de veille évoluent très rapidement, de nombreux acteurs apparaissent et disparaissent régulièrement, les sources d’information évoluent et changent de business model, ce qui nécessite une surveillance large de son environnement.

Seule solution : se former et s’informer continuellement afin de connaître les dernières tendances et les meilleures méthodes, sources et outils.

Dans ce contexte, les lettres BASES et NETSOURCES organiseront à Paris le vendredi 24 avril 2020 une journée « MasterClass Veille & Search 2020 » pour se former et s’informer autour de ces problématiques.

Il y sera question :

des dernières tendances en matière de recherche sur les moteurs Web et notamment Google ;
des meilleurs méthodes et outils pour explorer le « Deep Web » ;
des astuces et méthodes à connaître pour réussir sa veille que ce soit en termes de sourcing, de choix des outils de veille, de collecte, d’analyse et de diffusion ;
des évolutions de la recherche d’information scientifique et académique (nouveaux outils, tendances, etc.) ;
de l’actualité récente des serveurs et agrégateurs professionnels ;
etc.

Plus d’informations très prochainement !

Les abonnés à BASES et/ou NETSOURCES bénéficieront d’un tarif très préférentiel.

Comprendre les évolutions des moteurs Web généralistes pour mieux les utiliser - Dossier spécial Search solutions 2019

Carole Tisserand-Barthole

Bases no

376

publié en

2019.12

1825

Acheter ce no

Tags

Bing | recherche Web | Google | conférences salons

Comprendre les évolutions des moteurs Web généralistes pour ... Image 1

La première intervention de cette conférence annuelle à Londres revenait en détail sur le fonctionnement de la recherche sémantique, qui, rappelons-le, est aussi mise en œuvre dans des moteurs comme Google depuis quelques années.

En comprendre le fonctionnement permet donc ensuite d’adapter ses stratégies et méthodes de recherche en fonction des évolutions récentes.

Au cœur de la recherche sémantique : bye bye recherche booléenne

Andreas Kaltenbrunner est directeur de la recherche chez NTENT, une société qui propose un moteur de recherche sémantique en marque blanche pour les entreprises.

Il est revenu en détail sur le fonctionnement de leur moteur. Pour créer un moteur sémantique, il faut tout d’abord une ontologie, un lexique (un par langue) associé à l’ontologie, un « onomasticon » (une sorte de glossaire des noms propres) et des règles linguistiques.

Le moteur sémantique va devoir intégrer les fonctionnalités suivantes :

détection de la langue ;
détection et élimination des mots passe-partout ;
tokenisation (les mots, phrases et paragraphes sont détectés et regroupés) et lemmatisation (action de donner à un mot la forme neutre canonique qu’il a, par exemple, dans un dictionnaire) ;
capacité à taguer des morceaux de discours ;
analyse morphologique ;
extraction d’entités nommées et capacité à les mettre en relation avec un dictionnaire généraliste ;
identification de concepts et désambiguïsation
attribution d’une note au document et classification.

Déjà abonné ? Connectez-vous...

Connexion

Moteurs de recherche spécialisés : entre IA et approche traditionnelle - Dossier spécial Search solutions 2019

Carole Tisserand-Barthole

Bases no

376

publié en

2019.12

1949

Acheter ce no

Tags

recherche Web | conférences salons | IA

Moteurs de recherche spécialisés : entre IA et approche ... Image 1

Les moteurs de recherche spécialisés (recrutement, juridique, santé) étaient à l’honneur cette année.

Et tous ces acteurs s’intéressent à la façon dont ils peuvent faire évoluer leurs outils en tirant parti du développement de l’IA tout en restant à l’écoute de leurs utilisateurs.

Trois acteurs étaient venus présenter certains axes de recherche sur lesquels ils ont travaillé récemment pour améliorer leurs moteurs.

Trouver le bon dosage entre approche traditionnelle par mot-clé et deep learning : le cas d’un moteur dédié au recrutement

Nous commencerons avec un outil de recherche spécialisé dans le recrutement et les ressources humaines appelé Texternel, fondé en 2011 à Amsterdam. Il s’agit d’un moteur principalement utilisé par les services RH des entreprises et qui permet de rechercher sur des bases de CV et réseaux sociaux afin d’identifier les bons candidats pour un poste.

A partir d’une offre d’emploi, l’outil va extraire automatiquement les éléments importants : titre du poste, parcours académique souhaité, nombre d’années d’expérience, compétences requises, etc. Et partir de ces éléments, l’outil va enrichir les différents concepts avec des synonymes, taxonomies, etc. Tous les éléments seront ensuite utilisés pour rechercher dans la base de CVs.

Jusqu’à il y a encore deux ans, le moteur fonctionnait uniquement sur un modèle traditionnel par mot-clé où l’utilisateur avait complètement la main sur sa recherche et pouvait sans-cesse améliorer sa requête pour augmenter la pertinence des résultats. Mais les requêtes pouvaient être très longues et très complexes, ce dont certains utilisateurs se plaignaient. Et comme toujours, lorsque l’on construit une longue requête, il y a un risque d’erreur et de propagation d’erreurs pouvant par la suite fausser les résultats.

Les équipes de TextKernel ont alors expérimenté un nouveau système de recherche à base de deep learning. Même si la pertinence des résultats était généralement plus élevée (selon eux, il y aurait 33% de chances en moins d’avoir des résultats non pertinents par rapport à l’approche traditionnelle), ce n’était pas non plus parfait et l’utilisateur n’avait plus du tout la main sur la requête elle-même, ne pouvant plus l’influencer en mettant l’accent sur certains termes.

Les équipes sont alors arrivées à la conclusion qu’il fallait combiner les deux approches pour de meilleurs résultats. Ils ont ainsi testé une première approche consistant à utiliser d’un côté la recherche traditionnelle et de l’autre l’approche à base de deep learning et à mixer les résultats uniquement au niveau de l’affichage des résultats ; puis une seconde consistant à combiner les deux dès le début.

Finalement, chaque solution a ses avantages et inconvénients et TextKernel n’a pas encore implémenté de solution définitive.

Déjà abonné ? Connectez-vous...

Connexion

Le SEO et la veille au défi des moteurs - Dossier spécial Search solutions 2019

Carole Tisserand-Barthole

Bases no

376

publié en

2019.12

1680

Acheter ce no

Tags

recherche Web | professionnel de l'information | SEO

Le SEO et la veille au défi des moteurs - Dossier spécial ... Image 1

Très éloignée des autres présentations, celle de Dawn Anderson, spécialiste du SEO (Search Engine Optimization) était néanmoins intéressante dans la mesure où elle faisait écho à ce que vivent les professionnels de l’information.

Le monde du SEO et de ceux qui développent les moteurs sont des mondes avec très peu de connexions.

Le SEO est encore trop souvent perçu par les informaticiens comme des personnes qui manipulent les résultats de recherche et sont souvent associés à l’image du spam.

Pourtant, les professionnels du SEO s’intéressent de plus en plus aux articles de recherche produits par ceux qui développent les moteurs pour comprendre les principaux concepts et évolutions, même s’ils ne disposent pas des compétences nécessaires pour comprendre les éléments les plus techniques.

Ces articles académiques sont tout d’abord de plus en plus accessibles grâce au développement de l’open access mais aussi et surtout, le SEO devient de plus en plus difficile.

Fini le temps où les moteurs n’avaient que quelques critères qui influençaient leurs algorithmes. Google en utilise aujourd’hui plus de 200. Et le développement du machine learning ne simplifie pas la tâche des professionnels du SEO, car les moteurs ressemblent de plus en plus à des boîtes noires dont il faut essayer de comprendre les grands principes sans jamais réussir à percer les secrets des détails précis de l’algorithme.

Déjà abonné ? Connectez-vous...

Connexion

LexisNexis Newsdesk devient Nexis Newsdesk

François Libmann

Bases no

376

publié en

2019.12

1156

Acheter ce no

Tags

Newsdesk | LexisNexis | actualités | agrégateurs de presse

LexisNexis Newsdesk devient Nexis Newsdesk Image 1

Newsdesk, le produit LexisNexis à mi‑chemin entre un agrégateur de presse et une plateforme de veille, change de nom et devient Nexis Newsdesk.

Ce changement est effectif depuis novembre.

Ce n’est de loin pas la première fois qu’un serveur/agrégateur change le nom d’un de ses produits.

Lire aussi :

BASES N°244 de Décembre 2007 à commander en direct en nous écrivant à : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.

Il arrive même parfois que la société change de nom en prenant celui d’une société qu’elle vient de racheter comme cela a été le cas pour Maid avec Dialog ou Cambridge Scientific Abstracts avec Proquest. On trouvera plusieurs illustrations dans notre article « Proquest les champions du changement de nom » dans BASES N°244 de Décembre 2007 (contactez nous à Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser. pour une copie de l'article)

Pour en revenir à Nexis Newsdesk, ce changement correspond à une certaine logique puisque Lexis se réfère spécifiquement au droit, un des points forts historique de la société mais qui est complètement absent de Nexis Newsdesk.

Reste que LexisNexis est plus connu que Nexis.

WTI : Des ressources scientifiques et techniques allemandes peu connues

François Libmann

Bases no

376

publié en

2019.12

1097

Acheter ce no

Tags

références bibliographiques | serveur de bases de données | information scientifique et technique

WTI : Des ressources scientifiques et techniques allemandes ... Image 1

Lorsque nous nous étions intéressés à l’évolution de la banque de données RAPRA, devenue Polymer Library, nous avons découvert qu’elle était produite maintenant par WTI-Frankfurter- digital GmbH qui est également un des serveurs qui l’héberge.

Ce serveur fort peu connu a été créé fin 2010 ou début 2011 (les sources divergent) sous le nom de WTI Frankfurter eG par le personnel de FIZ Technik après la faillite de cet organisme.

Début 2019, la société a été refondée sous le nom de WTI-Frankfurt-digital GmbH, à la fois un producteur et un serveur de banque de données et qui met en avant son indépendance vis-à-vis des éditeurs.

Son catalogue comprend une quinzaine de banques de données dont certaines peuvent être regroupées ou interrogées séparément.

Ces banques de données comportent des références bibliographiques avec des indexations et des abstracts en allemand et/ou en anglais dans des proportions qui varient.

Un contenu très scientifique et technique

L’intérêt de ce serveur est double :

d’une part, il héberge des banques de données qui ne sont pas ou plus disponibles sur les serveurs STN ou Dialog, ce qui élargit le champs des ressources disponibles et peut être utile pour une recherche pointue, un état de l’art ou une recherche d’antériorité dans le domaine des brevets,
d’autre part, pour celles des banques de données qui sont aussi accessibles sur STN et/ou Dialog, les modalités d’accès à WTI permettent de réaliser des interrogations ponctuelles à des coûts extrêmement raisonnables puisqu’un forfait d’accès d’une semaine varie de 6 à 23 € selon les bases.

Déjà abonné ? Connectez-vous...

Connexion

Sommaire novembre 2019

Rédaction

Bases no

375

publié en

2019.11

911

Acheter ce no

Tags

sommaire

COMPTE-RENDU DE CONFÉRENCE

ILI 2019 : une vision anglo-saxonne de l avenir des professionnels de l information

TENDANCES

Les nouveaux Netﬂix de la presse vont-ils concurrencer Factiva, Nexis Newsdesk, Press edd et les autres ?

BASE DE DONNEES

CAS Formulations database : une nouvelle banque de données sur STN

Déjà abonné ? Connectez-vous...

Connexion

ILI 2019 : une vision anglo-saxonne de l’avenir des professionnels de l’information

Carole Tisserand-Barthole

Bases no

375

publié en

2019.11

1033

Acheter ce no

Tags

conférences salons | professionnel de l'information

ILI 2019 : une vision anglo-saxonne de l’avenir des ... Image 1

Comme l’année dernière, nous avons eu l’occasion d’assister au salon Internet Librarian International à Londres, le rendez-vous annuel des professionnels de l’information (documentalistes, veilleurs, bibliothécaires) outre-Manche.

L'un des grands intérêts de ce e salon qu'il s'y côtoie professionnels européens, mais également des quatre coins de la planète.

Cette année encore, ce fut une expérience enrichissante qui nous a permis de mettre en perspective les problématiques des professionnels de l’information français et celles de leurs homologues d’autres pays.

Cette année, la conférence était organisée autour de 6 grands thèmes :

Utilisateurs et UX (User Expérience) en bibliothèque ;
Nouvelles visions et nouvelles stratégies pour les bibliothèques ;
Digital, diversité et disruption en bibliothèque ;
Le bibliothécaire digital dans le monde académique ;
Le professionnel de l’information « réinitialisé » ;
La magie du marketing.

En cohérence avec la ligne éditoriale de BASES, nous avons choisi d’assister aux interventions sur le thème du « professionnel de l’information réinitialisé » où il était question des compétences à acquérir pour survivre et aux évolutions du métier ainsi que des grandes tendances de la recherche d’information.

Nous avons également assisté à quelques sessions sur la « magie du marketing » car la promotion et la mise en valeur des services d’information reste aujourd’hui un élément central du métier sur lequel il faut sans cesse évoluer et se remettre en question.

Déjà abonné ? Connectez-vous...

Connexion

Les nouveaux Netflix de la presse vont-ils concurrencer Factiva, Nexis Newsdesk, Press’edd et les autres ?

Carole Tisserand-Barthole

Bases no

375

publié en

2019.11

1771

Acheter ce no

Tags

presse en ligne | tendances | agrégateurs de presse

Les nouveaux Netflix de la presse vont-ils concurrencer ... Image 1

Alors que des services comme Netflix pour la vidéo à la demande ou Spotify pour la musique sont devenus incontournables auprès des internautes, cela fait des années que revient régulièrement l’idée d’un « service de streaming » de la presse, basé sur un abonnement mensuel low-cost avec un accès illimité à un grand nombre de titres de presse.

En France, l’idée n’est pas nouvelle et tout avait commencé il y a quelques années avec des kiosques numériques à l’image de lekiosque.fr (qui vient d’être rebaptisé Cafeyn), SFR Presse ou encore E-presse. Mais ces services avaient, à leurs débuts, vocation à vendre des numéros de journaux et magazines à l’image des kiosques à journaux physiques.

D’autres acteurs comme Blendle, Articly ou Milibris avaient quant à eux choisi un business model basé sur la vente à l’article mais comme nous avons pu le voir dans le dernier numéro de BASES, cela a finalement été un échec et la majorité des acteurs ont soit disparu soit changé de business model.

Mais depuis le début de l’année 2019, on commence à voir apparaître de nouveaux acteurs directement créés sur un modèle à la Netflix ou Spotify, comme Apple News+ en janvier dernier et très récemment à la fin du mois d’octobre Pressmium sur le marché français.

La complexité d’accès aux articles de presse, , qui sont de plus en plus souvent derrière un paywall, pour peu qu’on utilise de nombreuses sources est une problématique récurrente pour tous les professionnels de l’information.

Sur le papier, ces nouvelles initiatives semblent très prometteuses et permettraient d’accéder à un nombre important de titres et d’articles de presse à un tarif très abordable alors que l’utilisation des agrégateurs de presse professionnels requièrent un budget initial conséquent. Et pour ceux qui disposent déjà d’accès à des agrégateurs, ces nouvelles plateformes pourraient représenter un complément intéressant et non ruineux pour accéder à des titres non disponibles dans leurs abonnements.

Mais est-ce aussi avantageux que cela en a l’air ? Ces plateformes ont-elles réellement un intérêt dans un contexte de veille et de recherche d’information professionnelle ? Ont-elles une chance de concurrencer les agrégateurs de presse sur le long terme ?

C’est ce que nous avons exploré dans cet article en testant les différentes plateformes présentes sur le marché.

Déjà abonné ? Connectez-vous...

Connexion