Lorsque nous nous étions intéressés à l’évolution de la banque de données RAPRA, devenue Polymer Library, nous avons découvert qu’elle était produite maintenant par WTI-Frankfurter- digital GmbH qui est également un des serveurs qui l’héberge.
Ce serveur fort peu connu a été créé fin 2010 ou début 2011 (les sources divergent) sous le nom de WTI Frankfurter eG par le personnel de FIZ Technik après la faillite de cet organisme.
Début 2019, la société a été refondée sous le nom de WTI-Frankfurt-digital GmbH, à la fois un producteur et un serveur de banque de données et qui met en avant son indépendance vis-à-vis des éditeurs.
COMPTE-RENDU DE CONFÉRENCE
ILI 2019 : une vision anglo-saxonne de l avenir des professionnels de l information
TENDANCES
Les nouveaux Netflix de la presse vont-ils concurrencer Factiva, Nexis Newsdesk, Press edd et les autres ?
BASE DE DONNEES
CAS Formulations database : une nouvelle banque de données sur STN
Comme l’année dernière, nous avons eu l’occasion d’assister au salon Internet Librarian International à Londres, le rendez-vous annuel des professionnels de l’information (documentalistes, veilleurs, bibliothécaires) outre-Manche.
L'un des grands intérêts de ce e salon qu'il s'y côtoie professionnels européens, mais également des quatre coins de la planète.
Cette année encore, ce fut une expérience enrichissante qui nous a permis de mettre en perspective les problématiques des professionnels de l’information français et celles de leurs homologues d’autres pays.
Alors que des services comme Netflix pour la vidéo à la demande ou Spotify pour la musique sont devenus incontournables auprès des internautes, cela fait des années que revient régulièrement l’idée d’un « service de streaming » de la presse, basé sur un abonnement mensuel low-cost avec un accès illimité à un grand nombre de titres de presse.
En France, l’idée n’est pas nouvelle et tout avait commencé il y a quelques années avec des kiosques numériques à l’image de lekiosque.fr (qui vient d’être rebaptisé Cafeyn), SFR Presse ou encore E-presse. Mais ces services avaient, à leurs débuts, vocation à vendre des numéros de journaux et magazines à l’image des kiosques à journaux physiques.
CAS FORMULATIONS DATABASE est une nouvelle base exclusivement accessible sur la nouvelle plateforme STNext. Son nom s’abrège en CASFORMULTNS mais CASFORM ou CASFOR sont plus simples et fonctionnent aussi bien.
La matière est sensiblement la même que celle proposée par la banque de données CHEMICAL ABSTRACTS (CA), à savoir des références indexées en détail de brevets et d’articles scientifiques concernant la chimie, la pharmacie, la biochimie, … Mais l’antériorité est bien plus limitée, puisque les brevets en langue anglaise, de même qu’une sélection de brevets chinois, français, allemands, japonais ou coréens ne sont pris en compte que depuis 1996. Les articles ne sont quant à eux pris en compte que depuis 2014.
TENDANCES
• Toutes les sources et tous les articles n ont pas la même valeur
SERVEURS • Key Terms : une indexation complémentaire pour les banques de données brevet fulltext sur STN
BASE DE DONNEES • Plusieurs changements discrets dans les banque de données scientifiques spécialisées
MOTEURS • Du nouveau du côté des moteurs académiques
Toute bonne veille ou recherche d’information requiert un corpus de sources qualifiées et représentatives pour un sujet donné sous peine de réaliser des analyses biaisées.
Mais en matière de sources, rien n’est jamais acquis, du moins jamais pour très longtemps.
L’accès aux médias, notamment la presse économique et les revues scientifiques académiques, est de plus en plus « instable » pour les professionnels de l’information avec des modèles d’accès (gratuit, payant, freemium, ouvert, fermé, présent dans des agrégateurs et bases de données, etc.) qui ne cessent d’évoluer.
Lire aussi : Veille et recherche d'information : toutes les sources et tous les articles n ont pas la même valeur
L’évaluation des sources a toujours fait partie du métier de veilleur mais certaines évolutions récentes nous invitent à revoir la façon dont nous considérons chaque catégorie de sources.
Lire aussi : Comment l'instabilité des modèles de la presse en ligne ébranle les dispositifs de veille
On a en effet souvent tendance à accorder plus de crédibilité à des sources « classiques » comme la presse ou la littérature scientifique où il y a, en principe, une vérification des informations ou une validation par les pairs qu’à des sources plus « nouvelles » comme les médias sociaux notamment, où n’importe quel internaute peut dire à peu près ce qu’il veut.
La recherche dans les brevets en texte intégral, comme d’ailleurs dans le texte intégral de n’importe quel document, n’est pas toujours évidente.
En effet, se limiter aux champs titre ou abstract ou revendications (ces dernières dans le cas des brevets) peut être un petit peu restrictif, mais inclure l’ensemble de la description générera, en général, du bruit.
STN propose maintenant pour ces banques de données un nouveau champ baptisé Key Terms (KT).
Depuis maintenant quelques années, le monde des moteurs académiques est en pleine ébullition.
La famille des moteurs académiques gratuits ne cesse ne s’agrandir. Après Dimensions, 1Findr ou encore Lens, voici un petit nouveau : Scinapse.
Scinapse, un nouveau venu au pays des moteurs académiques, affiche clairement ses ambitions depuis la page d’accueil : « We’re better than Google Scholar. We mean it. »
(« Nous sommes meilleurs que Google Scholar, nous le pensons vraiment »).
Plusieurs banques de données qu’on avait l’habitude de pouvoir interroger presque indifféremment sur les serveurs Dialog ou STN ont connu ces derniers temps des restrictions d’accès.
WSCA (World Surface Coatings Abstracts) chargée en 1996 sur STN correspondait à la publication du même nom produite par la Paint Research Association UK. Elle était aussi accessible sur Dialog et même, il y a fort longtemps, sur Questel avant que ce serveur ne se focalise sur les brevets. Sa mise à jour avait cessé en 2013.
Depuis des années, les extensions de navigateurs (principalement sur Firefox et Chrome) permettent aux veilleurs d’optimiser leurs veilles, leurs recherches et collectes d’informations.
Elles peuvent ainsi jouer un rôle aussi bien au niveau de la surveillance de pages Web, la traduction instantanée de contenu, la détection de flux RSS, l’identification d’articles académiques en libre accès, l’extraction de données, la recherche d’images, etc.
Si les utiliser est souvent un jeu d’enfants, réussir à identifier les plus pertinentes pour son travail quotidien est une autre paire de manches…
L’histoire des banques de données Pascal et Francis produites par l’INIST a été fortement agitée ces dernières années.
Il en a été de même avec le service de fourniture des documents primaires Refdoc, fort utilisé à une époque mais dont le nombre de commandes avait beaucoup baissé avec le temps (900'000 commandes en 1999 contre une estimation de 100'000 pour l'année 2014 selon les prévisions de l’INIST de l’époque).
Cette baisse était la conséquence du fait qu’un très grand nombre d’éditeurs avaient mis à disposition leurs publications en ligne et surtout, avaient finalement permis l’achat à l’article sans rendre obligatoire l’abonnement à la publication.
La disparition de la banque de données payante Dissertations Abstracts du serveur STN est pour nous l’occasion de faire un tour du monde des sites de thèses en accès libre.
Nous avons déjà eu l’occasion d’aborder plusieurs fois cette question dans BASES , mais nous avons souhaité faire aujourd’hui un tour d’horizon le plus large possible, sans pour autant pouvoir garantir l’exhaustivité sur le sujet. De plus, la mise à disposition des thèses et références de thèses sur le Web a évolué rapidement en quelques années, ce qui justifie donc une remise à jour.
STN a déchargé le 29 juin dernier la banque de données Dissertation Abstracts (DISSABS) à la demande de son producteur ProQuest.
Cette banque de données est aujourd’hui l’une des rares banques spécialisées dans les thèses à demeurer payante.
Depuis quelques années, la tendance est en effet au développement de sites de thèses en accès libre, non seulement pour les références, mais souvent aussi pour le texte intégral en PDF.
Lors de la récente journée annuelle du CFIB (Club Francophone de l’Information Brevet), Philippe Bodart (TOTAL Research & Technology, Feluy-CFIB) a fait part de sa découverte de la « dégringolade » du nombre de références d’articles écrits en chinois, donc a priori d’auteurs chinois, dans la Chemical Abstracts.
Nous avons décidé d’approfondir le sujet de cette tendance inquiétante et cet article est le résultat de nos investigations et de nos échanges.
Tout d'abord, nous avons effectué des comptages, non seulement dans Chemical Abstracts, mais aussi dans d’autres banques de données et dans d’autres langues asiatiques pour voir si le problème était limité aux articles écrits en chinois pour Chemical Abstracts ou s'il était beaucoup plus large.
Proquest a acquis Dialog en 2008, devenant ainsi le cinquième propriétaire de ce serveur pionnier, commercialisé pour la première fois par la société américaine Lockheed en 1972 au sein de laquelle il avait été développé.
En réalisant cette acquisition, Proquest a en fait acheté Dialog et DataStar, serveurs concurrents à l’origine, mais le propriétaire du premier (Knight Ridder à l’époque) avait racheté le second en 1993. Ils étaient depuis devenus plus complémentaires, voire en partie redondants, que concurrents.
Proquest a été le deuxième après Questel avec Orbit à fusionner deux serveurs en créant une nouvelle plateforme. Jusqu'à présent, cela avait toujours été considéré comme quasi-irréalisable ou du moins, particulièrement difficile.
Dans une société noyée sous les informations, la datavisualisation est une forme de valorisation de données de plus en plus appréciée par les professionnels. Elle permet au sein d’une entreprise d’exploiter «l’intelligence» des données brutes et de simplifier leur compréhension immédiate.
Infographie : Elle comprend les termes « information » et « graphique » et schématise des données. Elle est majoritairement utilisée pour représenter des processus ou des chiffres clés (voir par exemple l’infographie de FLA sur la veille concurrentielle : https://www.fla-consultants.com/fr/veille/veille-concurrentielle) [...]
Les médias traditionnels (presse écrite, web, TV, radio) représentent une source d’information incontournable pour la veille et la recherche d’information et cela n’est sûrement pas prêt de changer.
Mais dans un monde où tout évolue très vite, on voit sans cesse se développer de nouvelles formes de journalisme et nouveaux médias qu’il va falloir intégrer à sa démarche.
D’une part, les principaux acteurs traditionnels de la presse, TV ou radio explorent en permanence de nouveaux formats : Lives sur les médias sociaux, Stories, podcasts, etc.
D’autre part, de nouveaux médias, souvent innovants dans leur forme et dans leur contenu et/ou sur un marché de niche font également régulièrement leur apparition et peuvent proposer des informations stratégiques ou très informatives que l’on ne retrouve nulle part ailleurs : journalisme d’investigation locale, vulgarisation scientifique, etc.
TENDANCES
• Les résumés automatiques nouvelle génération au service de la veille
BRÈVES DE VEILLE
• Les outils de la veille : entre découvertes et déceptions
PROPRIÉTÉ INTELLECTUELLE
• darts-ip : croissance et changement de politique
COMPTE-RENDU DE CONFÉRENCE
• La recherche d’information en 2019 : meilleures pratiques et nouveautés pour mieux trouver l’information stratégique et utile
Lors de la dernière édition d’i-expo en mars dernier, une table ronde a rassemblé un panel d’experts représentant toutes les facettes du secteur de l’information.
Étaient présents :
Frédéric Martinet, consultant et formateur en intelligence économique, et créateur du blog Actulligence
Véronique Mesguich, consultante et formatrice, auteur de l’ouvrage « Rechercher l’information stratégique sur le web : sourcing, veille et analyse à l’heure de la révolution numérique », (DeBoeck, 2018, collection «Information et stratégie»).
Le développement de l’intelligence artificielle fait évoluer le métier des professionnels de l’information au quotidien et nous nous en faisons régulièrement l’écho dans BASES.
S’il y a bien évidemment beaucoup de tâches qu’on ne peut pas et que l’on ne doit pas déléguer à l’IA, elle apporte sur certains aspects une réelle valeur ajoutée aux pratiques et aux outils professionnels.
Nous avons choisi ici de nous intéresser aux outils de résumé automatique, qui génèrent automatiquement des résumés à partir d’un ou plusieurs documents tels qu’un article scientifique, article de presse, rapport, thèse, page Web, etc.
Comment optimiser sa veille ?
Le RSS représente toujours une solution peu coûteuse pour réaliser des veilles de qualité mais détecter des flux RSS relève toujours un peu plus de la chasse au trésor car les sites et outils les mettent de moins en moins en évidence.
La dernière mise à jour de Firefox (version 64.0) a supprimé la capacité qu’avait Firefox de détecter les fils RSS cachés et de s’y abonner. Heureusement, il existe d’autres solutions. Sur ce sujet, on conseillera la lecture de l’article de Serge Courrier sur son blog RSS Circus qui présente différentes méthodes et outils pour repérer les flux RSS cachés (https://huit.re/rss-caches).
Dans le numéro 294 de BASES daté de juin 2012, nous avions eu l’occasion de consacrer un article à un produit très original baptisé darts-ip qui réunissait les décisions concernant les litiges en matière de propriété intellectuelle.
Cette banque de données offrait de la jurisprudence en matière de brevets, marques, dessins et modèles ainsi que noms de domaine. Un logiciel spécifique adapté à la matière avait également été développé permettant d’effectuer un grand nombre de recherches spécifiques.
Lire aussi : Clarivate Analytics rachète darts-ip
La recherche de citations et de références représente une autre façon de rechercher de l’information, complémentaire aux traditionnelles recherches booléennes.
Cette recherche recouvre deux aspects :
Elle permet tout d’abord de rechercher et visualiser ce qu’un document a référencé et cité dans son contenu. Il peut s’agir aussi bien des références bibliographiques d’un article scientifique que de simples mentions d’un article ou document au sein d’un article de presse ou de blog. On est ici dans une forme de sérendipité où l’on navigue de liens hypertextes en liens hypertextes. Et lorsqu’un document cite ses sources, celles-ci ont toutes les chances d’être reliées au sujet qui nous intéresse.
Mais il s’agit aussi de repérer qui a, depuis cette publication, utilisé et cité cet article initial. On pensera ici surtout à certains outils de recherche académiques et scientifiques qui listent sous chaque article le nombre de fois où il a été cité et un lien vers ces documents. Il pourra s’agir également de repérer les documents et pages pointant vers un article de presse, un billet de blog ou mentionnant une étude, etc.
LinkedIn est un outil de recherche puissant pour tout ce qui a trait à la recherche sur les personnes mais également depuis peu pour le contenu.
Irina Shamaeva, auteur du blog https://booleanstrings.com spécialisé dans la recherche d’information et le sourcing appliqué aux ressources humaines et au recrutement, a publié un intéressant récapitulatif des opérateurs de recherche existants sur LinkedIn, parmi lesquels certains fonctionnent mais ne sont même pas documentés par LinkedIn (voir figure 1 - Pour abonnés uniquement).