Lorsqu’on souhaite mettre en place une veille concurrentielle, une typologie de sources classiques est à surveiller : site du concurrent, presse nationale, locale, spécialisée, etc. La publicité en ligne comme les résultats sponsorisés et annonces publicitaires sur Google et Facebook peut également représenter une piste très intéressante.
Car comprendre la stratégie publicitaire d’un acteur peut en dire long sur sa stratégie globale à court, moyen et long terme. Quels produits ou services choisit-il de mettre en valeur, dans quels pays et quelles régions focalise-t-il ses actions ?
En matière de publicité en ligne, le marché est très largement dominé par Google et Facebook puis dans une moindre mesure Amazon. Ainsi, si nos concurrents ont choisi d’investir dans la publicité en ligne, il y a toutes les chances qu’ils aient choisi Google, Facebook ou bien les deux. Il va donc falloir trouver des solutions pour accéder aux données de Google Ads et de Facebook Ads.
Pendant des années, c’était tout simplement mission impossible, car ni Google ni Facebook ne partageaient librement la moindre donnée en la matière. Une veille sur la publicité en ligne ne pouvait donc se faire qu’en testant des requêtes susceptibles de faire apparaître les publicités de ses concurrents, ce qui ne fournissait que des résultats aléatoires et évidemment incomplets ou en faisant appel à des acteurs spécialisés sur les mesures d’audience et la veille publicitaire.
Lire aussi :
Information et publicité : des liaisons dangereuses pour la veille ?
Les demandes pour plus de transparence de la part des internautes, mais aussi des pouvoirs publics ont fait leur chemin et les différents acteurs ont donc commencé à fournir des informations sur les publicités qu’ils hébergent.
Nous avons donc testé cette nouvelle fonctionnalité de Google pour voir comment on pouvait l’utiliser dans un contexte de veille concurrentielle et quelles étaient ses limites. Nous avons également testé de nouveau la Ad Library de Facebook dont nous avions déjà parlé lors de son lancement pour voir comment elle avait évolué et ce qu’il était toujours possible de faire.
Voir notre article « Publicité Web : un secteur en forte croissance à ne pas négliger pour la veille » - NETSOURCES n° 141 - juillet/août 2019
Déjà abonné ? Connectez-vous...
L’opus 2022 de l’Artificial Intelligence Conference on Search, Data and Text Mining, Analytics and Visualization plus connue sous le vocable « AI-SDV » vient de se terminer dans une atmosphère particulière.
Si les contributions ont été, pour la plupart, de qualité et le réseautage efficace, nous retiendrons que c’est une manifestation de plus que les professionnels de l’information ne connaîtront probablement plus, la faute du Covid qui a « tué » la manifestation à petit feu.
Les plus anciens se souviennent d’un temps où les événements se bousculaient parfois à l’agenda, autant que le public à ces événements. Ces derniers risquent maintenant de se limiter aux dates proposées par l’EPO (European Patent Office) ou les groupes d’utilisateurs. Dans cet article, Benoit Sollie et François Libmann soulignent quelques présentations (disponibles sur Internet) et lignes de force qui ont marqué cette dernière édition.
Avant d’entrer dans le vif du sujet, signalons une coïncidence amusante : la manifestation qui regroupait 60 % des participants en présentiel et 40 % en vidéo avait lieu à quelques centaines de mètres des bureaux viennois de l’EPO. De plus, pour la première fois l’exposition n’avait pas fait le plein.
Wolfgang Thielemann a présenté l’ambitieuse plateforme de littérature scientifique développée par Bayer. Après cinq ans de développements et le travail constant de trois temps pleins (soutenus par des équipes de développeurs externes), la solution peut enfin être globalement déployée au sein du groupe.
Rappelons qu’elle héberge 250 millions d’enregistrements harmonisés, dont les entités et métadonnées ont été extraites par traitement de langage naturel (ou Natural Language Processing en anglais, NLP). La structure de la solution repose sur des ontologies. Le résultat est une interface dépouillée, permettant la recherche simultanée dans de nombreuses bases de données payantes (Elsevier, CAS, transferts technologiques). L’auteur a souligné les efforts fournis, l’architecture et les défis d’un projet d’une telle ampleur.
Déjà abonné ? Connectez-vous...
Eutopia est l’une des 44 alliances labellisées « Université Européenne » par la Commission européenne et vient de lancer un portail avec les publications de ses membres. Elle regroupe dix universités (pour un total de 100 facultés), dont celle de Cergy, en France.
Le portail commun à l’alliance (https://eutopia.openaire.eu/) suit deux objectifs majeurs :
1. Faciliter la visibilité des productions scientifiques et des chercheurs de l’alliance ;
2. Fluidifier le travail au sein de l’alliance.
Ce portail recueille, à l’heure où nous imprimons, plus de 570 000 publications (dont plus de 368 000 ouvertes) et 21 000 datasets de recherche. L’alliance est généraliste et le portail couvre donc de nombreux domaines, des mathématiques aux sciences naturelles en passant par la médecine ou l’informatique.
Lire aussi :
Le Canada explore un portail pour accéder aux résultats de la recherche canadienne
Pour réaliser le portail, les universités ont utilisé OpenAire, la plateforme européenne d’accès aux publications et datasets pour une science ouverte. C'est aujourd'hui une source importante pour trouver de l’information scientifique et académique et dont nous avons eu l’occasion de parler à plusieurs reprises dans BASES et NETSOURCES.
On notera que les publications présentes sur Eutopia alimentent également la plateforme générale OpenAire, de façon automatique.
Déjà abonné ? Connectez-vous...
On a pu assister ces dernières années à des progrès spectaculaires dans le traitement et l’exploitation des données : traitement du langage, analyse sémantique, réseaux de neurones ou IA, pour n’en citer que quelques-uns. Le monde du brevet n’échappe pas à cette tendance, et on a pu voir au cours des dernières années plusieurs initiatives dans les domaines de la traduction, de la classification automatisée ou de la recherche.
IPRally dont nous avons eu l’occasion de parler en détail dans le n° 395 de BASES de septembre 2021 est d’ailleurs un exemple concret de l’application de ces nouvelles technologies au service de la recherche dans les bases de données.
Sur quelles thématiques travaillent aujourd’hui les spécialistes du domaine ? Quelles futures révolutions nous attendent dans les années à venir pour la veille et la recherche d’information brevet ?
C’est ce que nous avons essayé de déterminer dans cet article avec une approche qui nous a paru originale : aller regarder dans les brevets eux-mêmes «ce qui les attend» à plus ou moins long terme - autrement dit , essayer de lire l’avenir du brevet en tant qu’objet d’innovation dans les brevets eux-mêmes.
Lire aussi :
Déterminer la valeur d’un brevet : des outils stratégiques pour l’entreprise
Nous avons testé IPRally, l'outil qui veut révolutionner la recherche brevets avec de l'IA
Espacenet, un acteur clé en mutation
The Lens, un outsider au fort potentiel pour la recherche brevet gratuite
En effet, les techniques évoquées plus haut (IA, analyse sémantique, etc.) peuvent faire, dans certains pays, l’objet de dépôt de demande de brevet.
Afin de garder le contact avec la réalité du terrain, nous avons complété notre interrogation brevets par l’avis d’un expert, Chief Product Officer de Questel-Orbit, sur sa vision du futur de la recherche brevet.
Nous avons utilisé une combinaison des bases brevet Espacenet et d’Orbit Intelligence pour mener à bien notre recherche et l’analyse consécutive.
Déjà abonné ? Connectez-vous...
L’heure est indéniablement aux bonnes nouvelles du côté des moteurs. Alors qu’il n’y avait jusqu’à présent aucune alternative crédible à Google sur le terrain des moteurs Web pour la veille et la recherche d’information professionnelle, on voit enfin arriver sur le marché une nouvelle génération de moteurs en phase avec les problématiques des professionnels de l’information.
Après le lancement du très prometteur Neeva (voir notre article « Nous avons testé Neeva, le moteur qui pourrait remplacer Google chez les pros de l’info » - BASES n°406 - septembre 2022) voici venir un autre moteur tout aussi intéressant appelé Kagi Search (https://kagi.com/).
Kagi a lui aussi opté pour un positionnement où la qualité des résultats et de la recherche et le respect de la vie privée priment. Et ce choix passe également par un modèle économique freemium.
Dans cet article, nous présentons en détail ce nouveau moteur, son positionnement et ses fonctionnalités et nous évaluons sa capacité à intégrer la panoplie des veilleurs et des professionnels de l’information.
Lire aussi :
Nous avons testé Neeva, le moteur qui pourrait remplacer Google chez les pros de l’info
Utiliser la fonctionnalité Goggles de Brave Search en complément de Google CSE
Nous avons testé Yep.com, un nouveau moteur de recherche à l’index maison
Kagi Search (cf. Figure 1. Interface de Kagi Search) a été lancé en bêta publique le 2 juin dernier et a de nombreux points communs avec le moteur Neeva:
Un moteur sans publicité ;
Mais au-delà de ces grands traits communs, Kagi Search a sa propre identité qu’il convient de bien comprendre avant de l’utiliser.
Déjà abonné ? Connectez-vous...
Elsevier vient d’annoncer le lancement de la base de données Embase Preprints.Cette base propose des documents de travail et preprints issus des deux principaux sites de preprints dans le domaine biomédical à savoir MedRXiv et, depuis décembre 2021, BioRXiv.
Un algorithme d’indexation automatique permet d’affecter à chaque document l’essentiel de l’indexation du thesaurus EMTREE propre à Embase.
La mise à jour se fait tous les jours de la semaine.
Elsevier tient à garder la différence de nature entre les contenus d’Embase et ceux d’Embase Preprints. En effet, les alertes d’Embase n’incluront pas automatiquement les mises à jour d’Embase Preprints ; il reste la possibilité, bien sûr, d’enregistrer une alerte dans chaque base.Mise à part la création de cette base, il faut signaler qu’un nombre croissant de bases offrent des références de preprints.
Nous avons fait un test pour voir si les preprints de Medrxiv étaient bien référencés dans Embase Preprints.
Nous avons choisi la stratégie qui combinait dans le titre le terme COMIRNATY
ou BNT162b2
qui est son synonyme pour le premier semestre 2022. Ces termes sont les noms du vaccin anti-covid de Pfizer. Dans Medline, nous avons trouvé avec cette stratégie neuf documents issus de Medrxiv. Nous avons vérifié que ces neuf documents étaient bien présents parmi les 170 documents trouvés avec cette stratégie dans Embase Preprints, ce qui était bien le cas.
Le lancement de cette base confirme bien que le biomédical est un axe fort pour Dialog.
Embase avait annoncé en 2019 (BASES n° 371, juin 2019) le lancement d’un module baptisé Embase French Literature proposant plusieurs dizaines de milliers d’articles provenant d’une centaine de publications françaises.
À l’époque il fallait, pour y accéder, avoir souscrit un contrat d’accès illimité à Embase. Puis début 2021 (BASES n° 389, février 2021), ce module était passé en libre accès avec Embase.
Cette solution n’a pas dû paraître assez rentable à Elsevier puisque les conditions d’accès sont maintenant redevenues celles du lancement, c’est-à-dire le nécessité d’avoir un contrat d’accès illimité.
Par ailleurs, et sans doute à cause du basculement des banques de données hébergées jusque-là par FIZ Karlsruhe vers Chemical Abstracts, STN a pour le moment d’autres priorités que de s’occuper de ces (relativement) nouvelles bases.
Les 400 clients de FIZ Autodoc ont reçu un mail leur annonçant la fermeture du service à la fin de l’année.
Ce service est, ou était, l’un des rares services européens de fourniture de documents primaires après la disparition du service de l’INIST aux entreprises. FIZ Autodoc (https://autodoc.fiz-karlsruhe.de/) sous-traitait d’ailleurs une partie de ses prestations à des « confrères » comme la British Library ou l’américain Reprints Desk…
Auparavant, déjà, la possibilité de voir les prestations de FIZ Autodoc imputées sur la facture STN, ce qui était bien pratique, avait disparu au début de l’année.
Cet arrêt du service tient très vraisemblablement au désengagement de FIZ dans STN, les bases présentes sur FIZ ayant vocation à basculer sur les serveurs de l’American Chemical Society, qui reste le seul opérateur de ce serveur, à l’origine une association entre l’allemand FIZ Karlsruhe et l’American Chemical Society, rejoints pendant quelques années par le japonais JICST.
FIZ Autodoc propose à ses futurs ex-clients de basculer chez Reprints Desk auprès duquel il sous-traitait déjà des recherches de documents primaires. Ces clients auront le choix de garder le même système de facturation, ou d’adopter celui de Reprints Desk, globalement plus intéressant financièrement, nous disent-ils. Reprints Desk est connu pour sa plateforme Article Galaxy qui permet de gérer de façon optimisée les commandes de documents primaires à l’échelle d’une entreprise avec certaines fonctionnalités intégrées permettant de réduire les coûts.
Il faut dire que le choix d’un prestataire global se réduit singulièrement. Reste encore la plateforme Rightfind (ex-Infotrieve), concurrente de Reprints Desk (et rappelons-le, filiale du CCC (Copyright Clearance Center). On peut mentionner aussi GKDocuments, un fournisseur américain, qui limite explicitement les documents au destinataire de la commande avec interdiction de rediffusion.
Autre possibilité : la commande chez l’éditeur, les conditions étant un peu différentes d’un éditeur à un autre. On peut, le plus souvent, acheter à l’unité avec une carte de crédit. C’est souvent moins cher que de passer par un intermédiaire, mais cela prend plus de temps, multiplie les factures et tous les chercheurs n’ont pas de carte de crédit au sein d’entreprise.
Cela fait des années que le mouvement de l’open dans le monde scientifique et académique ne cesse de prendre de l’ampleur : l’open access d’abord puis l’open citations, mais aussi l’ouverture des données de la recherche,
Pour rappel, les données de la recherche correspondent à « l’ensemble des informations collectées, observées ou créées sous une forme numérique ou non, par les chercheurs dans le cadre d’un projet de recherche et à partir desquelles ils bâtissent leurs hypothèses. » (source : https://bu.univ-amu.libguides.com/donneesrecherche/definition-DR).
Il n’existait pas jusqu’ici d’initiative nationale pour la diffusion et la recherche des données de la recherche française (alors qu’il existe depuis des années un portail national pour les données publiques issues des collectivités et de l’État appelé data.gouv.fr). C’est désormais chose faite avec le lancement le 8 juillet dernier de la plateforme Recherche Data Gouv (https://entrepot.recherche.data.gouv.fr/).
Pour les chercheurs et acteurs de la recherche française, la plateforme a plusieurs buts : donner une meilleure visibilité aux données de la recherche française et plus largement à la recherche française en général, mais aussi proposer « une solution souveraine permettant à la recherche française de conserver la maîtrise des données qu’elle produit ».
Pour les professionnels de l’information et de la veille, cela ouvre surtout la possibilité de retrouver en un seul et même endroit des données qui n’étaient par le passé pas diffusées ou bien dispersées dans différents entrepôts de données.
À ce jour, Recherche Data Gouv contient un peu plus de 400 dataverses (c’est-à-dire des entrepôts thématiques qui peuvent être spécialisés sur un thème bien précis, correspondre aux données produites par un laboratoire de recherche ou bien à toutes les données produites par un organisme ou une université) et plus de 1 600 datasets (les fameux jeux de données).
Déjà abonné ? Connectez-vous...
Cela fait 20 ans que de nouveaux moteurs apparaissent avec pour ambition de concurrencer voire détrôner Google. Et pratiquement tous ont le même créneau : le respect de la vie privée, domaine où il est clair que Google n’excelle pas.
Quand on recherche de l’information dans un contexte professionnel, le respect de la vie privée est certes important, mais il faut aussi pouvoir obtenir des résultats pertinents et de qualité et avoir à disposition des fonctionnalités de recherche dignes de ce nom. Et c’est malheureusement rarement le cas des différents moteurs que nous avons pu tester ces dernières années tels que Qwant, DuckDuckGo, Yep.com ou encore You.
Un nouvel entrant pourrait bien venir changer les règles du jeu dans le monde des moteurs grâce à sa bonne compréhension des requêtes et la qualité de ses résultats.
Il s’agit du moteur Neeva qui arrive enfin en Europe après avoir été lancé aux États-Unis en 2021. Et le moins que l’on puisse dire, c’est que ce moteur a de très nombreuses qualités, allant de la longue expérience de ses fondateurs chez Google à des fonctionnalités qui servent vraiment les professionnels de l’information.
Dans cet article, nous présentons tout ce qu’il y a à savoir sur Neeva et les résultats de nos différents tests pour comprendre le positionnement du moteur, ses forces, faiblesses et la place qu’il pourrait avoir dans le quotidien du professionnel de l’information.
Il est important de noter que Neeva se positionne avant tout comme un produit où la recherche d’information est clé. Le but étant que l’utilisateur y trouve les informations qu’il cherche sans être pollué par la publicité.
Cela peut paraître une évidence pour un moteur de recherche, mais cela reste finalement assez rare de nos jours avec d’un côté Google qui est avant tout préoccupé par sa rentabilité et de l’autre des moteurs qui misent tout sur le respect de la vie privée et le fait de replanter des arbres, mais qui s’intéressent finalement assez peu à la pertinence et la qualité des résultats.
Comprendre Neeva, c’est d’abord s’intéresser aux profils de ses fondateurs.
Les deux fondateurs ont occupé des postes prestigieux chez Google pendant des années : L’un d’eux Sridhar Ramaswany a été à la tête de la division publicité (« Ad ») pendant près de 15 ans tandis que Vivek Raghunathan a travaillé sur Google Search et YouTube.
Ils ont été à bonne école, mais ont fini par ne plus se reconnaître dans le système proposé par Google qui allait finalement toujours plus à l’encontre de leurs valeurs.
La lecture des nombreuses interviews des fondateurs dans la presse anglo-saxonne permet de bien comprendre les motivations à l’origine de Neeva et d’en savoir un peu plus sur le Google d’aujourd’hui.
Neeva, c’est finalement un retour aux valeurs de Google à ses débuts.
Dans un article de recherche publié en 1998, les deux fondateurs de Google alors doctorants à l’université de Stanford, Larry Page et Sergey Brin, écrivaient alors que « les revenus publicitaires incitent souvent à fournir des résultats de recherche de mauvaise qualité » . Or c’est exactement ce que fait Google aujourd’hui…
On apprend également dans certaines interviews des fondateurs de Neeva que chez Google le nombre de personnes travaillant sur Google Search n’est pas si important. Il y a proportionnellement plus de personnes travaillant dans le département Publicité.
Les fondateurs de Neeva, quant à eux, ne veulent pas reproduire la même erreur. Ils sont en effet convaincus que les moteurs soutenus par la publicité font invariablement reculer et disparaître les résultats de qualité au profit de contenus publicitaires et que cela contraint les entreprises à prioriser les profits au détriment du respect de la vie privée.
On retiendra donc des différentes interviews des fondateurs que Neeva a deux grandes ambitions :
En 2022, Neeva a annoncé développer son propre index avec son crawler Neevabot.
Déjà abonné ? Connectez-vous...
Le moteur Brave fait partie des moteurs prometteurs à avoir dans sa boîte à outils de recherche.
Il a récemment introduit une fonctionnalité intéressante appelée « Goggles », permettant à tout internaute de créer un moteur pour rechercher sur des corpus de sources personnalisés.
Les moteurs personnalisés sont une véritable aubaine pour les professionnels de l’information et de la veille et on note d’ailleurs un regain d’intérêt pour ces outils, comme en témoigne le lancement de cette fonctionnalité chez Brave, les possibilités de personnalisation chez Neeva ou encore le lancement de l’Atlas.pro
Voir nos articles « Nous avons testé Neeva, le moteur qui pourrait remplacer Google chez les pros de l’info » et « Nous avons testé Latlas.pro, un nouveau moteur de recherche thématique personnalisable », BASES n° 402, avril 2022.
Tous ces outils et fonctionnalités ne sont d’ailleurs pas sans rappeler le moteur personnalisé proposé par Google appelé Google CSE, qui existe toujours et qui vient d’ailleurs de rajeunir son interface. Créer un moteur personnalisé sur Brave n’est malheureusement pas aussi simple que la création du moteur CSE sur Google, mais ce n’est pas insurmontable.
Dans cet article, nous vous expliquons pas à pas comment créer vos propres corpus de recherche sur Brave et nous évaluons la valeur ajoutée de ces moteurs personnalisés par rapport à Google CSE.
Lire aussi :
Brave Search, You et Presearch : les nouveaux moteurs passés au crible
Nous avons testé Yep.com, un nouveau moteur de recherche à l’index maison
Nous avons testé Latlas.pro, un nouveau moteur de recherche thématique personnalisable
Faut-il préférer l’opérateur site: de Google ou la création d’un moteur CSE ?
Cela faisait un moment que Brave évoquait la mise en place de filtres permettant de ne faire porter sa recherche que sur une sélection de sources. La fonctionnalité est finalement sortie en version bêta au printemps dernier.
Elle s’appelle Goggles, ce qui n’est pas sans créer une certaine confusion avec le célèbre moteur américain. Peut-être est-ce d’ailleurs fait à dessein, mais en tout cas Goggles signifie surtout lunettes de protection en anglais ce qui transcrit bien cette image de filtrage des résultats.
Concrètement, l’utilisateur va classiquement lancer sa recherche dans le moteur puis va sélectionner l’onglet Goggles et choisir sur quel corpus faire porter sa requête :
Déjà abonné ? Connectez-vous...