Quelques astuces pour trouver la date de publication d’une page Web

Carole Tisserand-Barthole
Netsources no
128
publié en
2017.05
994
Acheter ce no
Tags
méthodologie
Quelques astuces pour trouver la date de publication d’une ... Image 1
Quelques astuces pour trouver la date de publication d’une ... Image 1

Dans le cadre d’une veille, il n’est pas rare de voir remonter des contenus qui n’ont en réalité rien de nouveaux et ont été publiés il y a plusieurs années. Et dans un monde où tout s’accélère, bon nombre de contenus deviennent très vite obsolètes.

Reprenez par exemple un article datant de 2008/2009 sur les lecteurs de flux RSS ou un article sur le marché des moteurs de recherche avant l’arrivée de Google et vous verrez à quel point le paysage a changé et que les informations publiées sont d’une utilité quasi-nulle à part dans une démarche historique.

Comment de vieux contenus peuvent-ils remonter dans les résultats ?

Plusieurs raisons peuvent expliquer l’apparition de ces résultats :

  • l’auteur du site a effectué quelques modifications récentes sur la page même si le contenu n’a pas fondamentalement changé ;
  • l’auteur continue à promouvoir régulièrement ces contenus mêmes anciens sur les médias sociaux ;
  • un internaute a identifié ce contenu lors d’une recherche Web et, pensant qu’il s’agit de quelque chose de nouveau, l’a partagé sur les médias sociaux. D’autres personnes le reprennent ensuite donnant ainsi l’impression d’un contenu récent.

On peut facilement se rendre compte de l’ancienneté du contenu si la page en question indique une date mais ce n’est pas toujours le cas.

D’autre part, la pratique qui consiste à retweeter ou partager des contenus à la simple de lecture du titre ou d’un bref descriptif sans même cliquer sur le lien ou survoler l’article ou la page en question rend cette erreur encore plus commune que ce n’était le cas auparavant.

Comment identifier la date de publication d’une page Web ?

Si la page n’indique pas de date précise, il existe cependant plusieurs méthodes pour la retrouver ou du moins pour s’en approcher au maximum.

On pourra tout d’abord regarder l’url de la page et voir s’il n’y a pas une date. Il n’est pas rare de trouver des urls sous la forme www.siteweb.com/2017/06/20/nom-de-l-article.

Autre possibilité : se fier aux indices dans le contenu

Ainsi, si un article parle du président des Etats-Unis et mentionne Donald Trump, il tient fort à parier qu’il a été publié il y a moins d’un an. Un article qui mentionne des outils qui n’existent plus comme Google Reader par exemple ont de fortes chances d’avoir au moins 4 ans, etc.

Consulter le code source HTML de la page Web peut parfois fournir des informations intéressantes et peut permettre de retrouver une date. Sur Firefox par exemple, il faudra se rendre dans la barre des tâches et sélectionner Outils, développement Web et enfin code source de la page.

Les moteurs de recherche sont a priori les mieux placés pour connaître la date de publication d’une page qu’ils indexent.

Sur Google, lors d’une recherche, on peut voir apparaître des dates à côté de certains résultats mais pas tous. On constate d’ailleurs que ces dates apparaissent surtout pour les pages dont la date est très facilement identifiable dès le début de l’article ou du contenu. Pour les autres, il va falloir tirer parti des fonctionnalités de Google pour filtrer par date.

Prenons par exemple une actualité du site FLA Consultants intitulée « comment retrouver de vieux article de presse » publié il y a quelques mois. En tant qu’auteur, nous savons que l’article a été publié le 7 avril 2017 mais rien sur le site n’indique la date.

Si nous recherchons le titre de l’article dans Google, le résultat ressort bien mais sans date accolée. En revanche, si nous utilisons le filtre de Google « Outils » disponible dans la barre en dessous du moteur qui permet de restreindre aux résultats publiés il y a moins d’une heure, moins de 24h, moins d’une semaine, moins d’un mois, moins d’un an ou d’entrer une période personnalisée, cette fois-ci Google indique la date du 7 avril 2017 à côté du résultat.

Attention cependant : Google et les autres moteurs estiment la date de publication en fonction de différentes informations comme par exemple la première date d’indexation de la page sur le moteur. Certains sites étant très rarement visités par les moteurs, il est possible que la date ne soit pas exacte.

Tirer parti des médias sociaux est également une solution à ne pas négliger

Avec l’avènement des médias sociaux, le partage de contenus est devenu une pratique commune pour de nombreux internautes. Un contenu pourra ainsi être partagé sur Facebook, Twitter, LinkedIn mais aussi sur des plateformes de curation comme Scoop-it par exemple.

Une recherche sur les moteurs internes de ces différents outils permettra de voir si l’article/la page a été partagé, par qui et à quelle date. Ainsi si l’on retrouve des liens vers l’article datant d’il y a plusieurs années, on peut en conclure qu’il n’a rien de nouveau.

Dans la même veine, on peut également penser aux backlinks, ces liens qui pointent vers un site ou une page Web. Identifier les pages Web qui pointent vers la page qui nous intéresse permettra peut-être de repérer une date. Nous vous invitons à relire notre article « identifier des sources grâce aux backlinks » (http://bit.ly/2rCoGRX) parus sur le site de FLA Consultants pour avoir un aperçu des méthodes et outils pour y parvenir.

Enfin, on pourra se tourner vers les archives du Web et notamment vers le site WaybackMachine (https://archive.org/web). Il suffit alors d’entrer l’url de la page ou du site pour visualiser les pages archivées par l’outil. Malheureusement, pour certains sites, l’outil ne propose qu’une seule archive par an et n’archivent pas toutes les pages.

Pour reprendre l’exemple du site de FLA Consultants, on constate que la dernière archive du site date de décembre 2016. En la consultant, on constate que l’article sur les articles de presse n’apparaissait pas sur le site. On peut donc en conclure que l’article a nécessairement été publié après cette date.