Dans un récent billet de blog Chris Freeland, un des directeurs d’ Internet Archive a annoncé que ce site avait dépassé le cap du billion (1000 milliards) de pages stockées et a engagé toutes les bibliothèques du monde à célébrer cet événement qui est le fruit d’un effort collectif pour préserver notre histoire numérique.
Internet Archive a franchi un cap historique : courant octobre dernier, le cap des mille milliards de pages stockées soit l’équivalent de 21,3 millions de DVD a été franchi (mille milliard se dit billion en français et trillion en anglais (!)).
Ce site avait vu le jour en 1996, année qui coïncide avec l’arrivée d’Internet en France, pour pallier le manque d’archives du web alors que la presse était bien archivée depuis fort longtemps.
Ce "billion" de pages est accessible via la Wayback Machine, le service d’Internet Archive qui donne accès au contenu web archivé sous forme de « machine à remonter le temps ».
On trouve également dans cette gigantesque archive d’autres types de documents : des ouvrages (49 millions), des enregistrements audio (13 millions, dont 268 000 concerts) des vidéos (10 millions, dont 3 millions de journaux télévisés), 5 millions d’images et un million de logiciels.
On peut se demander à quoi tient la différence des ordres de grandeur avec le chiffre précédent. En fait, les pages stockées sont des clichés instantanés de pages web alors qu’un ouvrage est compté pour une seule unité quel que soit son nombre de pages.
À l’heure où l’intelligence artificielle redéfinit l’accès au savoir, Wikipédia et Grokipedia, le nouveau projet d’Elon Musk, incarnent deux visions opposées : l’une communautaire et ouverte, l’autre centralisée et portée par xAI. Alors que Wikipédia adapte ses données pour dialoguer avec les IA tout en préservant sa transparence, Grokipedia promet une alternative « sans biais ».
Lancé le 1ᵉʳ octobre 2025 par la Wikimedia Foundation, en partenariat avec Jina.AI et DataStax, le Wikidata Embedding Project vise à rendre les 119 millions d’entrées de Wikidata, alimentées par 24 000 contributeurs actifs, exploitables par les intelligences artificielles.
Grâce à la recherche vectorielle, qui traduit les concepts en relations numériques via des modèles comme Jina Embeddings v3 (multilingue, jusqu’à 8 192 tokens), le système dépasse les recherches par mots-clés. Une requête sur « scientifique », comme l’illustre le site TechCrunch, proposera ainsi des biographies comme celles de Marie Curie ou Albert Einstein, des concepts liés comme la méthode scientifique ou des visuels tels que des schémas de formules.
Ce projet s’appuie sur des APIs vectorielles ouvertes, notamment celles de DataStax (Astra DB), pour intégrer les données de Wikidata dans les assistants IA via la technologie RAG (Retrieval Augmented Generation). Un webinar le 9 octobre 2025 a marqué le lancement, avec un support initial en anglais, français et arabe, et 30 millions d’entrées déjà vectorisées.
Maryana Iskander, PDG de la Wikimedia Foundation : "Face à l’IA, nous devons préserver notre modèle ouvert en l’intégrant intelligemment."
Cette stratégie répond à une urgence : les résumés IA de Google, déployés à grande échelle en 2025, captent 8 % du trafic humain de Wikipédia, menaçant ses dons, qui représentent 80 % de son financement.
Avec la montée en puissance de l’IA générative dans le milieu professionnel, celle-ci devient un véritable outil cognitif, utilisé pour des tâches complexes telles que la recherche, la synthèse de textes, l’interaction documentaire ou la rédaction d’analyses, et la question de l’évolution des tarifs d’accès aux modèles avancés devient centrale. Anthropic (Claude), OpenAI (ChatGPT), xAI (Grok) et Mistral proposent des grilles tarifaires de plus en plus segmentées, certaines offres premium étant principalement destinées aux grandes entreprises ou aux organismes disposant d’une stratégie IA structurée.
Cette tendance est illustrée par le tout récent lancement par Perplexity AI de Comet, son navigateur web IA, sera réservé initialement aux abonnés Perplexity Max (200 $/mois). L’outil est prometteur - il fonctionnerait comme un assistant IA pour gérer des sessions de navigation ou exécuter des tâches complexes - mais on ne peut que déplorer son coût élevé.
Une montée en gamme tarifaire qui risque de creuser une fracture d’accès en marginalisant les utilisateurs intensifs, tels que les « Knowledge workers », dont les pros de l’infodoc font partie :
On retiendra pour les principaux modèles (cf. tableau détaillé en fin d'article) :
L’année 2023 a été marquée par la démocratisation des IA génératives. Cette technologie de pointe, qui a émergé sur le marché en 2020, était alors réservée à quelques experts qui payaient une API. Amorcée par la mise sur le marché de l’interface gratuite ChatGPT d’OpenAI, dont la plupart des produits sont devenus payants dans les mois qui ont suivi, cette démocratisation pourrait néanmoins perdurer grâce au développement de modèles de langage sous licence ouverte (ou « open source »).
Cette licence permet en effet d’exploiter un modèle de langage pré-entraîné à moindres frais (moins de 500 dollars dans la plupart des cas et avec des ressources de calcul modestes), ouvrant ainsi l’accès à un large éventail de chercheurs, de développeurs et d’organisations.
Il existe néanmoins quelques freins pour que le veilleur puisse en profiter.
