Internet n'oublie jamais : utiliser le cache dans des investigations
Il existe deux types de plateformes de cache que l’ont peut utiliser dans des enquêtes en ligne. Tout d’abord les caches automatiques des moteurs de recherche, ceux-ci mettent les page en cache lorsqu’ils les indexent automatiquement et les garde jusqu’à ce que la page soit indexée à nouveau ou un certain temps si la page n’est plus disponible. Ces pages en cache sont disponible via l’interface de recherche des principaux moteurs de recherche. Ensuite, il y a des plateformes de caches, soit automatique comme la célèbre Wayback Machine de Internet Archive, soit manuelles comme la très utile archive.today
Les cache dans les moteurs de recherche
Les moteurs de recherche parcourent une large partie du web pour indexer les sites web en ligne, et la plupart d’entre eux mettent les pages indexées en cache, et ce cache disponible aux utilisateurs.
Prenons le cas de Google par exemple, lorsque je cherche “Nothing 2 Hide”, il propose la page https://nothing2hide.org/en/ en premier résultat (parce que mon navigateur est en anglais), et me propose de voir la page en cache lorsque je clique sur la flèche à côté du titre :
Lorsque j’ouvre cette page, Google me présente la version mise en cache avec la date :
Ici, la page mise en cache date du 10 août, soit 6 jours avant que j’y accède au moment de l’écriture de ce guide. La mise en page n’est pas aussi parfaite que sur la page originale, probablement à cause de problèmes de cache avec le CSS. (Attention, il faut bien noter que seul le HTML est mis en cache, ce qui veut dire que toutes les ressources comme les images ou le CSS sont encore stockées sur le site original, pensez-y en terme de sécurité dans vos recherche, voir la partie Préparer son poste de ce guide)
Ces pages peuvent être très utile pour voir des modifications récentes sur des pages, mais plus encore pour accéder à du contenu supprimé, les moteurs de recherche indexent énormément de choses, y compris des pages de réseaux sociaux. Toutes les astuces de recherche listées dans la page précédentes sur les moteurs de recherches peuvent vous aider pour retrouver du contenu supprimé récemment. Par exemple, vous pouvez utiliser une recherche comme site:twitter.com/n0thing2hide dans Google pour avoir une liste des tweets du compte Twitter de nothing2hide et retrouver en cache les tweets supprimés récemment.
Les moteurs de recherche suivant donnent également accès au cache de leurs pages indexées:
Les plateformes de cache
Wayback Machine
La Wayback Machine de Internet Archive est probablement votre meilleur outil de cache dans une investigation en ligne. L’ONG Internet Archive s’est donné pour mission d’archiver le plus possible d’Internet afin de sauvegarder des connaissances et les mettre à disposition de tout le monde. Pour cela, iels ont développé des robots qui parcourent le web et archivent des pages web. Ces pages sont ensuite accessibles dans la Wayback Machine.
Prenons le site de Nothing 2 Hide par exemple, nothing2hide.org. En faisant une recherche dans la WayBack Machine avec l’url http://nothing2hide.org/, on voit un historique de toutes les sauvegardes faites par Internet Archive:
Par exemple, voici comment était le site de Nothing 2 Hide en Juillet 2018 :
Une fonctionnalité intéressante de la Wayback Machine est la possibilité de voir toutes les pages archivées pour un site web. Pour cela, il faut faire une recherche en ajoutant un * à votre rercherche, par exemple https://web.archive.org/web/*/http://nothing2hide.org/*[http://nothing2hide.org/* :
Attention, les sites peuvent demander à avoir leurs données supprimées de la Wayback Machine, c’est par exemple ce qu’à fait l’entreprise vendeuse de stalkerware Flexispy lorsque les média se sont intéressés à ce marché. Il est dont tout à fait possible que certains sites qui vous intéressent ne soient pas accessible dans la Wayback Machine.
Les extensions pour navigateurs de la Wayback Machine sont très utiles pour faire des recherches rapidement, elles sont disponibles pour Firefox et Chrome.
Une fois installé, vous pouvez retrouver les versions récentes d’un site en cliquant sur l’icone Internet Archive de votre barre de menu:
Archive.today
La plateforme archive.today permet de sauvegarder des pages web. Contrairement à Internet Archive, elle ne sauvegarde aucune page à moi qu’une personne le demande via leur interface, mais comme elle est assez largement utilisée, elle contient des sauvegardes de beaucoup de sites.
Pour faire une recherche, allez sur le site et cherchez une url dans la partie “I want to search the archive for saved snapshots”, par exemple avec http://nothing2hide.org/ :
Il n’y a donc qu’une seule sauvegarde de cette page en Décembre 2017.
Comme avec la Wayback Machine, vous pouvez également chercher toutes les pages d’un domaine, cette fois ci en faisant une recherche avec le domain sans préfixe, c’est à dire nothing2hide.org et non pas https://nothing2hide.org/. Par exemple ici :
Aller plus loin
Comme indiqué précedemment, ces deux plateformes de cache peuvent également permettre de sauvegarder des pages intéressantes pour vos recherches.
Quelques ressources complémentaires sur le cache:
Plusieurs outils en ligne de commande peuvent être intéressants pour automatiser des recherches ou le téléchargement de données :
- wayback-machine-downloader permet de télécharger du contenu de la Wayback machine
- savepagenow permet de sauvegarder une page dans la Wayback Machine
- archiveis permet de sauvegarder une page dans archive.today