Internet n'oublie jamais : utiliser le cache dans des investigations

Ceci est une ancienne révision du document !

Il existe deux types de plateformes de cache que l’ont peut utiliser dans des enquêtes en ligne. Tout d’abord les caches automatiques des moteurs de recherche, ceux-ci mettent les page en cache lorsqu’ils les indexent automatiquement et les garde jusqu’à ce que la page soit indexée à nouveau ou un certain temps si la page n’est plus disponible. Ces pages en cache sont disponible via l’interface de recherche des principaux moteurs de recherche. Ensuite, il y a des plateformes de caches, soit automatique comme la célèbre Wayback Machine de Internet Archive, soit manuelles comme la très utile archive.today

Les moteurs de recherche parcourent une large partie du web pour indexer les sites web en ligne, et la plupart d’entre eux mettent les pages indexées en cache, et ce cache disponible aux utilisateurs.

Prenons le cas de Google par exemple, lorsque je cherche “Nothing 2 Hide”, il propose la page https://nothing2hide.org/en/ en premier résultat (parce que mon navigateur est en anglais), et me propose de voir la page en cache lorsque je clique sur la flèche à côté du titre :

Lorsque j’ouvre cette page, Google me présente la version mise en cache avec la date :

Ici, la page mise en cache date du 10 août, soit 6 jours avant que j’y accède au moment de l’écriture de ce guide. La mise en page n’est pas aussi parfaite que sur la page originale, probablement à cause de problèmes de cache avec le CSS. (Attention, il faut bien noter que seul le HTML est mis en cache, ce qui veut dire que toutes les ressources comme les images ou le CSS sont encore stockées sur le site original, pensez-y en terme de sécurité dans vos recherche, voir la partie Préparer son poste de ce guide)

Ces pages peuvent être très utile pour voir des modifications récentes sur des pages, mais plus encore pour accéder à du contenu supprimé, les moteurs de recherche indexent énormément de choses, y compris des pages de réseaux sociaux. Toutes les astuces de recherche listées dans la page précédentes sur les moteurs de recherches peuvent vous aider pour retrouver du contenu supprimé récemment. Par exemple, vous pouvez utiliser une recherche comme `site:twitter.com/n0thing2hide` dans Google pour avoir une liste des tweets du compte Twitter de nothing2hide et retrouver en cache les tweets supprimés récemment.

Les moteurs de recherche suivant donnent également accès au cache de leurs pages indexées:

La Wayback Machine de Internet Archive est probablement votre meilleur outil de cache dans une investigation en ligne. L’ONG Internet Archive s’est donné pour mission d’archiver le plus possible d’Internet afin de sauvegarder des connaissances et les mettre à disposition de tout le monde. Pour cela, iels ont développé des robots qui parcourent le web et archivent des pages web. Ces pages sont ensuite accessibles dans la Wayback Machine.

Prenons le site de Nothing 2 Hide par exemple, nothing2hide.org. En faisant une recherche dans la WayBack Machine avec l’url http://nothing2hide.org/, on voit un historique de toutes les sauvegardes faites par Internet Archive:

Par exemple, voici comment était le site de Nothing 2 Hide en Juillet 2018 :

Une fonctionnalité intéressante de la Wayback Machine est la possibilité de voir toutes les pages archivées pour un site web. Pour cela, il faut faire une recherche en ajoutant un * à votre rercherche, par exemple https://web.archive.org/web/*/http://nothing2hide.org/*[http://nothing2hide.org/* :

Attention, les sites peuvent demander à avoir leurs données supprimées de la Wayback Machine, c’est par exemple ce qu’à fait l’entreprise vendeuse de stalkerware Flexispy lorsque les média se sont intéressés à ce marché. Il est dont tout à fait possible que certains sites qui vous intéressent ne soient pas accessible dans la Wayback Machine.

Fouiller les archives d’Internet avec Internet Archive Wayback Machine ou archive.today
Remonter le temps avec l’extension Way Back Machine

Vous pourriez laisser un commentaire si vous étiez connecté.

Internet n'oublie jamais : utiliser le cache dans des investigations

Les cache dans les moteurs de recherche

Les plateformes de cache

Wayback Machine

Archive.today