Listes de Toulouse : Référence à ne pas suivre ?

« Filtrage » est un terme très à la mode actuellement pour de multiples raisons.
Filtrage DNS, filtrage d’IP, filtrage d’URL où l’art de décider qui a accès à quoi et de quelles manières.

En entreprise, il est de plus en plus courant d’avoir un proxy qui se charge de filtrer les sites auxquels les salariés peuvent avoir accès. Quand l’entreprise est une école ou une université, cela devient une obligation légale.

Il existe plusieurs façons de configurer son proxy, mais dans une grande majorité des cas, l’administrateur se contente de charger des listes que des tiers auront mises à disposition.

Ces dernières semaines, dans de nombreuses rencontres, il a été question des « listes de Toulouse »1. Ces listes sont citées en exemple par certains et décriées par d’autres. Mon éducation et ma culture scientifique faisant, je ne crois que ce que je vois (et mon expérience professionnelle m’a appris que les promesses n’engagent que ceux qui les croient ;)) .

Je suis donc allé à la recherche de ces fameuses « listes de Toulouse », qui semblent être géré par un certain Fabrice Prigent (je tiens d’ailleurs à préciser que je n’ai strictement rien contre lui… c’est le modèle de fonctionnement de ces listes qui risquent de se prendre quelques coups).

Dans le contexte, il est précisé :

« L’Université Toulouse 1 Capitole diffuse depuis quelques années une liste noire d’URL, gérée par Fabrice Prigent afin de permettre un meilleur contrôle de l’utilisation d’Internet. Cette base, largement utilisée par les écoles, peut s’intégrer dans un grand nombre d’outils libres ou commerciaux, en complément d’autres listes. »

Puis dans la description :

« Plusieurs catégories sont définies, mais c’est surtout le pornographique qui est activement maintenu.

Pour ceux qui veulent une base de “travail”. Je ne mets à jour régulièrement que la base adult qui nous est la plus utile. Si certains d’entre vous décidaient de compléter les autres bases, je me ferais un plaisir de les intégrer dans la mise à jour.

J’ajoute à l’heure actuelle entre 50 et 300 URL par jour (il faut faire des vérifications sur certaines URL) : je ne peux absorber que lentement les ajouts que fait mon robot d’exploration. Veuillez m’en excuser. »

Cela tombe bien, je suis dans un réseau non proxifié, cela va me permettre de découvrir plein de nouveaux sites. Comme cela est bien fait, je peux même choisir par catégorie :

  • adult (1006376 URL)
  • agressif (344urls)
  • arjel (68urls)
  • astrology (26urls)
  • audio-video (1970urls)
  • bank (30urls)
  • blog (424urls)
  • celebrity (650urls)
  • chat (212urls)
  • child (23urls)
  • cleaning (158urls)
  • cooking (5urls)
  • dangerous_material (38urls)
  • dating (3116urls)
  • drogue (920urls)
  • filehosting (785urls)
  • financial (76urls)
  • forums (204urls)
  • gambling (826urls)
  • games (8834urls)
  • hacking (293urls)
  • jobsearch (13urls)
  • liste_bu (2588urls)
  • malware (258831urls)
  • manga (678urls)
  • marketingware (180urls)
  • mixed_adult (109urls)
  • mobile-phone (38urls)
  • phishing (63516urls)
  • press (64urls)
  • publicite (1308urls)
  • radio (157urls)
  • reaffected (8urls)
  • redirector (62453urls)
  • remote-control (17urls)
  • sect (144urls)
  • sexual_education (13urls)
  • shopping (226urls)
  • social_networks (26urls)
  • sports (170urls)
  • strict_redirector (62206urls)
  • strong_redirector (62206urls)
  • tricheur (36urls)
  • warez (729urls)
  • webmail (98urls)

 

Allez, je vais faire un petit peu de « warez »… zut… 95% des liens sont morts …
Bon, comme il est dit que seuls les sites pour adulte sont mis à jour régulièrement, je vais piocher parmi le million d’URL …  Je pioche aléatoirement des sites …  100% d’échec.
Allez, je suis joueur, je vais prendre la liste « drogue ». C’est bien, j’ai tous les sites pour apprendre à cultiver le cannabis…

Je crois que mon camp est choisi.
Ces listes sont intéressantes … mais si elles ne sont pas vidées des  URL hors d’âge … je plaints pauvre proxy qui doit ingérer toutes ces informations pour rien au final.
Puis autant il faudrait pouvoir vérifier qu’une url est présente ou non dans ces listes … autant il faudrait que l’emballage ne soit pas à disposition de tout le monde sous cette forme.

Si j’étais étudiant à Toulouse, je remercierais mon université de me donner une liste aussi vaste de sites « dangereux ». Certes, je prendrais le temps de me faire un petit script pour ingérer ces listes et faire le ménage à l’intérieur, mais j’aurais un bel annuaire de liens … mieux que la constellation Allo quoi 😉 D’ailleurs, je vais prendre 5min pour scripter la chose et avoir les liens réellement actifs.

Je vous tiens au courant. Promis.