Bien que rien n'empêche une personne déterminée de scraper du contenu accessible au public, vous pouvez faire quelques choses de base pour atténuer les inquiétudes du client :
-
Limite de débit par compte d'utilisateur, adresse IP, agent utilisateur, etc. - cela signifie que vous limitez la quantité de données qu'un groupe d'utilisateurs particulier peut télécharger sur une certaine période de temps. Si vous détectez une grande quantité de données en cours de transfert, vous fermez le compte ou l'adresse IP.
-
Nécessite JavaScript - pour s'assurer que le client ressemble à un navigateur interactif, plutôt qu'à une araignée barebone...
-
RIA - rendez vos données disponibles via une interface d'application Internet riche. Les grilles basées sur JavaScript incluent ExtJs, YUI, Dojo, etc. Les environnements plus riches incluent Flash et Silverlight comme 1kevgriff mentionne .
-
Encodez les données sous forme d'images. C'est assez intrusif pour les utilisateurs réguliers, mais vous pourriez encoder certaines de vos tables de données ou valeurs sous forme d'images au lieu de texte, ce qui irait à l'encontre de la plupart des analyseurs de texte, mais n'est bien sûr pas infaillible.
-
robots.txt - pour refuser les araignées Web évidentes, les agents utilisateurs robots connus.
Agent utilisateur :*
Interdire :/
-
Utilisez des balises méta robot. Cela arrêterait les araignées conformes. Cela empêchera par exemple Google de vous indexer :
Il existe différents niveaux de dissuasion et la première option est probablement la moins intrusive.