Il y a des bons bots et il y a des mauvais bots. Bons bots (robots qui analyser un site Web) rampent et indexent votre site et apportent du trafic. Bad bots consomment de bande passante, ralentissent votre serveur, volent votre contenu et recherchent une vulnérabilité à compromettre votre serveur.
J’ai ai lutté contre eux dans les 15 dernières années comme un administrateur système. CeHow-to' est basé sur mon expérience personnelle. Bad bots viennent dans toutes les tailles et utilisent des chaînes différentes de User-Agent pour s’identifier. Il y a beaucoup de robots là-bas - qui peuvent analyser votre site avec différents niveaux d’alacrité. Cependant, beaucoup sont inoffensifs. Autres que les moteurs de recherche, certains robots sont exploités par d’autres organismes légitimes afin de déterminer le meilleur appariement de campagne pour le contenu d’une page pour un annonceur potentiel ou de chercher à lier l’information ou pour prendre un cliché pour fins d’archivage.
Vous pouvez trouver une liste des bots communs ici:
Pour autant que nous pouvions dire - ils obéissent aux directives de Robots.txt dans un site Web donné. La liste contient les bots avec des informations identifiables dans leur champ User-Agent. Lorsque vous parcourez la liste, vous trouverez également que de nombreux moteurs de recherche principaux interrupteur chaînes User-Agent selon leur besoin. Bots plus décents donnera leur lien de contact dans leur chaîne User-Agent pour aider le webmaster de communiquer leur préférence ou offrir des moyens de bloquer les issues du fichier texte - fichier Robots.txt
Vous pouvez ralentir le rythme de ramper ou refuser l’accès à certains répertoires de ce fichier texte.
Par exemple, vous pouvez refuser l’accès à toutes les pages dans votre document root pour ce bot « Zum » de votre fichier robots.txt comme en l’espèce :
User-agent : ZumBot
Disallow: /
Tous les robots régulières lira ce fichier et obéir aux directives contenues. Mais bad bots ne vous embêtez pas à lire votre fichier de robots ou de les lire pour savoir qui sont les répertoires interdits à ramper. Donc, ce « comment à identifier Bad bots' utilise une ruse simple pour détecter leur intention et créer un fichier journal pour suite à donner.
Étape 1: créer un fichier qui peut écrire un journal dans votre serveur. J’ai vu un Perl script ici bots.pl. Assurez-vous que ce fichier est enregistré dans votre répertoire cgi-bin (en supposant que votre serveur peut exécuter des script Perl). Définissez l’autorisation d’exécution de ce fichier texte. Lancez votre navigateur et pointez sur cette page. Vous pouvez lire la chaîne User Agent de votre navigateur, votre adresse IP, la page de référence (il sera vide maintenant) et l’heure du serveur dans lequel cette demande a été signifiée. Par ailleurs, vous verrez une page blanche.
Étape 2: la bots.pl page ci-dessus doivent être liés depuis votre page d’index - caché des visiteurs humains.
Créer un lien comme suit :
< a href = "vos domain/cgi-bin/bots.pl >< / a >
Maintenant vous êtes prêt. Le fichier journal contient les détails de la bad bots. Mais attendez. Plupart des bots normales grand public met en cache le fichier robots.txt pour économiser la bande passante. Donc, il y a une possibilité qu’ils peuvent avoir mis en cache votre robots.txt plus tôt et qu’il ne peuvent pas être au courant de la nouvelle directive. Dans ce cas, ils seraient analyser cette page bloquée. Donc les ignorer dans votre liste.
Blocage de Bad Bots
Vérifiez ce fichier bad-bots plus tard pour les autres mesures correctives. Il existe de nombreuses façons pour refuser l’accès à ces robots importuns.
Option 1:
Vous pouvez vérifier l’adresse IP contre une liste blanche (vous ajoutez votre propre adresse IP ainsi que celle des principaux moteurs de recherche dans cette liste blanche) et les adresses IP finales peuvent être bloquées dans le pare-feu.
Ou affecter la chaîne User-Agent à une liste de refus qui peut se traduire par 403 – statut (interdite). Il utilise moins de ressources serveur.
Par exemple, un de nos sites utilise un script CGI dans notre CMS. L’extrait suivant du code enverra un état 403-interdit aux Agents utilisateurs wget et Zum :
Si ($ENV {'HTTP_USER_AGENT'} = ~ / wget|zum/i) {}
imprimer « statut : 403 Forbidden\n » ; imprimer "Content-type : text / html \n\n" ; "sortie" ; }
Option 2:
Vous pouvez utiliser .htaccess pour bloquer la bad bots, en supposant que vous utilisez le serveur HTTP Apache. Dans le cas où vous avez quelques bots Bad qui utilise une chaîne d’Agent utilisateur particulier régulièrement, il est facile de les bloquer basé sur cette chaîne.
SetEnvIfNoCase User-Agent "^ Wget" bad_user
SetEnvIfNoCase User-Agent "^ Riddler" bad_user
Refuser d’env = bad_user
L’Instructable ci-dessus est basée sur ce blog.
Merci de lire ce Instructable. Je serai heureux de répondre à toutes les questions liées à ce Instructable dans la section commentaires.