Comment identifier les Bad Bots et de les bloquer

Il y a des bons bots et il y a des mauvais bots. Bons bots (robots qui analyser un site Web) rampent et indexent votre site et apportent du trafic. Bad bots consomment de bande passante, ralentissent votre serveur, volent votre contenu et recherchent une vulnérabilité à compromettre votre serveur.

J’ai ai lutté contre eux dans les 15 dernières années comme un administrateur système. CeHow-to' est basé sur mon expérience personnelle. Bad bots viennent dans toutes les tailles et utilisent des chaînes différentes de User-Agent pour s’identifier. Il y a beaucoup de robots là-bas - qui peuvent analyser votre site avec différents niveaux d’alacrité. Cependant, beaucoup sont inoffensifs. Autres que les moteurs de recherche, certains robots sont exploités par d’autres organismes légitimes afin de déterminer le meilleur appariement de campagne pour le contenu d’une page pour un annonceur potentiel ou de chercher à lier l’information ou pour prendre un cliché pour fins d’archivage.

Vous pouvez trouver une liste des bots communs ici:

Pour autant que nous pouvions dire - ils obéissent aux directives de Robots.txt dans un site Web donné. La liste contient les bots avec des informations identifiables dans leur champ User-Agent. Lorsque vous parcourez la liste, vous trouverez également que de nombreux moteurs de recherche principaux interrupteur chaînes User-Agent selon leur besoin. Bots plus décents donnera leur lien de contact dans leur chaîne User-Agent pour aider le webmaster de communiquer leur préférence ou offrir des moyens de bloquer les issues du fichier texte - fichier Robots.txt
Vous pouvez ralentir le rythme de ramper ou refuser l’accès à certains répertoires de ce fichier texte.

Par exemple, vous pouvez refuser l’accès à toutes les pages dans votre document root pour ce bot « Zum » de votre fichier robots.txt comme en l’espèce :

User-agent : ZumBot

Disallow: /

Tous les robots régulières lira ce fichier et obéir aux directives contenues. Mais bad bots ne vous embêtez pas à lire votre fichier de robots ou de les lire pour savoir qui sont les répertoires interdits à ramper. Donc, ce « comment à identifier Bad bots' utilise une ruse simple pour détecter leur intention et créer un fichier journal pour suite à donner.

Étape 1: créer un fichier qui peut écrire un journal dans votre serveur. J’ai vu un Perl script ici bots.pl. Assurez-vous que ce fichier est enregistré dans votre répertoire cgi-bin (en supposant que votre serveur peut exécuter des script Perl). Définissez l’autorisation d’exécution de ce fichier texte. Lancez votre navigateur et pointez sur cette page. Vous pouvez lire la chaîne User Agent de votre navigateur, votre adresse IP, la page de référence (il sera vide maintenant) et l’heure du serveur dans lequel cette demande a été signifiée. Par ailleurs, vous verrez une page blanche.

Étape 2: la bots.pl page ci-dessus doivent être liés depuis votre page d’index - caché des visiteurs humains.
Créer un lien comme suit :

< a href = "vos domain/cgi-bin/bots.pl >< / a >

Maintenant vous êtes prêt. Le fichier journal contient les détails de la bad bots. Mais attendez. Plupart des bots normales grand public met en cache le fichier robots.txt pour économiser la bande passante. Donc, il y a une possibilité qu’ils peuvent avoir mis en cache votre robots.txt plus tôt et qu’il ne peuvent pas être au courant de la nouvelle directive. Dans ce cas, ils seraient analyser cette page bloquée. Donc les ignorer dans votre liste.

Blocage de Bad Bots

Vérifiez ce fichier bad-bots plus tard pour les autres mesures correctives. Il existe de nombreuses façons pour refuser l’accès à ces robots importuns.

Option 1:
Vous pouvez vérifier l’adresse IP contre une liste blanche (vous ajoutez votre propre adresse IP ainsi que celle des principaux moteurs de recherche dans cette liste blanche) et les adresses IP finales peuvent être bloquées dans le pare-feu.

Ou affecter la chaîne User-Agent à une liste de refus qui peut se traduire par 403 – statut (interdite). Il utilise moins de ressources serveur.

Par exemple, un de nos sites utilise un script CGI dans notre CMS. L’extrait suivant du code enverra un état 403-interdit aux Agents utilisateurs wget et Zum :

Si ($ENV {'HTTP_USER_AGENT'} = ~ / wget|zum/i) {}
imprimer « statut : 403 Forbidden\n » ; imprimer "Content-type : text / html \n\n" ; "sortie" ; }

Option 2:
Vous pouvez utiliser .htaccess pour bloquer la bad bots, en supposant que vous utilisez le serveur HTTP Apache. Dans le cas où vous avez quelques bots Bad qui utilise une chaîne d’Agent utilisateur particulier régulièrement, il est facile de les bloquer basé sur cette chaîne.

SetEnvIfNoCase User-Agent "^ Wget" bad_user
SetEnvIfNoCase User-Agent "^ Riddler" bad_user

Refuser d’env = bad_user

L’Instructable ci-dessus est basée sur ce blog.

Merci de lire ce Instructable. Je serai heureux de répondre à toutes les questions liées à ce Instructable dans la section commentaires.

Articles Liés

Comment identifier les Constellations

Comment identifier les Constellations

tout d'abord vous avez besoin :* Un cherche-étoiles (peut être trouvé sur skymaps.com)* Un ciel très sombre* Une bonne paire d'yeuxÉtape 1: Orienter la carte du ciel Pour utiliser un cherche-étoiles pour identifier les étoiles et les constellations,
Comment identifier les fils rouge et jaunes sur un Thermocouple K... avec un aimant !

Comment identifier les fils rouge et jaunes sur un Thermocouple K... avec un aimant !

Si vous ne voulez pas lire à travers ce récit entier, je vais couper à la chasse avec un spoiler :Le fil rouge sur un bâton K type thermocouple ne sera pas à un aimant et le fil jaune sera bâton à un aimant !Court et doux. Ce fichier dans votre cerve
Comment identifier les plantes pour l’alimentation, médecine, chimie des besoins

Comment identifier les plantes pour l’alimentation, médecine, chimie des besoins

ce Instructable est le produit de mon expliquant mon intennsion à poster tous les moyens de lever les charges de famille dans notre temps plus difficiles et les mois de recherche par une amie de mes amis, il donnera les noms, noms scientifiques et la
Comment identifier les PNP et NPN Transistors (avec un Circuit Simple)

Comment identifier les PNP et NPN Transistors (avec un Circuit Simple)

dans ce projet, je vais faire un des plus simple PNP et NPN circuit identificateurs jamais. Vous verrez combien il est facile de faire un ! J'ai aussi posté sur mon site un peu de la théorie sur la PNP et NPN Transistors , que je vous recommande de l
Comment faire pour identifier les titres en double dans votre bibliothèque iTunes et de les supprimer ?

Comment faire pour identifier les titres en double dans votre bibliothèque iTunes et de les supprimer ?

Avez-vous déjà demandé comment se débarrasser des chansons en double ou des vidéos qui se trouvent dans votre bibliothèque iTunes ?Regardons comment identifier et supprimer ces facilement grâce à ce guide étape par étape.Tout en recherchant des métho
Comment manger les insectes moins

Comment manger les insectes moins

en supposant que vous êtes moins omnivore, vous ne pas toujours l'envie de manger des insectes. Vous pourriez être végétarien, ou votre religion vous indique que vous ne devriez pas manger des insectes, ou peut-être vous êtes juste sur une diète stri
Comment utiliser les API de MATLAB/Octave Plotly

Comment utiliser les API de MATLAB/Octave Plotly

avez-vous déjà demandé sur les champs électromagnétiques (EMF) autour d'une ligne électrique de haute tension ? J'ai récemment publié un post à ce sujet sur mon blog et j'ai pensé que ce serait une occasion idéale d'essayer d'utiliser plot.ly.Sur ce
Comment nettoyer les conduits HVAC

Comment nettoyer les conduits HVAC

d'objet 1Comment nettoyer les conduits HVACInstructions• 1Dévisser chaque grille de ventilation dans votre maison et mettre de côté. Cela permettra de que vous accédez dansvos conduits HVAC.• 2Branchez votre aspirateur humide/sec à la sortie la plus
Comment modifier les RC voiture via 2,4 GHz nRF24L01 Arduino Part1 Transmitter(Tx)

Comment modifier les RC voiture via 2,4 GHz nRF24L01 Arduino Part1 Transmitter(Tx)

Cette instruction vous présentera comment modifier les voitures rc à bas prix en utilisant le module nRF24L01 2 .4GHz avec contrôleur Arduino UNO.Jouet de voiture rc ordinaire utiliser AM / FM radiocommande 20-50 MHz, qui ont seulement portée de 5 à
Crochet-Généralités - comment crocheter les points communs et les Techniques

Crochet-Généralités - comment crocheter les points communs et les Techniques

Dans ce Instructable, vous apprendrez comment créer quelques points communs et peu communs au crochet et des techniques. Alors que certains nombreux n'est ne pas aussi courant que d'autres, il est toujours bon de savoir comment les créer, comme ils p
Comment mesurer les caractéristiques de petit signal d’un BJT

Comment mesurer les caractéristiques de petit signal d’un BJT

Un transistor de jonction bipolaire ou BJT, est un type de transistor. Ils sont fréquents dans les circuits de l'amplificateur électronique tels que ceux utilisés pour transmettre des données sans fil et dans des radios.L'image ci-dessus est une repr
Comment modifier les chansons de votre bibliothèque sur GarageBand iTunes

Comment modifier les chansons de votre bibliothèque sur GarageBand iTunes

ce « how to » décrira en détail le processus de la façon de modifier, fusionner, boucle, etc. de vos chansons préférées à l'aide de Garageband. GarageBand est un programme disponible pour OS X et iOS, les utilisateurs de Mac qui a tout ce dont vous a
Comment couper les cheveux

Comment couper les cheveux

Aujourd'hui je vais vous montrer comment couper les cheveux.Étape 1: fournituresAssurez-vous que vous avez toutes les fournitures nécessaires pour couper les cheveux de vos clients. Ceci inclura les ligne et coupe coupe-ongles, peignes, huile, alcool
Comment polir les planchers de marbre

Comment polir les planchers de marbre

Marbre, planchers, les monuments, les cheminées, les comptoirs sont une déclaration de style d'architecture riche. Marbre fane son éclat au fil du temps et nécessite un entretien adéquat qu'ils soient utilisés pour le revêtement de sol ou de la parti