Back to Question Center
0

Semalt oferă sfaturi despre cum să se ocupe de boți, păianjeni și crawlere

1 answers:

În afară de crearea URL-urilor prietenoase pentru motoarele de căutare , fișierul .htaccess permite webmasterilor să blocheze anumite boturi de la accesarea site-ului lor web. O modalitate de a bloca aceste roboți este prin fișierul robots.txt. Cu toate acestea, Ross Barber, Managerul de Succes Semalt , afirmă că a văzut câteva crawlere ignorând această solicitare. Una dintre cele mai bune metode este să utilizați fișierul .htaccess pentru a nu le permite să indexeze conținutul.

Ce sunt acești roboți?

Acestea sunt un tip de software folosit de motoarele de căutare pentru a șterge conținut nou de pe internet în scopuri de indexare.

îndeplinesc următoarele sarcini:

  • Vizitați paginile web la care v-ați conectat
  • Verificați-vă codul HTML pentru erori
  • Salvează paginile web la care te conectezi și vezi ce pagini web se leagă de conținutul tău
  • Vă indexează conținutul

Cu toate acestea, unii bots sunt rău-intenționați și caută site-ul dvs. pentru adrese de e-mail și formulare care sunt utilizate de obicei pentru a vă trimite mesaje nedorite sau spam. Alții chiar caută lacune de securitate în codul dvs.

Ce este necesar pentru a bloca crawlerele web?

Înainte de a utiliza fișierul .htaccess, trebuie să verificați următoarele lucruri:

1. Site-ul dvs. trebuie să ruleze pe un server Apache. În zilele noastre, chiar și acele companii de găzduire web care sunt pe jumătate decente în munca lor, vă oferă acces la dosarul necesar.

2. Ar trebui să aveți acces la faptul că sunteți jurnalele de server brute ale site-ului dvs. web, astfel încât să puteți localiza ce boturi au accesat paginile dvs. web.

Rețineți că nu veți putea bloca toate boțurile dăunătoare dacă nu le blocați pe toate, chiar și pe cele pe care le considerați de ajutor. Bots noi vin în fiecare zi, iar cele mai vechi sunt modificate. Cea mai eficientă modalitate este să vă asigurați codul și să vă greuți să vă spună spam-ul .

Identificarea roboților

Boții pot fi identificați fie prin adresa IP, fie prin "User String Agent", pe care aceștia o trimit în antetele HTTP. De exemplu, Google utilizează "Googlebot."

Este posibil să aveți nevoie de această listă cu 302 de bot dacă aveți deja numele botului pe care doriți să îl păstrați departe folosind .htaccess

O altă modalitate este de a descărca toate fișierele de jurnal de pe server și de a le deschide utilizând un editor de text. asistență de la gazda dvs. Web

Dacă știți ce pagină a fost vizitată sau ora vizitei, este mai ușor să veniți cu un bot nedorit. Puteți căuta fișierul jurnal cu acești parametri.

Odată, ați observat ce roboți trebuie să blocați; apoi le puteți include în fișierul .htaccess. Rețineți că blocarea botului nu este suficientă pentru ao opri. Se poate reveni cu un nume IP sau un nume nou.

Cum să le blocheze

Descărcați o copie a fișierului .htaccess. Faceți copii de rezervă, dacă este necesar.

Metoda 1: blocarea prin IP

Acest fragment de cod blochează bot utilizând adresa IP 197.0.0.1

Ordinul Negativ, Permite

Neagă de la 197.0.0.1

Prima linie înseamnă că serverul va bloca toate cererile care corespund modelelor pe care le-ați specificat și le permiteți tuturor celorlalte.

A doua linie indică serverului să emită o pagină interzisă

Metoda 2: Blocarea de către agenții utilizator

Cea mai ușoară cale este să utilizați motorul de rescriere Apache

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Prima linie asigură că modulul de rescriere este activat. Linia a doua este condiția la care se aplică regula. "F" în rândul 4 îi spune serverului să returneze un 403: interzis în timp ce "L" înseamnă că aceasta este ultima regulă.

Apoi, încărcați fișierul .htaccess pe serverul dvs. și suprascrieți unul existent. Cu timpul, va trebui să actualizați IP-ul botului. În cazul în care faceți o eroare, încărcați doar copia de siguranță pe care ați făcut-o.

November 29, 2017
Semalt oferă sfaturi despre cum să se ocupe de boți, păianjeni și crawlere
Reply