Semalt sniedz padomus, kā rīkoties ar robotprogrammatūrām, zirnekļiem un robiem

Papildus meklētājprogrammām draudzīgu URL izveidošanai .htaccess fails ļauj tīmekļa pārziņiem bloķēt noteiktus robotprogrammatūras piekļuvi viņu vietnei. Viens no veidiem, kā bloķēt šos robotus, ir fails robots.txt. Tomēr Ross Bārbers, Semalt klientu veiksmes menedžeris, paziņo, ka redzējis, ka daži rāpuļprogrammas ignorē šo pieprasījumu. Viens no labākajiem veidiem ir .htaccess faila izmantošana, lai tie neindeksētu jūsu saturu.

Kas tie par robotiem?

Tie ir programmatūras veidi, ko meklētājprogrammas izmanto, lai indeksēšanas nolūkos no interneta izdzēstu jaunu saturu.

Viņi veic šādus uzdevumus:

  • Apmeklējiet Web lapas, kuras esat piesaistījis
  • Pārbaudiet, vai HTML kodā nav kļūdu
  • Viņi saglabā tās tīmekļa lapas, uz kurām jūs izveidojat saiti, un redz, kuras Web lapas saista ar jūsu saturu
  • Viņi indeksē jūsu saturu

Tomēr daži robotprogrammatūras ir ļaunprātīgas un jūsu vietnē meklē e-pasta adreses un veidlapas, kuras parasti izmanto, lai nosūtītu jums nevēlamus ziņojumus vai surogātpastu. Citi pat meklē drošības nepilnības jūsu kodā.

Kas ir nepieciešams, lai bloķētu tīmekļa rāpuļprogrammas?

Pirms .htaccess faila izmantošanas jums jāpārbauda šādas lietas:

1. Jūsu vietnei jādarbojas Apache serverī. Mūsdienās pat tie tīmekļa mitināšanas uzņēmumi, kas darbojas nepilnīgi, dod jums piekļuvi nepieciešamajam failam.

2. Jums vajadzētu būt piekļuvei jūsu vietnes neapstrādāto serveru žurnāliem, lai jūs varētu noteikt, kādi robotprogrammatūras ir apmeklējuši jūsu tīmekļa lapas.

Ņemiet vērā, ka nekādā veidā jūs nevarēsit bloķēt visus kaitīgos robotprogrammatūras, ja vien jūs tos bloķēsit, pat tos, kurus jūs uzskatāt par noderīgiem. Katru dienu parādās jauni robotprogrammatūras, un vecākie tiek modificēti. Visefektīvākais veids ir nodrošināt savu kodu un apgrūtināt robotprogrammatūras no jums surogātpastu.

Robotu identificēšana

Botus var identificēt vai nu pēc IP adreses, vai arī no to “Lietotāju aģenta virknes”, ko tie nosūta HTTP galvenēs. Piemēram, Google izmanto “Googlebot”.

Jums var būt nepieciešams šis saraksts ar 302 robotprogrammatūrām, ja jums jau ir robotprogrammatūras nosaukums, kuru vēlaties saglabāt, izmantojot .htaccess

Vēl viens veids ir lejupielādēt visus žurnāla failus no servera un atvērt tos, izmantojot teksta redaktoru. Viņu atrašanās vieta serverī var mainīties atkarībā no servera konfigurācijas. Ja nevarat tos atrast, meklējiet palīdzību no sava tīmekļa mitinātāja.

Ja jūs zināt, kāda lapa tika apmeklēta, vai apmeklējuma laiku, ir vieglāk nākt ar nevēlamu robotprogrammatūru. Jūs varētu meklēt žurnāla failā ar šiem parametriem.

Kad esat ievērojis, kādi robotprogrammatūras jums jābloķē; pēc tam jūs varat tos iekļaut .htaccess failā. Lūdzu, ņemiet vērā, ka robota bloķēšana nav pietiekama, lai to apturētu. Iespējams, tas atgriezīsies ar jaunu IP vai vārdu.

Kā tos bloķēt

Lejupielādējiet .htaccess faila kopiju. Ja nepieciešams, izveidojiet dublējumus.

1. metode: bloķēšana, izmantojot IP

Šis koda fragments bloķē robotprogrammatūru, izmantojot IP adresi 197.0.0.1

Pasūtīt noliegt, atļaut

Noliegt no 197.0.0.1

Pirmā rinda nozīmē, ka serveris bloķēs visus pieprasījumus, kas atbilst jūsu norādītajiem modeļiem, un atļaus visus pārējos.

Otrajā rindā tiek norādīts serverim izdot lapu 403: aizliegta

2. metode: bloķēšana, ko veic lietotāju aģenti

Vienkāršākais veids ir izmantot Apache pārrakstīšanas motoru

RewriteEngine Ieslēgts

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Pirmā rinda nodrošina, ka ir iespējots pārrakstīšanas modulis. Otrā rinda ir nosacījums, uz kuru attiecas noteikums. 4. rindā esošais “F” norāda serverim atgriezt 403: Aizliegts, kamēr “L” nozīmē, ka šis ir pēdējais noteikums.

Pēc tam augšupielādēsit .htaccess failu uz servera un pārrakstīsit esošo. Ar laiku jums būs jāatjaunina robotprogrammatūras IP. Ja veicat kļūdu, vienkārši augšupielādējiet izveidoto dublējumu.