Back to Question Center
0

Semalt ponuja nasvete o tem, kako ravnati s Bots, pajki in gosenicami

1 answers:

Poleg ustvarjanja iskalnih prijaznih URL-jev, datoteka .htaccess omogoča spletnim skrbnikom blokirati določene bote, da ne dostopajo do svojega spletnega mesta. Eden od načinov za blokiranje teh robotov je datoteka robots.txt. Vendar pa je Ross Barber, Semalt Manager Customer Success Manager, izjavil, da je videl nekaj pajkov, ki ignorirajo to zahtevo. Eden najboljših načinov je uporaba datoteke .htaccess, da bi jih preprečili indeksiranje vaše vsebine.

Kaj so te bote?

So vrsta programske opreme, ki jo iskalniki uporabljajo za brisanje novih vsebin iz interneta za indeksiranje.

Izvajajo naslednje naloge:

  • Obiščite spletne strani, s katerimi ste se povezali
  • Preverite svojo HTML kodo za napake
  • Shrani spletne strani, na katere se povezujete, in si ogledate, katere spletne strani so povezane z vašo vsebino
  • indeksirajo vsebino

Nekateri botovi so zlonamerni in iščejo vaše spletno mesto za e-poštne naslove in obrazce, ki se običajno uporabljajo za pošiljanje neželenih sporočil ali neželene pošte. Drugi celo iščejo varnostne vrzeli v vaši kodi.

Kaj je potrebno za blokiranje spletnih pajkov?

Pred uporabo datoteke .htaccess morate preveriti naslednje stvari:

1. Vaša spletna stran mora biti nameščena na strežniku Apache. Danes, tudi tiste, ki spletno gostovanje podjetja pol dostojno na svojem delovnem mestu, vam dostop do zahtevane datoteke.

2. Morali bi imeti dostop do vaših surovih strežniških dnevnikov na vašem spletnem mestu, tako da lahko poiščete, katere bote so obiskale vaše spletne strani.

Upoštevajte, da ne boste mogli blokirati vseh škodljivih botov, razen če blokirate vse, tudi tiste, za katere menite, da so koristni. Nove bote pridejo vsak dan, starejši pa so spremenjeni. Najučinkovitejši način je, da zaščitite svojo kodo in otežujete, da vam bodo pošto poslali na spam .

Identifikacijski boji

Bote se lahko identificirajo po naslovu IP ali iz njihove "nizov uporabniškega posrednika", ki jih pošljejo v glavi HTTP. Google na primer Google uporablja "Googlebot."

Ta seznam boste morda potrebovali s 302 boti, če že imate ime bot, ki ga želite obdržati z uporabo .htaccess

Drug način je, da prenesete vse datoteke dnevnika s strežnika in jih odprete z urejevalnikom besedil. Njihova lokacija na strežniku se lahko spremeni glede na konfiguracijo vašega strežnika, če jih ne najdete, iščite pomoč vašega spletnega gostitelja.

Če veste, katera stran je bila obiskana ali čas obiska, je lažje priti z nezaželenim botom. S temi parametri lahko poiščete datoteko dnevnika.

Enkrat ste opazili, katere bote morate blokirati; jih lahko nato vključite v datoteko .htaccess. Upoštevajte, da blokiranje bot ni dovolj, da ga ustavite. Lahko se vrne z novim naslovom IP ali imena.

Kako jih blokirati

Prenesite kopijo datoteke .htaccess. Če je potrebno, naredite varnostne kopije.

Metoda 1: blokiranje z IP

Ta delček kode blokira bot z naslovom IP 197.0.0.1

Naroči Zavrni, Dovoli

Zavrnitev iz 197.0.0.1

Prva vrstica pomeni, da bo strežnik blokiral vse zahteve, ki ustrezajo vzorcem, ki ste jih navedli, in dovoliti vsem ostalim.

Druga vrstica pove strežniku, da izda 403: prepovedano stran

Metoda 2: Blokiranje s strani uporabnikovih agencij

Najlažji način je uporaba Apachejevega motorja za prepisovanje

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Prva vrstica zagotavlja, da je modul za ponovno zapisovanje omogočen. Vrstica dve je pogoj, za katerega velja pravilo. "F" v vrstici 4 pove strežniku, da vrne 403: prepovedano, medtem ko pomeni "L" to zadnje pravilo.

Datoteko .htaccess boste naložili na strežnik in prepisali obstoječo. Sčasoma boste morali posodobiti IP bot bot. V primeru napake, naložite varnostno kopijo, ki ste jo naredili.

November 29, 2017
Semalt ponuja nasvete o tem, kako ravnati s Bots, pajki in gosenicami
Reply