Comportamentul robotului motorului de căutare în cadrul
site-ului poate fi gestionat. Există câteva metode de
gestionare a acestuia. În continuare vor fi descrise două metode și anume: Interzicerea indexării anumitor pagini ale site-ului și Influiența datei modificării documentului.
Interzicerea indexării
Nu are rost ca toate paginile din site să fie oferite spre indexare motorului de căutare. De exemplu, în cadrul unui forum, lista și achetele utilizatorilor puțin probabil să conțină informații pe care cineva va dori să le caute cu ajutorul motorului de căutare. Pe acel forumpot fi pagini mult mai importante și interesante cu discuții și păreri ale utilizatorilor - anume aceste pagini ar trebui să fie indexate în primul rând.
Un alt
exemplu – versiunea paginilor pentru tipar. Aceste pagini conțin același text
ca și pe pagina site-ului, doar că lipsesc link-urile de navigare,
publicitățile și alte informații inutile. Dacă utilizatorul va nimeri pe așa o
pagină din motorul de căutare, el va vedea doar text simplu și nu va putea
trece la alte pagini ale site-ului.
Din
aceste considerente, astfel de pagini cum sunt cele enumerate mai sus, nu este
necesar de arătat robotului motorului de căutare, pentru a nu înfunda index-ul
acestuia cu informații inutile dar atrăgând atenția lui asupra altor pagini mai
importante. Pentru aceasta trebuie interzisă indexarea anumitor pagini cu
ajutorul unor instrucțiuni speciale. Aceste instrucțiuni se plasează sau în
fișierul cu excepții, robots.txt sau în tag-urile meta speciale, <meta name = ”ROBOTS”>.
Tag-ul meta ROBOTS .Tag-ul meta –
reprezintă o informație invizibilă pentru utilizator despre document, care se
află la începtul paginii HTML. Structura codului paginii în formă simplificată
arată așa:
<html>
<head> titlul paginii, tag-urile meta </head>
<body> textul, imaginile, conținutul
paginii</body>
</html>
Tag-ul <html> -
este principalul indicator al tipului paginii, care arată că această pagină
este un document HTML. În tag-ul <head> se indică titlul paginii, tag-urile meta și alte
informații care nu vor fi afișate în textul de pază al paginii. Tag-ul <body>
conține textul paginii și alte informații, cum ar fi imaginile, care se
afișează în browser-ul utilizatorului.
Tag-ul
meta <meta name = ”robots” content = ”…”> este destinat special pentru gestionarea indexării unei
pagini concrete. Cu ajutorul diferitor instrucțiuni, indicate în atributul content = ”…” ,
poate fi interzisă sau permisă indexarea paginii și parcurgerea link-urilor pe
pagină de către robot.
Fișierul
robots.txt.
Fișierul robots.txt este predestinat pentru păstrarea instrucțiunilor de
indexare a site-ului de către robotul motorului de căutare. Acest fișier se
află în mapa rădăcină a site-ului și se apelează la fiecare vizită a robotului
pe site.
În acest
fișier se indică cui și ce îi este interzis să indexeze pe acest site.
Instrucțiuni pentru permisiunea indexării în acest fișier nu sunt prevăzute, de
acea lipsa fișierului dat presupune faptul că vor fi indexate toate paginile
întâlnite de robot pe site. Urmează un exemplu simplu al conșinutului
fișierului robots.txt:
User-agent: StackRamblet
Disallow: /cgi-bin/
Aceste
două rânduri semnifică, că robotul motorului de căutare Rambler îi este
interzisă indexarea oricăror fișiere din directoriul /cgi-bin/. Așa cum aceste instrucțiuni sunt pentru motorul de
căutare Ramnbler, înseamnă că restul motoarelor de căutare vor indexa toate
paginile, inclusiv /cgi-bin/.
După cum
se poate de observat în exemplul anterior, cu ajutorul fișierului robots.txt poate fi interzisă indexarea unui grup întreg
de pagini, nu doar a unei singure.
Despre a doua metodă voi vorbi în următorul articol.
Niciun comentariu:
Trimiteți un comentariu