luni, 27 mai 2013

Gestionarea indexării site-ului de către motoarele de căutare

Comportamentul robotului motorului de căutare în cadrul site-ului poate fi gestionat. Există câteva metode de gestionare a acestuia. În continuare vor fi descrise două metode și anume: Interzicerea indexării anumitor pagini ale site-ului și Influiența datei modificării documentului.

Interzicerea indexării


Nu are rost ca toate paginile din site să fie oferite spre indexare motorului de căutare. De exemplu, în cadrul unui forum, lista și achetele utilizatorilor puțin probabil să conțină informații pe care cineva va dori să le caute cu ajutorul motorului de căutare. Pe acel forumpot fi pagini mult mai importante și interesante cu discuții și păreri ale utilizatorilor - anume aceste pagini ar trebui să fie indexate în primul rând.

Un alt exemplu – versiunea paginilor pentru tipar. Aceste pagini conțin același text ca și pe pagina site-ului, doar că lipsesc link-urile de navigare, publicitățile și alte informații inutile. Dacă utilizatorul va nimeri pe așa o pagină din motorul de căutare, el va vedea doar text simplu și nu va putea trece la alte pagini ale site-ului.

Din aceste considerente, astfel de pagini cum sunt cele enumerate mai sus, nu este necesar de arătat robotului motorului de căutare, pentru a nu înfunda index-ul acestuia cu informații inutile dar atrăgând atenția lui asupra altor pagini mai importante. Pentru aceasta trebuie interzisă indexarea anumitor pagini cu ajutorul unor instrucțiuni speciale. Aceste instrucțiuni se plasează sau în fișierul cu excepții, robots.txt sau în tag-urile meta speciale, <meta name = ”ROBOTS”>.

Tag-ul meta ROBOTS .Tag-ul meta – reprezintă o informație invizibilă pentru utilizator despre document, care se află la începtul paginii HTML. Structura codului paginii în formă simplificată arată așa:

<html>
<head> titlul paginii, tag-urile meta </head>
<body> textul, imaginile, conținutul paginii</body>
</html>

Tag-ul <html> - este principalul indicator al tipului paginii, care arată că această pagină este un document HTML. În tag-ul <head> se indică titlul paginii, tag-urile meta și alte informații care nu vor fi afișate în textul de pază al paginii. Tag-ul <body> conține textul paginii și alte informații, cum ar fi imaginile, care se afișează în browser-ul utilizatorului.

Tag-ul meta <meta name = ”robots” content = ”…”> este destinat special pentru gestionarea indexării unei pagini concrete. Cu ajutorul diferitor instrucțiuni, indicate în atributul content = ”…” , poate fi interzisă sau permisă indexarea paginii și parcurgerea link-urilor pe pagină de către robot.

Fișierul robots.txt. Fișierul robots.txt este predestinat pentru păstrarea instrucțiunilor de indexare a site-ului de către robotul motorului de căutare. Acest fișier se află în mapa rădăcină a site-ului și se apelează la fiecare vizită a robotului pe site.

În acest fișier se indică cui și ce îi este interzis să indexeze pe acest site. Instrucțiuni pentru permisiunea indexării în acest fișier nu sunt prevăzute, de acea lipsa fișierului dat presupune faptul că vor fi indexate toate paginile întâlnite de robot pe site. Urmează un exemplu simplu al conșinutului fișierului robots.txt:

User-agent: StackRamblet
Disallow: /cgi-bin/

Aceste două rânduri semnifică, că robotul motorului de căutare Rambler îi este interzisă indexarea oricăror fișiere din directoriul /cgi-bin/. Așa cum aceste instrucțiuni sunt pentru motorul de căutare Ramnbler, înseamnă că restul motoarelor de căutare vor indexa toate paginile, inclusiv /cgi-bin/.

După cum se poate de observat în exemplul anterior, cu ajutorul fișierului robots.txt  poate fi interzisă indexarea unui grup întreg de pagini, nu doar a unei singure. 

Despre a doua metodă voi vorbi în următorul articol.

Niciun comentariu:

Trimiteți un comentariu