Cum realizam fișierul perfect robots.txt avantajand SEO

Cum realizam fișierul perfect robots.txt avantajand SEO

Toată lumea iubește „hacks“.

Eu nu sunt o excepție - îmi place să găsească modalități de a face viața mai bună și mai ușoară.

De aceea tehnica am de gând să-ți spun astăzi este una din preferatele mele absolute. Este un SEO legitim hack pe care le puteți începe să utilizați imediat.Cum realizam fișierul perfect robots txt avantajand SEO

Este o modalitate de a crește SEO profitând de o parte naturală a fiecărui site care rareori devine vorbit. Nu este dificil să pună în aplicare, fie.

Este fișierul robots.txt (numit, de asemenea, protocolul de excludere a roboților sau a standardului).

Acest fișier text mic face parte din fiecare site pe internet, dar cei mai mulți oameni nici măcar nu știu despre asta.

Este proiectat pentru a lucra cu motoarele de căutare, dar în mod surprinzător, este o sursă de suc de SEO așteaptă să fie deblocat.

Am văzut client după îndoire client peste înapoi încercarea de a spori SEO lor. Când le-am spus că pot edita un fișier text mic, puteau să nu mă crezi.

Cu toate acestea, există mai multe metode de creștere SEO care nu sunt dificil sau consumatoare de timp, iar aceasta este una dintre ele.

Nu aveți nevoie să aibă nici o experiență tehnică să profite de puterea de robots.txt. Dacă puteți găsi codul sursă pentru site-ul dvs., puteți utiliza acest lucru.

Deci, atunci când sunteți gata, urmați împreună cu mine, și vă voi arăta exact cum să modificați în sus fișierul robots.txt, astfel încât motoarele de căutare va vor iubi obtinand o strategie de promovare site.

 

De ce fișierul robots.txt este important

În primul rând, haideți să aruncăm o privire la motivul pentru care problemele de fișier robots.txt în primul rând.

Fișierul robots.txt, de asemenea, cunoscut sub numele de protocolul de excludere a roboților sau standard, este un fișier text care spune roboți web (cel mai adesea motoarele de căutare) care au pagini de pe site-ul accesat cu crawlere.

Se spune , de asemenea , roboți web ce pagini nu să acceseze cu crawlere.

Să presupunem că un motor de căutare este pe cale de a vizita un site. Înainte de a vizitează pagina de destinație, se va verifica robots.txt pentru instrucțiuni.

Există diferite tipuri de fișiere robots.txt, deci hai să ne uităm la câteva exemple diferite de ceea ce arata.

Să presupunem că motorul de căutare găsește acest exemplu fișier robots.txt :

Acesta este scheletul de bază al unui fișier robots.txt.

Asteriscul după „user-agent“ înseamnă că fișierul robots.txt se aplică tuturor roboți web care vizitează site-ul.

Slash după „Disallow“, spune robotul nu pentru a vizita orice pagini de pe site.

S-ar putea întreba de ce cineva ar vrea să oprească roboți web să viziteze site-ul lor.

La urma urmei, unul dintre obiectivele majore ale SEO este de a obține motoarele de căutare să acceseze cu crawlere site-ul dvs. cu ușurință astfel încât acestea să crească ranking.

Aceasta este în cazul în care secretul acestui SEO hack vine.

Probabil că aveți o mulțime de pagini de pe site-ul dvs., nu? Chiar dacă nu crezi că faci, du-te verifica. S-ar putea fi surprins.

În cazul în care un motor de căutare accesează cu crawlere site-ul dvs., acesta va târască fiecare una dintre pagini.

Și, dacă aveți o mulțime de pagini, acesta va lua bot motor de căutare un timp pentru a le accesa cu crawlere, care pot avea efecte negative asupra clasării.

Asta deoarece Googlebot (bot de motorul de căutare Google) are un „buget crawl.“

Acest lucru se descompune în două părți. Primul este limita rata de accesare. Iată cum Google explică faptul că :

A doua parte este cererea de accesare cu crawlere:

Practic, bugetul crawl este „numărul de adrese URL Googlebot poate și vrea să se târască.“

Vrei să ajute Googlebot cheltui bugetul crawl pentru site-ul dvs. în cel mai bun mod posibil. Cu alte cuvinte, ar trebui să se acceseze cu crawlere paginile dvs. cele mai valoroase.

Există anumiți factori care vor, în conformitate cu Google „afectează în mod negativ crawlere a unui site și indexare.“

Aici sunt acei factori:

Deci, să se întoarcă la robots.txt.

Dacă creați pagina robots.txt dreapta, vă pot spune roboții motoarelor de căutare (și în special Googlebot) pentru a evita anumite pagini.

Gândiți-vă la implicațiile. Dacă spui de căutare roboții motoarelor să acceseze numai conținutul cel mai util, roboții vor accesa cu crawlere și indexa site-ul dvs. bazat pe acel conținut singur.

După cum Google o pune :

„Nu doriți ca serverul să fie copleșit de crawlerul Google sau să irosească bugetul crawl crawling pagini neimportante sau similare de pe site.“

Prin utilizarea robots.txt mod corect, vă pot spune roboții motoarelor de căutare să-și petreacă bugetele lor crawl cu înțelepciune. Și asta e ceea ce face ca fișierul robots.txt atât de util într-un context de SEO.

Intrigat de puterea robots.txt?

Ar trebui să fii! Hai sa vorbim despre cum să găsească și să-l utilizați.

Găsirea fișierul robots.txt

Dacă doriți doar o scurtă privire la fișierul robots.txt, există un mod foarte ușor să-l vizualizați.

De fapt, această metodă va funcționa pentru orice site . Deci , vă puteți arunca o privire asupra fișierelor altor site - uri și de a vedea ceea ce fac.

Tot ce trebuie să faceți-l introduceți URL-ul de bază al site-ului în bara de căutare a browserului (de exemplu, neilpatel.com, quicksprout.com, etc). Apoi se adaugă /robots.txt pe la sfârșitul anului.

Una dintre cele trei situații se va întâmpla:

1) Veți găsi un fișier robots.txt.

2) Veți găsi un fișier gol.

De exemplu, Disney pare să nu un fișier robots.txt:

3) Vei primi un 404.

Metoda returnează un 404 pentru robots.txt:

Ia-o a doua și a vizualiza fișierul robots.txt propriul site.

Dacă găsiți un fișier gol sau un 404, veți dori să se stabilească acest lucru.

Dacă găsiți un fișier valid, este probabil setat la setările implicite care au fost create atunci când ați făcut site-ul.

Îmi place mai ales această metodă pentru căutarea la fișierele robots.txt altor site-uri. Odată ce ați afla intrarile si iesirile de robots.txt, acest lucru poate fi un exercițiu valoros.

Acum, să ne uităm la schimbarea de fapt fișierul robots.txt.

Găsirea fișierul robots.txt

Pașii următori sunt toate vor depinde de faptul dacă sunt sau nu aveți un fișier robots.txt. (Verificați dacă faci utilizând metoda descrisă mai sus.)

Dacă nu aveți un fișier robots.txt, va trebui să creați unul de la zero. Deschide un editor de text simplu cum ar fi Notepad (Windows) sau TextEdit (Mac).

Utilizați numai un editor de text simplu pentru acest lucru. Dacă utilizați programe cum ar fi Microsoft Word, programul poate insera cod adițional în text.

Editpad.org este o opțiune mare liberă, și asta e ceea ce veți mă vezi, folosind în acest articol.

Înapoi la robots.txt. Dacă aveți un fișier robots.txt, va trebui să-l localizați în directorul rădăcină al site-ului.

Dacă nu sunt utilizate pentru a scormonit în codul sursă, atunci ar putea fi un pic dificil de a localiza versiunea editabila fișierul robots.txt.

De obicei, puteți găsi directorul rădăcină accesând site-ul dvs. cont de găzduire, conectare și poziția la gestionarea fișier sau secțiunea FTP a site-ului.

Ar trebui să vedeți ceva care arata ca acest lucru:

Găsiți fișierul robots.txt și deschideți-l pentru editare. Ștergeți tot textul, dar păstrează fișierul.

Notă: Dacă utilizați WordPress, este posibil să vedeți un fișier robots.txt atunci când te duci la yoursite.com/robots.txt, dar nu va fi capabil să-l găsiți în fișierele.

Acest lucru se datorează faptului că WordPress creează un fișier robots.txt virtuală în cazul în care nu există nici un robots.txt în directorul rădăcină.

Dacă se întâmplă acest lucru, va trebui să creați un nou fișier robots.txt.

Crearea unui fișier robots.txt

Puteți crea un nou fișier robots.txt utilizând editorul de text simplu la alegere. (Amintiți-vă, folosiți doar un editor de text simplu.)

Dacă aveți deja un fișier robots.txt, asigurați-vă că ați șters textul (dar nu și fișierul).

În primul rând, va trebui să se familiarizeze cu unele dintre sintaxa utilizată într-un fișier robots.txt.

Google are o explicație bună a unor termeni robots.txt de bază:

Am de gând să-ți arăt cum să configurați un fișier robot.txt simplu, iar apoi vom arunca o privire la modul în care să-l personaliza pentru SEO.

Începeți prin stabilirea termenului user-agent. Vom seta astfel încât acesta se aplică tuturor roboți web.

Faceți acest lucru folosind un asterisc după termenul user-agent, cum ar fi acest lucru:

Apoi, de tip „Disallow:“ dar nu tastați nimic după aceea.

Din moment ce nu e nimic după Disallow, roboți web va fi direcționat să acceseze cu crawlere întregul site. Chiar acum, totul pe site-ul dvs. este un joc corect.

Până în prezent, fișierul robots.txt trebuie să arate astfel:

Știu că pare foarte simplu, dar aceste două linii fac deja foarte mult.

Puteți lega , de asemenea , sitemap XML , dar nu este necesar. Dacă doriți, iată ce să tastați:

Credeti sau nu, acest lucru este ceea ce un fișier robots.txt de bază arată.

Acum, să-l ia la nivelul următor și rândul său, acest mic fișier într-un rapel SEO.

Optimizarea robots.txt pentru SEO

Cum să optimizați robots.txt totul depinde de conținutul pe care îl aveți pe site. Există tot felul de moduri de a folosi robots.txt in avantajul tau.

Voi trece peste unele dintre cele mai comune modalități de a le folosi.

(Rețineți că ar trebui să nu utilizați robots.txt pentru a bloca paginile de la motoarele de căutare . E un mare nu-nu.)

Una dintre cele mai bune utilizări ale fișierului robots.txt este de a maximiza bugetele crawl ale motoarelor de căutare spunându-le să nu acceseze cu crawlere părți ale site-ului care nu sunt afișate pentru public.

De exemplu, dacă accesați fișierul robots.txt pentru site-ul (neilpatel.com), veți vedea că acesta nu permite pagina de conectare (wp-admin).

Din moment ce această pagină este doar folosită pentru autentificarea în backend a site-ului, aceasta nu ar avea sens pentru roboții motoarelor de căutare pentru a pierde timpul lor crawling-l.

(Dacă aveți WordPress, puteți utiliza aceeași linie disallow exactă.)

Puteți utiliza o directivă similară (sau comanda) pentru a împiedica roboții să acceseze cu crawlere anumite pagini. După Disallow, introduceți partea din URL-ul care vine după .com. Pune între două slash.

Deci , dacă doriți să - i spuneți un bot să nu indexăm pagina http://yoursite.com/page/ , puteți introduce acest lucru:

S-ar putea să vă întrebați în mod specific ce tipuri de pagini pentru a exclude de la indexare. Aici sunt câteva scenarii comune, în cazul în care s-ar întâmpla:

Conținut duplicat Intenționate. În timp ce conținutul duplicat este în mare parte un lucru rău, există o serie de cazuri în care este necesar și acceptabil.

De exemplu, dacă aveți o versiune printer friendly a unei pagini, aveți punct de vedere tehnic conținut duplicat. În acest caz, ai putea spune roboții nu să acceseze una dintre aceste versiuni (de obicei versiune gata de tipărire).

Acest lucru este, de asemenea, la îndemână, dacă sunteți split-testare pagini care au același conținut, dar diferite modele.

Vă mulțumim pagini. Vă mulțumim a vă pagină este una dintre paginile preferate în marketing , deoarece aceasta înseamnă un nou avantaj.

…Dreapta?

După cum se dovedește, unele vă mulțumesc pagini sunt accesibile prin intermediul Google . Asta înseamnă că oamenii pot accesa aceste pagini , fără a trece prin procesul de captare de plumb, și că este o veste proastă.

Prin blocarea vă mulțumesc dvs. de pagini, vă puteți asigura că numai clienți potențiali calificați sunt le văd.

Deci , să spunem mulțumesc dumneavoastră vă pagina este găsit la https://yoursite.com/thank-you/ . În fișierul robots.txt, blocând pagina ar arata astfel:

Deoarece nu există reguli universale pentru care pagini pentru a nu permite, fișierul robots.txt va fi unic pentru site-ul tau. Utilizați judecata aici.

Există alte două directive ar trebui să știți: NOINDEX și nofollow .

Știi că directiva Disallow le-am folosit? Ea nu împiedică, de fapt, pagina de a fi indexate.

Deci, teoretic, ai putea interziceți o pagină, dar s-ar putea încheia în continuare în index.

În general, nu vrei asta.

De aceea ai nevoie de directiva noindex. Acesta funcționează cu directiva Disallow pentru a vă asigura că roboții nu accesați sau index anumite pagini.

Dacă aveți orice pagini pe care nu doriți să fie indexate (cum ar fi cele prețioase pagini vă mulțumesc), puteți utiliza atât interziceți și Directiva noindex:

Acum, că pagina nu va apărea în SERPs.

În cele din urmă, există directiva nofollow. Aceasta este de fapt la fel ca un link nofollow . Pe scurt, ea spune roboți web nu să acceseze cu crawlere link - urile de pe o pagină.

Dar directiva nofollow va fi pus în aplicare un pic diferit, deoarece nu este de fapt o parte a fișierului robots.txt.

Cu toate acestea, directiva nofollow este încă în instruirea roboți web, așa că este același concept. Singura diferență este în cazul în care are loc.

Găsiți codul sursă al paginii pe care doriți să o modificați, și asigurați - vă că sunteți între <head> tag - uri .

 

Apoi inserați această linie:

<Meta name =“roboți“ content =“nofollow“>

Deci, trebuie să arate astfel:

 

Asigurați-vă că nu pune această linie între orice alte tag-uri - doar <head>.

Aceasta este o altă opțiune bună pentru tine mulțumesc pagini web, deoarece roboții nu vor accesa cu crawlere link-uri către orice magneți cu plumb sau alt conținut exclusiv.

Dacă doriți să adăugați atât NOINDEX și directivele nofollow, utilizați această linie de cod:

<Meta name =“roboți“ content =“noindex, nofollow“>

Acest lucru va da roboți web ambele directive la o dată.

Testarea totul

În cele din urmă, testați fișierul robots.txt pentru a face modul corect de operare valid și sigur totul.

Google oferă un tester de robots.txt gratuit, ca parte a instrumentelor pentru webmasteri.

În primul rând, conectați-vă la webmasteri contul dvs. făcând clic pe „Autentificare“ în colțul din dreapta sus.

 

Selectați proprietatea dvs. (de exemplu, site-ul web) și faceți clic pe „crawl de“ în bara laterală din stânga.

 

Vei vedea „Tester robots.txt“. Faceți clic pe asta.

 

Dacă există vreun cod în caseta deja, ștergeți-l și înlocuiți-l cu noul fișier robots.txt.

Faceți clic pe „Test“ din partea dreapta jos a ecranului.

 

În cazul în care „test“ modificări de text la „Permise“, ceea ce înseamnă că robots.txt este valid.

Iată câteva mai multe informații despre instrumentul astfel încât să puteți afla ce înseamnă totul în detaliu.

În cele din urmă, încărcați fișierul robots.txt în directorul rădăcină (sau salvați-l acolo, dacă ați avut deja unul). Acum sunteți înarmat cu un fișier puternic, și ar trebui să vedeți o creștere a vizibilității dvs. de căutare.

Concluzie

Îmi place întotdeauna schimbul de puțin cunoscute „hacks“ SEO care vă pot oferi un avantaj real în mai multe moduri.

Prin configurarea fișierul robots.txt mod corect, nu ești doar îmbunătățirea propriul SEO. De asemenea, te ajuta pe vizitatori.

În cazul în care roboții motoarelor de căutare pot cheltui bugetele lor crawl cu înțelepciune, se vor organiza și afișa conținutul în SERPs în cel mai bun mod, ceea ce înseamnă că vei fi mai vizibile.

De asemenea, nu ia o mulțime de efort pentru a configura fișierul robots.txt. Este cea mai mare parte o configurare o singură dată, și puteți face mici modificări în funcție de necesități.

Fie că sunteți incepand de prima sau a cincea site, folosind robots.txt poate face o diferență semnificativă. Vă recomandăm dându-i un spin, dacă nu ați făcut-o înainte.

The online HTML CheatSheet website shoult be the first bookmark of every web developer. It is the best one-page resource to generate the desired markup.

Tags: