Semalt: wat is Googlebot?



  1. Invoering
  2. Wat is Googlebot?
  3. Waarom zou men zich zorgen moeten maken over Googlebot?
  4. Waarom crawlt Googlebot niet alle pagina's op sommige sites?
  5. Hoe u uw site kunt optimaliseren om het budget van Googlebot te maximaliseren
  6. Conclusie

Invoering

Weet u hoe Google bronnen vindt voor uw zoekopdracht? Zoals algemeen wordt aangenomen, is Google geen betweterige geest die weet waar elke inhoud online over gaat. Het is niet een of andere paranormaal begaafde die weet waar het exacte antwoord op je vraag is.

Net als elke andere zoekmachine heeft het software die elke seconde door miljarden pagina's (en sites) kruipt om informatie te verzamelen; extraheer de waarde van de inhoud en het onderwerp. Zodat wanneer een zoekopdracht wordt uitgevoerd, het antwoord uit die pagina's wordt gehaald - een beetje zoals een bibliotheek.


Het klinkt veel als SEO, en dat komt omdat het er veel mee te maken heeft. Wanneer een site effectief is geoptimaliseerd, ziet Google de site snel, leest de pagina's door en laat deze zien wanneer gerelateerde zoekopdrachten worden uitgevoerd op de zoekmachine.

Maar dit gebeurt niet voor alle pagina's op een site, waardoor sommige pagina's onzichtbaar naar de wereld. Waarom gebeurt dit? En wat kan er tegen gedaan worden (vooral voor zeer belangrijke pagina's)? Hier is een gids met details over de websitecrawler van Google (Googlebot), waarom deze niet genoeg pagina's crawlt en hoe een website-eigenaar website-optimalisatie en SEO kan gebruiken om het crawlbudget van Googlebot te maximaliseren.

Wat is Googlebot?



Spin! kruiper! Dit zijn populaire namen die aan de Googlebot worden gegeven. Dit komt omdat het zo werkt. De software is gemaakt om door miljarden pagina's van websites te bladeren die voor het publiek zijn gepubliceerd.

Dat klopt - als een website privé blijft, kan Googlebot gewoon op geen enkele manier door zijn pagina's bladeren, herinnerend dat de spin niet paranormaal is. Het volgt eenvoudig paginalinks (van de ene pagina naar de andere) en gaat vervolgens verder met gegevensverwerking. Nadat dit is voltooid, wordt de informatie vervolgens gecompileerd in een index (gemakkelijk te onthouden als een Goggle-bibliotheek of winkel).

Door de aanwezigheid van deze software kan Google in minder dan een seconde informatie van meer dan een miljoen gigabyte (GB) verzamelen en verzamelen (oké - dat is pas magie). Vervolgens haalt Google uit deze regelmatig bijgewerkte index bronnen voor elke online zoekopdracht, zowel op een desktop als op een mobiel apparaat.

Waarom zou men ooit kennis moeten maken met Googlebot?

Het crawlen van Googlebots heeft veel te maken met de SEO van een website (zoekmachineoptimalisatie). De hele essentie van de spider is om informatie van de pagina's van een site te verzamelen, zodat wanneer zoekopdrachten worden uitgevoerd op gerelateerde onderwerpen, deze de pagina kan weergeven als een van de online zoekresultaten. Daarom, wanneer Googlebot constant de meeste pagina's van een site crawlt, zal er een verhoogde zichtbaarheid zijn, wat leidt tot meer siteverkeer op een dergelijke pagina (wat een van de doelen is toch?).

Gebruik deze illustratie:

X heeft een website met een pagina over het onderwerp: professionele SEO voor websites. En Y zoekt naar website-SEO. Als Googlebot de SEO-pagina van X heeft doorzocht en deze heeft geïndexeerd, zou dit een van de resultaten zijn die in de zoekresultaten van Google verschijnen. En hetzelfde zou gebeuren voor andere gerelateerde zoekopdrachten die worden uitgevoerd, zelfs als dit honderd keer per dag over de hele wereld gebeurt.

Merk op dat er andere factoren zijn die dit onderstrepen, zoals een goede websitestructuur, herkenbare, snelle laadtijden van de site. Maar alleen een SEO-expert kan ervoor zorgen dat deze correct worden uitgevoerd en dat de pagina van een site wordt weergegeven op de eerste pagina met zoekresultaten van Google.


Waarom crawlt Googlebot niet alle pagina's op sommige sites?

Tijdens een van Google's SEO-kantooruren-hangouts werd een vraag gesteld waarom Googlebot op sommige sites niet genoeg pagina's crawlde. Er zijn meer dan honderden miljard pagina's openbaar gepubliceerd op de webserver. Mensen publiceren elke dag een nieuwe pagina op de server, wat betekent dat Googlebot meer pagina's kan indexeren. Soms werkt de bot echter niet naar verwachting; dat is; in minder dan een seconde meer dan een miljoen GB aan informatie verzamelen. Er zijn verschillende redenen waarom dit kan gebeuren.

Ten eerste kan het zijn dat er te veel inhoud, pagina's en websites online zijn om te indexeren. En sommige zijn van lage kwaliteit, andere hebben een lage laadsnelheid van de site en de rest heeft mogelijk irrelevante inhoud met een gecompliceerde sitestructuur (of iets anders dat een goede gebruikerservaring in de weg staat). Dit is de reden waarom Google een strategie heeft ontwikkeld om alleen webpagina's van hoge kwaliteit te indexeren en pagina's van lagere kwaliteit uit te sluiten. Op deze manier kunnen de pagina's worden gefilterd en verkleind (in plaats van alle pagina's online te indexeren - zowel waardevolle als niet-waardevolle pagina's).

Maar het bovenstaande geeft geen volledig antwoord op de vraag: Waarom crawlt Googlebot niet alle sites? De interessante vraag is waarom Googlebot niet alle pagina's (of voldoende pagina's) op een site crawlt. En daar zijn twee antwoorden op. Het lange antwoord en het korte antwoord:

Het korte antwoord

Google hecht een bepaalde hoeveelheid middelen en tijd aan het crawlen van elke site per dag. Dit wordt het crawlbudget van een site genoemd. Daarom doet de bot zijn werk van crawlen en indexeren binnen dit budget. En dus zouden voor een website met meer dan tienduizend pagina's niet alle pagina's worden geïndexeerd.

Er is echter meer aan de hand, wat ons bij het lange antwoord brengt:

Het lange antwoord


Het crawlbudget bepaalt het aantal pagina's dat de Googlebot elke dag per site kan crawlen en indexeren. Maar zoals eerder vermeld, er is veel meer aan de hand. Sommige factoren bepalen het tempo van de spider tijdens het crawlen van elke site binnen het crawlbudget. Zin? Het betekent dat hoewel het budget een limiet heeft gecreëerd, sommige factoren het tempo van de bot kunnen versnellen of vertragen. Ze bevatten:
  1. Trage server: Als de responstijd voor een server aanzienlijk traag is, kan dit de snelheid wijzigen waarmee de bot door elke pagina kruipt binnen het crawlbudget. Website-eigenaren kunnen deze controleren in hun rapport met crawlstatistieken. Het wordt aangeraden dat alles boven 300 milliseconden geen goede responstijd is.
  2. Host van de websiteserver: Als een website op een gedeelde server wordt gehost, kan dit de snelheid vertragen waarmee elke pagina tijdens het crawlen aan Google wordt aangeboden. Dit komt omdat andere sites op dezelfde server deze mogelijk vertragen door grote bronnen te gebruiken. Het is nog erger wanneer dezelfde server veel sites host.
  3. Rougebots: Dit zijn andere bots die de acties van Googlebot in de weg kunnen staan, blokkeren of vertragen. Ze kunnen in verschillende vormen voorkomen en soms heeft een website professionele hulp nodig om de acties van deze bots te beheren en te controleren.
  4. De crawlbaarheid van de website: Dit is de hoeveelheid toegang die een crawler heeft tot alle pagina's van een website. Wanneer de software gemakkelijk toegang heeft tot de inhoud van een site, zouden veel pagina's worden gecrawld en geïndexeerd binnen het crawlbudget.

Hoe u uw site kunt optimaliseren om het budget van Googlebot te maximaliseren


In het vorige gedeelte hebben we de factoren besproken die bepalen hoe snel (of hoe langzaam) Googlebot een pagina crawlt. Maar er is meer dan een persoon kan doen om het aantal pagina's dat de bot binnen het budget crawlt, te maximaliseren. In het kort, hier zijn een paar dingen die een website-eigenaar kan doen om het aantal pagina's dat Googlebot crawlt en indexeert binnen het crawlbudget per dag te maximaliseren.
  1. Ontwikkel een sitemap: Dit is een van de dingen die gedaan kunnen worden om Googlebot te helpen sneller door een site te crawlen. Een sitemap kan worden geïnstalleerd, gegenereerd op basis van een sitemapgenerator of helemaal opnieuw worden gemaakt.
  2. Investeer in site-organisatie: Dit heeft te maken met hoe een website is gestructureerd en de categorisering van pagina's binnen een site. Wanneer een site zo is gestructureerd dat bezoekers het gemakkelijk kunnen begrijpen en er gemakkelijk doorheen kunnen navigeren, is de kans groot dat Googlebot het gemakkelijk zal vinden om er doorheen te kruipen.
  3. Website optimalisatie: Dit vat alle bovengenoemde punten samen. Wanneer een website constant (op de juiste manier) wordt geoptimaliseerd, wordt de interface van de website correct gestructureerd en wordt er een sitemap gemaakt. Andere zaken zijn onder meer controle over factoren die het crawlen blokkeren (zoals robots.txt), titeloptimalisatie, leesbaarheid van inhoud, de waarde van inhoud en nog veel meer. Door een website goed te optimaliseren, kan Googlebot sneller door de pagina's van een dergelijke site bladeren.

Conclusie

Googlebot kan worden gezien als een kleine internetrobot die voor Google werkt. Het gaat rond met het ontvangen van pagina's van de webserver via links naar websites. Vervolgens doorzoekt het elke pagina en voegt het toe aan de verzameling geïndexeerde informatie. Door verschillende factoren en variabelen kan de bot echter niet door alle pagina's van elke site kruipen (soms is het zelfs niet genoeg). En van alle genoemde factoren en oplossingen, is de eenvoudigste oplossing het inhuren van een professioneel bedrijf zoals Semalt die alles kan wat nodig is op de juiste manier en op het juiste moment om ervoor te zorgen dat belangrijke pagina's op uw website worden gecrawld en geïndexeerd - zo niet alle pagina's.

send email