Vad är filen Robots.txt i en domän?
Detta är farligt. En dåligt konfigurerad robots.txt-fil kan faktiskt förstöra din webbplatss SEO-hälsa och skada alla chanser du kan ha för att öka din trafik.
Vad är Robots.txt-filen?
De robots.txt filen är lämpligt namngiven eftersom det i grund och botten är en fil som listar direktiv för webrobotarna (som sökrobotar) om hur och vad de kan krypa på din webbplats. Detta har varit en webbstandard följt av webbplatser sedan 1994 och alla större webrobotare följer standarden.
Filen lagras i textformat (med en .txt-förlängning) i rotmappen på din webbplats. Faktum är att du kan se vilken webbplats som helst robot.txt-fil bara genom att skriva domänen följt av /robots.txt. Om du försöker detta med groovyPost ser du ett exempel på en välstrukturerad robot.txt-fil.
Filen är enkel men effektiv. Det här exemplet fil skiljer inte mellan robotar. Kommandon utfärdas till alla robotar genom att använda Användaragent: * direktiv. Det betyder att alla kommandon som följer den gäller alla robotar som besöker webbplatsen för att krypa den.
Ange webbrobotare
Du kan också ange specifika regler för specifika webbrobotare. Du kan till exempel tillåta Googlebot (Googles webbrobotare) att genomsöka alla artiklar på din webbplats, men du kanske vill tillåta att den ryska webbroboten Yandex Bot från krypande artiklar på din webbplats som har nedsatt information om Ryssland.
Det finns hundratals webbrobotar som skur på internet för information om webbplatser, men de 10 vanligaste som du borde vara oroade över är listade här.
- Googlebot: Google sökmotor
- Bingbot: Microsofts Bing-sökmotor
- Sörpla: Yahoo sökmotor
- DuckDuckBot: DuckDuckGo sökmotor
- Baiduspider: Kinesisk Baidu sökmotor
- YandexBot: Ryska Yandex sökmotor
- Exabot: Fransk Exalead sökmotor
- Facebot: Facebooks sökrobot
- ia_archiver: Alexas sökrobot för webbrankning
- MJ12bot: Stor länkindexeringsdatabas
Om du vill tillåta Googlebot att indexera allt på din webbplats, om du vill blockera Yandex från indexering av ditt ryskbaserade artikelinnehåll, lägger du till följande rad i din robots.txt-fil.
Användaragent: googlebot
Tillåt: Tillåt: / wp-admin /
Tillåt: /wp-login.php
Användaragent: yandexbot
Tillåt: Tillåt: / wp-admin /
Tillåt: /wp-login.php
Tillåta: / Ryssland /
Som du kan se, blockerar den första sektionen bara Google från att krypa din WordPress inloggningssida och administrativa sidor. Den andra sektionen blockerar Yandex från samma, men också från hela området på din webbplats där du har publicerat artiklar med anti-ryssland innehåll.
Detta är ett enkelt exempel på hur du kan använda Inte godkänna kommandot att styra specifika webbrobotare som besöker din webbplats.
Andra kommandon Robots.txt
Disallow är inte det enda kommandot du har tillgång till i din robots.txt-fil. Du kan också använda någon av de andra kommandon som styr hur en robot kan krypa på din webbplats.
- Inte godkänna: Beräknar användaragenten för att undvika att krypa specifika webbadresser eller hela sektioner på din webbplats.
- Tillåta: Gör att du kan finjustera specifika sidor eller undermappar på din webbplats, även om du kanske har tillåtit en föräldramapp. Till exempel kan du avvisa: / om /, men tillåter sedan: / about / ryan /.
- Crawl-fördröjning: Detta berättar att sökroboten väntar xx antal sekunder innan du börjar krypa webbplatsens innehåll.
- sitemap: Ge sökmotorer (Google, Ask, Bing och Yahoo) platsen för dina XML-webbplatskartor.
Tänk på att bots kommer endast lyssna på de kommandon du har angett när du anger botens namn.
Ett vanligt misstag som människor gör är att tillåta områden som / wp-admin / från alla robotar, men ange sedan en googlebot-sektion och endast tillåta andra områden (som / om /).
Eftersom bots bara följer de kommandon du anger i sin sektion måste du omställa alla andra kommandon som du har angett för alla bots (med * användaragenten).
- Inte godkänna: Kommandot brukade berätta för en användaragent att inte krypa igenom en särskild URL. Endast en "Tillåt:" -linje är tillåten för varje webbadress.
- Tillåt (gäller endast för Googlebot): Kommandot att berätta för Googlebot det kan komma åt en sida eller en undermapp trots att dess föräldersida eller undermapp kan vara inkallad.
- Crawl-fördröjning: Hur många sekunder en sökrobot ska vänta innan du laddar och kryper sidinnehåll. Observera att Googlebot inte erkänner det här kommandot, men genomsökningsfrekvensen kan ställas in i Google Search Console.
- sitemap: Används för att räkna ut platsen för en XML-sitemap (er) som är associerad med den här webbadressen. Observera att det här kommandot endast stöds av Google, Ask, Bing och Yahoo.
Tänk på att robots.txt är tänkt att hjälpa till med legitima robotar (som sökrobotar) krypterar din webbplats mer effektivt.
Det finns många skrämmande sökrobotar där ute som kryper på din webbplats för att göra saker som skrapa e-postadresser eller stjäla ditt innehåll. Om du vill försöka använda din robots.txt-fil för att blockera dessa sökrobotar från att krypa allt på din webbplats, stör inte. Skaparna av dessa sökrobotar ignorerar vanligtvis allt du har lagt i din robots.txt-fil.
Varför inte tillåta något?
Att få Googles sökmotor att krypa så mycket kvalitetsinnehåll på din webbplats som möjligt är ett primärt bekymmer för de flesta webbplatsägare.
Google spenderar dock bara en begränsad kryp budget och krypningsgrad på enskilda platser. Genomsökningsgraden är hur många förfrågningar per sekund som Googlebot kommer att göra till din webbplats under krypningsevenemanget.
Viktigare är genomsökningsbudgeten, vilket är hur många totala förfrågningar Googlebot kommer att göra för att genomsöka din webbplats i en session. Google "tillbringar" sin granskningsbudget genom att fokusera på områden på din webbplats som är mycket populära eller har förändrats nyligen.
Du är inte blind för denna information. Om du besöker Googles verktyg för webbansvariga kan du se hur sökroboten hanterar din webbplats.
Som du kan se, håller sökroboten sin aktivitet på din webbplats ganska konstant varje dag. Det kryper inte igenom alla webbplatser, men endast de som anses vara den viktigaste.
Varför lämna upp till Googlebot för att bestämma vad som är viktigt på din webbplats, när du kan använda din robots.txt-fil för att berätta vad de viktigaste sidorna är? Detta förhindrar att Googlebot slösar bort tid på sidor med lågt värde på din webbplats.
Optimera din genomsökningsbudget
Med Googles verktyg för webbansvariga kan du också kontrollera om Googlebot läser din robots.txt-fil och om det finns några fel.
Det här hjälper dig att verifiera att du har strukturerat din robots.txt-fil korrekt.
Vilka sidor ska du avstå från Googlebot? Det är bra för din webbplats SEO att inte tillåta följande sidkategorier.
- Kopiera sidor (som skrivarvänliga sidor)
- Tack sidor efter formulärbaserade order
- Beställningsformulär eller informationsformulär
- Kontakt sidor
- Inloggningssidor
- Lead magnet "försäljning" sidor
Ignorera inte din Robots.txt-fil
Det största misstaget som nya webbplatsägare gör är aldrig ens att titta på deras robots.txt-fil. Den värsta situationen kan vara att robots.txt-filen faktiskt blockerar din webbplats, eller områden på din webbplats, från att bli genomsökad alls.
Se till att du granskar din robots.txt-fil och se till att den är optimerad. På detta sätt ser Google och andra viktiga sökmotorer "alla" fantastiska saker som du erbjuder världen med din webbplats.