robots.txt dosyası, arama motoru tarayıcılarının sitenizde erişmesini istemediğiniz yerleri gösteren ve sitenizin kök dizininde bulunan bir dosyadır. Dosya, küçük bir komut setine sahip bir protokol olan Robotları Engelleme Standardı'nı kullanır. Bu komutlar, sitenize erişimi bölüm bazında ve belirli web tarayıcısı türüne göre (örneğin mobil tarayıcılar ve masaüstü tarayıcılar gibi) göstermek için kullanılabilir.

Kaynak : https://support.google.com/webmasters/answer/6062608?hl=tr



User-agent: Google Botu’nun adı gelecek
Disallow: Botun izinlerini gireceğimiz komutlar yer alacak

Örnek 1:
User-agent: *
Allow: /


Kodlarımızı yorumlayalım. 1. satırdaki kodumuz da bakınız Google Botları’nın isimleri gelecekti fakat “*” işaretini gördünüz. Bunun anlamı, siteniz tüm Google Botları’nca istisnasız indexlenmesine izin vermişsiniz demektir.

Örnek 2:
User-agent: *
Disallow: /


Gördüğünüz gibi birinci satırdaki user-agent kodumuzun anlamı tüm Google Botları’na sitenizi indexlemesi için izin verilmesiydi. Fakat ikinci satırda “/” böyle bir karakter görüyorsunuz. Bu karakterin anlamı site üzerinde tüm dosyaların taranmaması isteniyor.

Yani bu Robots.txt kod bütününden de anlayacağımız şey, bütün Google Botları’nca sitemizin hiçbir dosyası indexlenmeyecek, taranmayacak.

Örnek 2:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/


Bütün google botları, bu 4 dosyayı indexlemeyecektir.

Örnek 3:
User-agent: DeepCrawl
Disallow: /private/


DeepCrawl, bir google botudur. Görevi ise; sitenizi uzun aralıklarla ziyaret edip, indexlenmesi için gerekli bilgileri toplar. Bu kodların anlamı ise, ismi verilen botun ilgili private klasörünü indexlememeli.

Örnek 4:
User-agent: *
Disallow: /directory/dosya.html


Kaynak : http://www.seohocasi.com/robots-txt-yapimi/