Bazı hosting sunucuları üzerinde FTP ana dizinlerde değişen dört farklı klasör bulunmaktadır.
Bu klasörleri tek tek isimlendirmek gerekirse şu şekildedir;
- public_html
- httpdocs
- www
- root
Bu üst kısımda yer alan klasör isimleri FTP üzerinden connection bağlantısı kurmuş olduğunuz belirli account(site/hesapları)na ait olan sitelerin ana dizinleri olarak adlandırılmaktadır.
Robots olarak adlandırılan metin belgesine sahip olmak zorundadır. Bu metin belgesinin uzantısı tamamen
txt olarak adlandırılmaktadır. Bir tane örnek bir
robots.txt dosyası görünümü ek'de sunuyorum.
User-agent: Google Botu’nun adı gelecek
Disallow: Botun izinlerini gireceğimiz komutlar yer alacak
Örnek 1:
User-agent: *
Disallow
Kodlarımızı yorumlayalım. 1. satırdaki kodumuz da bakınız Google Botları’nın isimleri gelecekti fakat “*” işaretini gördünüz. Bunun anlamı, siteniz tüm Google Botları’nca istisnasız indexlenmesine izin vermişsiniz demektir.
Örnek 2:
User-agent: *
Disallow: /
Gördüğünüz gibi birinci satırdaki user-agent kodumuzun anlamı tüm Google Botları’na sitenizi indexlemesi için izin verilmesiydi. Fakat ikinci satırda “/” böyle bir karakter görüyorsunuz. Bu karakterin anlamı site üzerinde tüm dosyaların taranmaması isteniyor.
Yani bu Robots.txt kod bütününden de anlayacağımız şey, bütün Google Botları’nca sitemizin hiçbir dosyası indexlenmeyecek, taranmayacak.
Örnek 2:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/
Bütün google botları, bu 4 dosyayı indexlemeyecektir.
Örnek 3:
User-agent: DeepCrawl
Disallow: /private/
DeepCrawl, bir google botudur. Görevi ise; sitenizi uzun aralıklarla ziyaret edip, indexlenmesi için gerekli bilgileri toplar. Bu kodların anlamı ise, ismi verilen botun ilgili private klasörünü indexlememeli.
Örnek 4:
User-agent: *
Disallow: /directory/dosya.html
Tüm botlar, ilgili dosyayı indexlemeyecektir. Ama directory dizinindeki dosya.html hariç diğer tüm dosyaları tarar ve indexler.
Örnek 5:
User-agent: *
Allow: /dosya1/site.html
Disallow: /dosya1/
Bu kodların anlamı ise, tüm Google Botları dosya dizininde bulunan site.html dosyası hariç diğer tüm dosyaları taramaz ve indexlemeyecektir.
Şayet ki sitenizin alt yapısı Wordpress ise hazır olarak size sunabileceğim txt metin belgeleri şu şekildedir;
User-agent: Googlebot
Disallow: /wp-content/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /archives/
Disallow: /index.php
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.css$
Disallow: */feed/
Disallow: */trackback/
User-agent: Googlebot-Image
Disallow: /wp-includes/
User-agent: ia_archiver
Disallow: /
User-agent: duggmirror
Disallow: /
Sitenizde kullanılmak üzere hazırlanan robots.txt metin belgeleri içerisinde mutlaka sitemap.xml yer verilmelidir. Bazı arkadaşlar (spam) yapar gibi aşırı derecede robots metin belgelerine kodlar ekleyerek sadece göz boyaması yapmaktadır. Bu gibi uygulamalara gerek ve lüzum yoktur. Kısa ve öz olması her zaman için en ideal seçimdir.