lostyazilim

Hangi robots.txt dosyasını kullanıyorsunuz ?

5 Mesajlar 749 Okunma
lstbozum
wmaraci reklam

berkakalinn berkakalinn WM Aracı Kullanıcı
  • Üyelik 04.04.2015
  • Yaş/Cinsiyet 28 / E
  • Meslek -
  • Konum Afyon
  • Ad Soyad B** A**
  • Mesajlar 1723
  • Beğeniler 159 / 334
  • Ticaret 39, (%97)
Merhaba, hangi robots.txt dosyasını kullanıyorsunuz ? İnternette bir çok yerde arıyorum fakat hep farklı sonuçlar ile karşılaşıyorum. Benim kullandığım ;


Sitemap: http://

User-agent: Googlebot

Disallow: /wp-content/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /feed/
Disallow: /archives/
Disallow: /index.php
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.css$
Disallow: */feed/
Disallow: */trackback/

User-agent: Googlebot-Image
Disallow: /wp-includes/

User-agent: ia_archiver
Disallow: /

User-agent: duggmirror
Disallow: /
 

 

wmaraci
reklam

Heuristic Heuristic Üyeliği Durdurulmuş Banlı Kullanıcı
  • Üyelik 04.07.2014
  • Yaş/Cinsiyet 40 / E
  • Meslek Web Hacking, Exploits/Vuln.
  • Konum Ankara
  • Ad Soyad A** K**
  • Mesajlar 4777
  • Beğeniler 1139 / 2068
  • Ticaret 297, (%99)
Buna pek gerek yok aslında WordPress sistem de sadece wp-admin gizleyerek, sitemapı eklemek yeterlidir.

User-agent: *
Disallow: /wp-admin/
Sitemap : http://www.siteadi.com/sitemap.xml
 

 

berkakalinn berkakalinn WM Aracı Kullanıcı
  • Üyelik 04.04.2015
  • Yaş/Cinsiyet 28 / E
  • Meslek -
  • Konum Afyon
  • Ad Soyad B** A**
  • Mesajlar 1723
  • Beğeniler 159 / 334
  • Ticaret 39, (%97)

Heuristic adlı üyeden alıntı

Buna pek gerek yok aslında WordPress sistem de sadece wp-admin gizleyerek, sitemapı eklemek yeterlidir.


Bir çok blog farklı kodlamalar ve botlar için çeşitli komutlar kullanıyor onlar ne gibi bir farkındalık yaratıyor ?
 

 

Heuristic Heuristic Üyeliği Durdurulmuş Banlı Kullanıcı
  • Üyelik 04.07.2014
  • Yaş/Cinsiyet 40 / E
  • Meslek Web Hacking, Exploits/Vuln.
  • Konum Ankara
  • Ad Soyad A** K**
  • Mesajlar 4777
  • Beğeniler 1139 / 2068
  • Ticaret 297, (%99)
robots.txt dosyası, arama motoru tarayıcılarının sitenizde erişmesini istemediğiniz yerleri gösteren ve sitenizin kök dizininde bulunan bir dosyadır. Dosya, küçük bir komut setine sahip bir protokol olan Robotları Engelleme Standardı'nı kullanır. Bu komutlar, sitenize erişimi bölüm bazında ve belirli web tarayıcısı türüne göre (örneğin mobil tarayıcılar ve masaüstü tarayıcılar gibi) göstermek için kullanılabilir.

Kaynak : https://support.google.com/webmasters/answer/6062608?hl=tr



User-agent: Google Botu’nun adı gelecek
Disallow: Botun izinlerini gireceğimiz komutlar yer alacak

Örnek 1:
User-agent: *
Allow: /


Kodlarımızı yorumlayalım. 1. satırdaki kodumuz da bakınız Google Botları’nın isimleri gelecekti fakat “*” işaretini gördünüz. Bunun anlamı, siteniz tüm Google Botları’nca istisnasız indexlenmesine izin vermişsiniz demektir.

Örnek 2:
User-agent: *
Disallow: /


Gördüğünüz gibi birinci satırdaki user-agent kodumuzun anlamı tüm Google Botları’na sitenizi indexlemesi için izin verilmesiydi. Fakat ikinci satırda “/” böyle bir karakter görüyorsunuz. Bu karakterin anlamı site üzerinde tüm dosyaların taranmaması isteniyor.

Yani bu Robots.txt kod bütününden de anlayacağımız şey, bütün Google Botları’nca sitemizin hiçbir dosyası indexlenmeyecek, taranmayacak.

Örnek 2:
User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/


Bütün google botları, bu 4 dosyayı indexlemeyecektir.

Örnek 3:
User-agent: DeepCrawl
Disallow: /private/


DeepCrawl, bir google botudur. Görevi ise; sitenizi uzun aralıklarla ziyaret edip, indexlenmesi için gerekli bilgileri toplar. Bu kodların anlamı ise, ismi verilen botun ilgili private klasörünü indexlememeli.

Örnek 4:
User-agent: *
Disallow: /directory/dosya.html


Kaynak : http://www.seohocasi.com/robots-txt-yapimi/
berkakalinn

kişi bu mesajı beğendi.

wmaraci
wmaraci

berkakalinn berkakalinn WM Aracı Kullanıcı
  • Üyelik 04.04.2015
  • Yaş/Cinsiyet 28 / E
  • Meslek -
  • Konum Afyon
  • Ad Soyad B** A**
  • Mesajlar 1723
  • Beğeniler 159 / 334
  • Ticaret 39, (%97)

Heuristic adlı üyeden alıntı

robots.txt dosyası, arama motoru tarayıcılarının sitenizde erişmesini istemediğiniz yerleri gösteren ve sitenizin kök dizininde bulunan bir dosyadır. Dosya, küçük bir komut setine sahip bir protokol olan Robotları Engelleme Standardı'nı kullanır. Bu komutlar, sitenize erişimi bölüm bazında ve belirli web tarayıcısı türüne göre (örneğin mobil tarayıcılar ve masaüstü tarayıcılar gibi) göstermek için kullanılabilir.

Kaynak : https://support.google.com/webmasters/answer/6062608?hl=tr



User-agent: Google Botu’nun adı gelecek
Disallow: Botun izinlerini gireceğimiz komutlar yer alacak



Kodlarımızı yorumlayalım. 1. satırdaki kodumuz da bakınız Google Botları’nın isimleri gelecekti fakat “*” işaretini gördünüz. Bunun anlamı, siteniz tüm Google Botları’nca istisnasız indexlenmesine izin vermişsiniz demektir.



Gördüğünüz gibi birinci satırdaki user-agent kodumuzun anlamı tüm Google Botları’na sitenizi indexlemesi için izin verilmesiydi. Fakat ikinci satırda “/” böyle bir karakter görüyorsunuz. Bu karakterin anlamı site üzerinde tüm dosyaların taranmaması isteniyor.

Yani bu Robots.txt kod bütününden de anlayacağımız şey, bütün Google Botları’nca sitemizin hiçbir dosyası indexlenmeyecek, taranmayacak.



Bütün google botları, bu 4 dosyayı indexlemeyecektir.



DeepCrawl, bir google botudur. Görevi ise; sitenizi uzun aralıklarla ziyaret edip, indexlenmesi için gerekli bilgileri toplar. Bu kodların anlamı ise, ismi verilen botun ilgili private klasörünü indexlememeli.



Kaynak : http://www.seohocasi.com/robots-txt-yapimi/


Anladım teşekkürler..
 

 

wmaraci
Konuyu toplam 1 kişi okuyor. (0 kullanıcı ve 1 misafir)
Site Ayarları
  • Tema Seçeneği
  • Site Sesleri
  • Bildirimler
  • Özel Mesaj Al