Sevgili arkadaşlar,
Yandex Destek Ekibi'ni temsil ediyorum ve Yandex'in çalışması hakkında herhangi bir sorunuz var mı öğrenmek isterim. Eğer ilginizi çekiyorsa, arama sisteminin belirli kısımlarının nasıl çalıştığına dair kısa anlatımlar yapabiliriz. Örnek olarak bugün indeksleme sürecinin nasıl işlediğini anlatmak isteriz.
Herhangi bir internet kaynağındaki sayfaların arama sonuçlarında çıkması için öncelikle bu sayfalar, birtakım özel robotlarca indekslenmelidir. Sayfaların indekslenme süreci temel olarak her arama sistemi için aynıdır ve birkaç aşamadan oluşmaktadır:
Öncelikle robot, sayfaların varlığında haberdar olmalıdır. Genellikle robotlar, internette farklı sayfaları ziyaret edip ilgili bilgileri veritabanına ekleyerek sitelerin sayfa adreslerini otomatik olarak öğrenirler; ancak robotun sayfaya ulaşabileceği bağlantılar yoksa bu işlem gerçekleşmeyebilir (genellikle bu durum yeni siteler için söz konusudur). Bu gibi durumlarda Yandex robotuna yeni site bildirimi, "Yeni site bildir" (http://webmaster.yandex.com.tr/addurl.xml ) aracı ile yapılabilir. Yeni sayfa bildirimi ise sitemap ( http://help.yandex.com.tr/webmaster/indexing-options/sitemap.xml ) dosyası kullanılarak yapılabilir.
Yeni sayfa bağlantısını öğrendikten sonra, robotumuz çeşitli görünümler altında sayfa içeriğini indekslemek için sunucuya gitmektedir. Örneğin, ana robot görünümü, Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots) şeklindedir. Diğer robotlarımız hakkında ayrıntılı bilgileri yardım sayfamızda bulabilirsiniz: http://yardim.yandex.com.tr/webmaster/robot-workings/check-yandex-robots.xml . "Sunucu yanıtı denetimi" aracı ile sunucunuzun robotumuza ne ilettiğini bu adresten görebilirsiniz: http://webmaster.yandex.com.tr/server-response.xml
Bazen, örneğin, yeni bir site ya da bölüm oluşturulduğunda, robotumuz sunucuya olduğundan daha fazla bir yük bindirip siteye oldukça sık uğrayabilir.
Bu gibi durumlarda, robot tarafından gelen sorguları robots.txt dosyasında "Crawl-delay" direktifi ile azaltabilirsiniz. Bu direktif ile botumuzun sitenize uğrama aralıklarını saniye ile belirleyiniz. Mesela, "Crawl-delay: 20" direktifi, bir sayfanın sorgusu ile farklı bir sayfanın sorgusunun başlaması arasında 20 saniyelik aralık belirler.
İkinci aşama hatasız bir şekilde gerçekleştiyse sayfanın arama sonuçlarında yer alması, veritabanının yenilenmelerinden sonra olmaktadır (veritabanı, genellikle haftada 1-2 defa yenilenmektedir). Sitenin yeni bir sayfasının indekslenmesi 2 hafta içinde olmaktadır ancak popüler ve haber kaynaklarının indekslenmesi ve aramada yenilenmesi daha hızlı olabilmektedir.
Yandex'in arama robotunun ve indeksleme işleminin yönetimi için çeşitli araçlar kullanılabilir;
1. Robots.txt dosyası: Robotumuz, herkesçe bilinen parametreleri desteklediği gibi (User-agent, Allow, Disallow), bazı spesifik kuralları da desteklemektedir (daha önce belirttiğimiz Crawl-delay gibi). Robotumuzun kabul ettiği tüm kuralları öğrenmek için yardım sayfamızı inceleyebilirsiniz:
http://yardim.yandex.com.tr/webmaster/controlling-robot/robots-txt.xml . robots.txt dosyasının hazırlanmasının kolaylaştırılması için ise dosya kontrol aracını kullanabilirsiniz: http://webmaster.yandex.com.tr/robots.xml . Bu araçta yönergeleri düzenleyebilir ve indekslemek istediğiniz sayfaların indeksine izin verip vermediğinizi kontrol edebilirsiniz.
2. noindex, nofollow ve canonical gibi HTML tagleri (ayrıntı için http://help.yandex.com.tr/webmaster/controlling-robot/html.xml ).
3. Daha öncesinde bahsedilen sitemap dosyası ( http://help.yandex.com.tr/webmaster/indexing-options/sitemap.xml )
Sitenin indekslenesi ile ilgili ayrıca işe yarar diğer araçlar hakkında bilgileri Yandex.Webmaster servisimizi kullanarak görebilirsiniz (http://webmaster.yandex.com.tr/ ). Site haklarını onayladıktan sonra şunları görebilirsiniz;
Arama sonuçlarında sayfalarınızın gösterilmesi ile ilgili verileri inceleyebilirsiniz.
a. Sitenizin coğrafi ve demografik haritasını oluşturabilirsiniz.
b. Arama sonuçlarındaki gösterim değişimini inceleyebilirsiniz.
c. Herhangi bir sayfanın arama sonuçlarında olmamasının sebebini görebilirsiniz.