Robots.txt dosyası, web sunucunuza yerleştirilen ve Googlebot’un hangi dosyaya erişip erişemeyeceğini tanıtan basit bir metin dosyasıdır.
Neden Robots.txt Hakkında Bilgi Edinmeliyim?
Robot.txt dosyası hakkında bilgi sahibi olmalısınız çünkü;
• Robots.txt dosyasının yanlış kullanımı, sıralamanıza zarar verebilir.
• Robots.txt dosyası, arama motoru örümceklerinin web sayfalarınızı görme ve etkileşimde bulunma şeklini yönetir.
• Googlebot gibi bir arama motoru örümceğinin sayfaya veya dosyaya erişim izninin olup olmadığını öğrenmek için bir sayfayı ziyaret ettiğinde baktığı ilk şey robots.txt dosyasıdır. Robots.txt dosyası girilebileceğini söylüyorsa, arama motoru örümceği sayfa dosyalarına devam eder.
İpucu: robots.txt dosyanızın Google tarafından kullanılan önemli dosyaları engelleyip engellemediklerini görmek için Google yönergeleri aracını kullanın.
Web siteniz için öncelikler
Robots.txt dosyası söz konusu olduğunda yapması gereken üç önemli şey vardır;
• Robots.txt dosyasına sahip olup olmadığınızı belirleyin.
• Varsa, sıralamanıza zarar vermediğinden ya da engellenmesini istemediğiniz içeriğinizi engellemediğinden emin olun.
• Robots.txt dosyasına ihtiyacınız olup olmadığını belirleyin.
Robots.txt dosyasına sahip olup olmadığınızı görmek
Web sitesi URL’nizin sonuna “/robots.txt” eklemeniz yeterlidir.
Örneğin: www.optimisthub.com/robots.txt
Orada bir dosyanız varsa, o robots.txt dosyanızdır. İçinde kelimeler olan bir dosya veya içinde kelimeler olmayan boş bir dosya bulacaksınız ya da hiç bir dosya bulamayacaksınız.
Robots.txt dosyanızın önemli dosyaları engelliyor olup olmadığını kontrol etmeniz gerekmektedir.
Google'ın sayfalarınızı anlaması sağlayan belirli sayfa kaynaklarını engellediğinizde sizi uyaracak “Google yönergeleri aracını” kullanabilirsiniz.
Robots.txt dosyasına gerçekten ihtiyacınız var mı?
Sitenizde bir robots.txt dosyası olması gerekmeyebilir. Aslında genellikle ihtiyaç duyulmamaktadır.
Bunun yanı sıra;
• Arama motorlarından engellenmesini istediğiniz içeriğinizin olması,
• Robotlar için özel talimatlara ihtiyacı olan ücretli bağlantılar veya reklamlar kullanılması,
• Saygın robotlardan sitenize ince ayar yapmak istemeniz,
• Canlı olan bir siteyi geliştiriyorsunuz, ancak arama motorlarının henüz dizine eklemesini istememeniz durumuda bir robot.txt dosyasına sahip olmak isteyebilirsiniz.
Yukarıdakilerden bazılarına veya tümüne ihtiyacınız var, ancak web sunucunuza tam erişiminiz ve nasıl yapılandırılacağı konusunda bilginiz yoksa; yukarıdakilerin tümü farklı yöntemler ile yapılandırılabilmektedir. Buna karşın robots.txt dosyası tümünün kontrol edilebileceği iyi bir merkezi yerdir ve çoğu web yöneticisi robots.txt dosyasını oluşturabilir ve dosyaya erişebilir.
Başka bir açıdan;
• Siteniz basit ve hatasız ise,
• Arama motorlarından engellenmesini istediğiniz ya da engellenmesi gereken dosyalarınız yok ise,
• Yukarıda belirtilen robots.txt dosyası gerektiren durumlardan herhangi biri mevcut değil ise bir robots.txt dosyasına sahip olmak zorunda değilsiniz demektir.
Bir robots.txt dosyanızın olmaması durumunda Googlebot gibi arama motoru robotları sitenizde tam erişime sahip olacaktır. Bu, çok yaygın olan basit ve normal bir yöntemdir.
Robots.txt dosyası nasıl oluşturulur?
Yazarak ya da kopyalayıp yapıştırarak, bir robots.txt dosyası oluşturabilirsiniz.
Dosya sadece bir metin dosyasıdır, yani not defterini veya başka herhangi bir düz metin düzenleyicisini kullanarak oluşturabilirsiniz. Ayrıca bir kod düzenleyicisinde de yapabilirsiniz. Onları "kopyalayıp yapıştır" bile yapabilirsiniz.
"Bir robots.txt dosyası yapıyorum" diye düşünmek yerine, "bir not yazıyorum" diye düşünün, ki bunlar hemen hemen aynı işlemlerdir.
Robots.txt dosyasında ne yazmalıdır?
Bu, dosyanın ne yapmasını istediğinize bağlıdır.
Tüm robots.txt talimatları, aşağıdaki üç sonuçtan biriyle sonuçlanır:
• Tam izin ver: Tüm içerik taranabilir.
• Tam izin verme: Hiçbir içerik taranmasın.
• Koşullu izin: robots.txt dosyasındaki yönerge, belirli bir içeriği tarama yeteneğini belirler.
Tam izin - Tüm içerik taranabilir
Çoğu kişi robotların web sitelerindeki her şeyi ziyaret etmesini ister. Sizin durumunuz buysa ve robotun sitenizin tüm bölümlerini dizine eklemesini istiyorsanız, robotların hoş karşılandıklarını bilmesini aşağıdakileri yaparak sağlayabilirsiniz;
1) Bir robots.txt dosyası bulundurmayın. Bu durumda Googlebot gibi bir robot ziyarete gelip bir robots.txt dosyası bulamadığında tüm web sayfalarınızı ve içeriğinizi özgürce ziyaret eder.
2) Boş bir dosya oluşturun ve robots.txt olarak adlandırın. Bu durumda Googlebot gibi bir robot ziyarete gelip robots.txt dosyasını arar. Dosyayı bulur ve okur. Okuyacak bir şey bulamadığından robot tüm web sayfalarınızı ve içeriğinizi ziyaret eder, çünkü bu durumda bu şekilde hareket edecek şekilde programlanmıştır.
3) robots.txt adlı bir dosya oluşturun ve aşağıdaki iki satırı yazın. Yazdığınız durumda Googlebot gibi bir robot ziyarete gelip robots.txt dosyasını arar. Dosyayı bulur ve okur. İlk satırı okur. Sonra ikinci satırı okur. Robot, daha sonra tüm web sayfalarınızı ve içeriğinizi ziyaret eder, çünkü yazmış olduğunuz iki satırla bunu yapmasını söylemiş olursunuz.
User-agent: *
Disallow:
Hiç izin vermeme - İçerik taranmasın
Uyarı: Bu, Google'ın ve diğer arama motorlarının web sayfalarınızı dizine ekleyemeyeceği veya görüntülemeyeceği anlamına gelir.
Sitenizdeki saygın arama motorları örümceklerini engellemek için robots.txt dosyanızda şu talimatlara yer vermeniz gerekir; ancak web sayfalarınızın hiç birinin dizine eklenmemesine neden olacağı için bunu yapmak önerilmez.
User-agent: *
Disallow: /
Farklı kelimeler bir robots.txt dosyasında ne anlama gelir?
Kullanıcı aracı
User-agent:
"Kullanıcı aracı" kısmı, gerekli olduğu durumlarda belirli bir robota yol göstermek için kullanılır.
Bunu dosyanızda kullanmanızın iki yolu vardır:
1) User-agent: *
"Bu yönergeler tüm robotlar için geçerlidir" demektir.
2) User-agent: Googlebot
"Bu talimatlar yalnızca Googlebot'a uygulanır" demektir.
İzin vermeme
"İzin Vermeme" kısmı robotlara hangi klasörleri bakmamaları gerektiğini söylemek için vardır. Örneğin, arama motorlarının sitenizdeki fotoğrafları dizine eklemesini istemiyorsanız, o fotoğrafları bir klasöre yerleştirebilir ve hariç tutabilirsiniz.
Diyelim ki tüm bu fotoğrafları "photos" isimli bir klasöre koydunuz. Şimdi arama motorlarına bu klasörü dizinlememesini söylemek istiyorsunuz.
robots.txt dosyanızın bu şekilde görünmelidir:
User-agent: *
Disallow: /photos
Robots.txt dosyanızdaki bu iki satırlık metin, robotların fotoğraf klasörünüzü ziyaret etmesini önleyecektir. "User-agent *" bölümü yönergenin tüm robotlar için geçerli olduğunu bildirmektedir. "Disallow: /photos" bölümü, "fotoğraflarım klasörünü ziyaret etmeyin veya dizinde bulunmayın" demektedir.
Googlebot'a özgü talimatlar
Google'ın arama motorunu indekslemek için kullandığı robota Googlebot denir. Googlebot, diğer robotlardan birkaç talimat daha fazla anlayabilmektedir.
"Kullanıcı aracı" ve "İzin Vermeme" ye ek olarak, Googlebot, “İzin Ver” yönergelerini de kullanır.
İzin vermek
Allow:
"Allow:" talimatları, bir robota başka talimatlar tarafından "İzin verilmeyen" bir klasördeki bir dosyayı görmesine izin verdiğinizi belirtir. Bunu göstermek için, robotun fotoğraflarınızı ziyaret etmemesini veya dizine eklememesini söyleyen yukarıdaki örneği ele alalım. Tüm fotoğrafları "photos" adlı bir klasöre yerleştirdik ve aşağıdakine benzeyen bir robots.txt dosyası yaptık.
User-agent: *
Disallow: /photos
Şimdi, bu klasörde Googlebot'un dizine eklemesini istediğiniz mycar.jpg adlı bir fotoğraf olduğunu varsayalım. Allow: talimatıyla, Googlebot'a bunu yapmasını şu şekilde söyleyebiliriz:
User-agent: *
Disallow: /photos
Allow: /photos/mycar.jpg
Bu, Googlebot'a "photos" klasörünün taranmamasına rağmen fotoğraf klasöründeki "mycar.jpg" dosyasını ziyaret edebileceğini söyler.
Anahtar kavramlar
Bir robots.txt dosyası kullanıyorsanız, dosyanın düzgün bir şekilde kullanıldığından emin olun.
Yanlış bir robots.txt dosyası Googlebot'un sayfanızı dizine eklemesini engelleyebilir.
Google'ın sayfalarınızı sıralamak için ihtiyaç duyduğu sayfaları engellemediğinizden emin olun.
Kaynak: varvy.com
Yakup
Bu makaleyi aydınlatıcı ve yararlı buldum fakat dosyayı sunucuda tam olarak nereye koymam gerektiğini anlayamadım, bunu da belirtirseniz tam olmuş olacak.
Figen Yüzbaşıoğlu
Merhaba Yakup Bey,
Dosyayı, projenizin bulunduğu kök dizine koymanız yeterlidir.
Google Robot.txt Dosyalarını Artık Desteklemeyecek | Optimist Hub
[…] 2019 günü, yaptığı resmi açıklamayla artık arama motoru botlarının indeksleme sırasında robot.txt dosyalarında yer alan noindex yönergesini dikkate almayacağını dile getirdi. Ayrıca, noindex […]