Robottxt adalah file text yang digunakan di webhosting untuk mengatur mana folder atau bagian dari website yang boleh dan tidak boleh diakses oleh Mesin pencari. Robottxt sangat bermanfaat untuk menjaga conent content sensitif muncul di hasil pencarian.
Contoh real adalah kita tidak membolehkan Crawler mesin pencari untuk mengakses folder admin, atau mengakses folder digital content yang kita jual semisal ebook, software atau lagu. Untuk membuat robot.txt kita cukup menggunakan sembarang editor seperti notepad dan harus diletaka di root direktori webserver. Sebagai contoh, anda punya website www.coolweb.com, maka robot.txt harus diletakan di www.coolweb.com/robot.txt.
Web Crawler/bot itu apa?
Web Crawler atau robot adalah software yang bertugas mengumpulkan dan mengambil isi sebuah website. sofware jenis inid sebut web crawler atau robot; singkatnya di sebut Bot. Di internet, robot robot ini berkeliaran kesuluruh penjuru website. Bukan hanya mesin pencari seperti Google yang mempunyai boot, tapi juga para spammer, atau Email harvester dari spammer yang mengumpulkan email juga tergolong bot. Untuk selanjutnya kita akan menyebut Web Crawler dengan Bot.
Dari sini kita bisa tahu bahwa tidak setiap pengunjung website kita adalah manusia, sebagian lagi robot, Robot yang berkeliaran diinternet juga banyak, Database robot bisa anda akses di http://www.robotstxt.org/db.html.
Aturan penulisan di robottxt pun sangat mudah dipahami. Berikut ini saya beri contoh dari isi robot.txt
Semua Bot boleh mengakses seluruh file/halaman di website
User-agent: * Disallow:
Semua Bot tidak diperbolehkan mengakses seluruh website
User-agent: * Disallow: /
Memblokir Akas Boot untuk direktori tertentu
User-agent: * Disallow: /cgi-bin/ Disallow: /admin/ Disallow: /upload/
Bot tidak boleh mengakses isi folder kecuali file tertentu
User-agent: * Disallow: /upload/ Allow: /upload/logo.jpg
Blokir Robot tertentu
contoh ini dipakai untuk memblokir Googlebot mengakses folder /download/. Aturan ini hanya memblokir Google
saja, artinya Bot yang lain tetap bisa mengaksesnya.
User-agent: GoogleBot Disallow: /download/
Pertanyaan selanjutnya, apakah cara diatas bisa mengamankan file penting kita dari Bot? tentu tidak, semau itu hanya aturan saja, untuk mesin pencari besar seperti Bing dan Google, aturan diatas akan dipatuhi, namun bagi para spammer dan pengumpul email biasany akan mengabaikannya. Makanya cara diatas bukanlah cara untuk mengamankan data penting. Cara untuk mengamankan folder di webserver bisa menggunakan htacess yang akan saya bahas setelah artikel ini.
Referensi
- http://www.feedthebot.com/robottxt.html
- http://www.robotstxt.org/robotstxt.html
- http://en.wikipedia.org/wiki/Robots_exclusion_standard
kagak donk :(