Fungsi file robots.txt akan memberi tahu crawler mesin pencari file mana yang dapat atau tidak dapat di proses oleh crawler dari sebuah situs. File ini digunakan untuk menyembunyikan halaman Website dari Google, Yahoo dan Situs Pencari lainnya, Anda harus menggunakan perintah noindex atau melindungi halaman dengan sandi.
Baca Juga: Cara Reset Password WordPress
Apa fungsi robots.txt?
robots.txt digunakan terutama untuk mengelola traffic crawler ke situs Anda, dan biasanya untuk menyembunyikan halaman dari Google, bergantung pada jenis filenya
Saya menggunakan layanan hosting situs
Jika Anda menggunakan layanan hosting, seperti Wix, Drupal, atau Blogger, Anda mungkin tidak perlu (atau dapat) mengedit file robots.txt secara langsung. Sebaliknya, penyedia Anda mungkin mengekspos halaman setelan penelusuran atau beberapa mekanisme lain untuk memberi tahu mesin telusur untuk meng-crawl halaman atau tidak.
Untuk melihat apakah halaman Anda telah di-crawl oleh Google, telusuri URL halaman di Google.
Jika Anda ingin menyembunyikan (atau menampilkan) halaman dari mesin pencari, tambahkan (atau hapus) persyaratan login halaman yang mungkin ada dan telusuri petunjuk tentang cara memodifikasi visibilitas halaman di mesin telusur pada layanan hosting Anda.
Contoh robot.txt
File robots.txt ada pada root situs Anda. Jadi, untuk situs www.example.com, file robots.txt berada di www.example.com/robots.txt. robots.txt adalah file teks biasa yang mengikuti Standar Pengecualian Robot. File robots.txt terdiri dari satu aturan atau lebih. Setiap aturan memblokir (atau mengizinkan) akses crawler tertentu ke jalur file tertentu di situs tersebut.
Berikut adalah sebuah file robots.txt sederhana yang memuat dua aturan beserta penjelasannya:
# Group 1 User-agent: Googlebot Disallow: /nogooglebot/ # Group 2 User-agent: * Allow: / Sitemap: http://www.example.com/sitemap.xml
Penjelasan:
- Agen pengguna yang disebut crawler “Googlebot” tidak boleh meng-crawl folder
http://example.com/nogooglebot/
atau subdirektori mana pun. - Semua agen pengguna lainnya dapat mengakses situs secara keseluruhan. (Hal ini bisa dihilangkan dan hasilnya akan sama, karena akses penuh adalah asumsi.)
- File peta situs untuk situs berada di http://www.example.com/sitemap.xml
- Agen pengguna yang disebut crawler “Googlebot” tidak boleh meng-crawl folder
Contoh file lainnya
File robots.txt terdiri dari satu atau beberapa grup, yang masing-masing diawali dengan baris User-agent
yang menentukan target dari grup tersebut. Berikut adalah sebuah file dengan dua grup; komentar inline menjelaskan setiap grup:
# Block googlebot from example.com/directory1/... and example.com/directory2/... # but allow access to directory2/subdirectory1/... # All other directories on the site are allowed by default. User-agent: googlebot Disallow: /directory1/ Disallow: /directory2/ Allow: /directory2/subdirectory1/ # Block the entire site from anothercrawler. User-agent: anothercrawler Disallow: /
Sintaks robots.txt lengkap
Anda dapat menemukan sintaks robots.txt lengkap di sini. Harap baca seluruh dokumentasi tersebut karena ada beberapa hal rumit dan penting untuk dipelajari pada sintaks robots.txt.