Apa itu Robots.txt? Fungsi Robots.txt pada Website dan Blog


Apa Itu Robots.txt

Robots.txt adalah sebuah file text yang dibuat untuk mengatur bagaimana cara web crawlers dalam menjelajahi halaman website/blog. Ini merupakan robots exclusion protocol (REP), yaitu bagian dari standar web yang mengatur bagaimana web crawlers seharusnya bekerja. Adapun web crawlers yang dimaksud disini umumnya lebih ditujukan untuk crawlers mesin pencari.



Fungsi Robots.txt

Melalui robots.txt, webmaster (pemiliki situs) dapat membatasi akses crawler mesin pencari. Ya, pada kasus tertentu, webmaster mungkin menginginkan untuk tidak mengizinkan crawler mesin pencari untuk dapat mengindek halaman/file tertentu. Hal ini dapat dilakukan melalui konfigurasi robots.txt.



Cara Kerja Robots.txt

Seperti yang telah diuraikan pada halaman Belajar SEO blog, cara mesin pencari menemukan halaman-halaman baru adalah dengan mengikuti link yang terdapat pada suatu halaman dan membawa mereka pada halaman lainnya. Berhubungan dengan ini, terdapat 2 prosedur utama yang dilakukan oleh crawler mesin pencari:

  1. Menjelajahi konten halaman
  2. Mengindek halaman (meletakkan halaman pada database mereka) untuk akhirnya akan ditampilkan pada hasil penelusuran.

Masih mengenai prosedur diatas, ketika crawler mesin pencari tiba di sebuah halaman, tahap awal yang mereka lakukan adalah menemukan file robots.txt. Crawler akan membaca konfigurasi robots.txt ini sebelum melanjutkan untuk menjelajahi halaman. Jika ditemukan konfigurasi khusus, crawler akan patuh pada konfigurasi ini.



Lainnya Terkait Robots.txt

  • Untuk dapat ditemukan oleh web crawler, file robots.txt harus berada pada direktori akar website. File robots.txt adalah file publik. Dengan kata lain, semua orang dapat melihat file robots.txt ini dengan mengetikkan "robots.txt" setelah domain utama (misal http://www.wiblogger.com/robots.txt).

  • Penamaan file robots.txt bersifat case sensitive, nama file harus berupa "robots.txt" (huruf kecil semua).

  • Setiap subdomain memiliki file robots.txt yang berbeda dari domain utama. Dengan kata lain, crawler tidak menggunakan file robots.txt yang terdapat pada domain example.com untuk subdomain blog.example.com.

  • Semua mesin pencari pupoler akan patuh pada konfigurasi robots.txt. Namun, perlu anda ketahui bahwa tidak semua crawlers akan mengikuti intruksi yang terdapat dalam file robots.txt. Ada banyak pihak yang menjalankan crawler untuk tujuan tertentu di internet, sebut saja misalnya program email scrapers. Crawlers jenis ini tentu akan mengabaikan robots.txt. Jadi, penerapan robots.txt ini tidak menjamin halaman / data anda tertutup untuk semua pihak.

  • Kapan Webmaster Membutuhkan Robots.txt? Berikut adalah beberapa kasus umum yang menjadi alasan pemilik situs untuk menggunakan robots.txt.

    • Mencegah duplikat konten pada mesin pencari
    • Mencegah mesin pencari untuk mengindek file tertentu pada website (Misal: file gambar, PDF atau lainnya)
    • Memberikan informasi lokasi sitemap

  • Apakah Setiap Website Harus Memiliki (mengaktifkan) Robots.txt? File robots.txt digunakan untuk mengontrol akses crawler mesin pencari. Dalam hal ini, jika anda tidak memiliki konfigurasi khusus yang diinginkan, anda tidak harus mengaktifkan robots.txt.



Baca juga:
Komentar