Format (sintak) penulisan Robots.txt Blog/Website


MATERI PENDUKUNG:

PENGERTIAN ISTILAH:
Crawler Mesin/software/program penjelajah web yang digunakan oleh pihak tertentu untuk keperluan tertentu. Dalam konteks ini, crawler yang dimaksud lebih ditujukan pada crawler mesin pencari, yaitu program yang dibuat untuk mengindex konten web (Halaman, file atau aset lainnya). Istilah lainnya yang juga sering digunakan untuk menyebutkan crawler adalah Spider atau Bot.
User Agent Identitas/nama/token untuk menyebutkan satu atau sekelompok crawlers. Satu user agent dapat mewakili satu atau lebih crawlers.
Index (mengindex) Proses atau keadaan dimana konten web diambil oleh mesin pencari dan diletakkan dalam database mereka. Konten yang telah diindex oleh mesin pencari dapat ditemukan pada hasil penelusuran mesin pencari yang besangkutan.



Format (Sintak) Penulisan Robots.txt

        
          User-agent: Nama user agent 1
          Intruksi: Path URL
          Intruksi: Path URL

          User-agent: Nama user agent 2
          Intruksi: Path URL
          Intruksi: Path URL

          User-agent: Nama user agent n
          Intruksi: Path URL
          Intruksi: Path URL

          Sitemap: URL sitemap xml
        
      


Contoh:
        
          User-agent: *
          Disallow: /search
          Allow: /search/label/

          User-agent: Mediapartners-google
          Disallow:

          Sitemap: http://www.wiblogger.com/atom.xml
        
      



Bagian-bagian Konfigurasi Robots.txt

Berikut adalah beberapa bagian konfigurasi robots.txt berdasarkan contoh konfigurasi di atas:

konfigurasi robots.txt blog



Grup Intruksi

Grup Intruksi (selanjutnya disebut grup) adalah bagian utama dari konfigurasi robots.txt. Grup merupakan kumpulan intruksi yang akan diterapkan untuk satu atau sekelompok crawlers. Sebuah grup selalu dimulai dengan mendefinisikan target user agent yang akan terpengaruh oleh intruksi-intruksi yang didefinisikan setelahnya (didalamnya). Dengan kata lain, semua intruksi yang didefinisikan dalam grup tertentu hanya akan berlaku untuk target user agent yang didefinisikan pada grup yang bersangkutan. Kita misalkan format konfigurasi robots.txt adalah sebagai berikut:

    
        User-agent: Nama target user agent grup 1
        Intruksi-intruksi grup 1..................

        User-agent: Nama target user agent grup 2
        Intruksi-intruksi grup 2..................
    
  

Pada konfigurasi robots.txt diatas, intruksi-intruksi grup 1 hanya akan digunakan oleh user agent grup 1. Begitupula dengan intruksi-intruksi grup 2, ini hanya akan digunakan oleh user agent grup 2.

POIN Setiap crawler (user agent) hanya akan menjalankan satu grup intruksi.



Intruksi (directives)

Setiap intruksi didefinisikan setelah target user agent (pembuka grup) didefinisikan. Setiap grup setidaknya memiliki satu intruksi. Terdapat 2 intruksi yang umumnya digunakan, yaitu: Disallow dan Allow.

	
    User-agent: Nama target user agent grup
    Disallow: Path URL
    Allow: Path URL
	
  

Keterangan:
  • Disallow: Path URL
    Tidak mengizinkan target user agent mengindex halaman dengan path URL yang bersangkutan.
  • Allow: Path URL
    Mengizinkan target user agent mengindex halaman dengan path URL yang bersangkutan.

POIN Intruksi default robots.txt adalah Allow. Ketika tidak terdapat intruksi Disallow untuk URL yang bersangkutan, konten dengan url tersebut akan diindex.


Untuk memperkuat pemahaman anda, sedikit akan kita tinjau mengenai contoh konfigurasi yang telah anda jumpai diawal.

	
    User-agent: *
    Disallow: /search
    Allow: /search/label/

    User-agent: Mediapartners-google
    Disallow:

    Sitemap: http://www.wiblogger.com/atom.xml
	
  

Keterangan:
  • User-agent: * Mulai grup 1. Nama user agent diisi dengan simbol *. Hal ini berarti pengaturan yang terdapat pada grup 1 diperuntukkan untuk semua crawlers.

  • Disallow: /search Intruksi yang diterapkan untuk grup 1. Tidak mengizinkan target crawlers grup 1 untuk dapat mengindex konten dengan path URL yang dimulai dengan query /search

  • Allow: /search/label/ Intruksi lainnya yang juga diterapkan untuk grup 1. Mengizinkan target crawlers grup 1 untuk dapat mengindex konten dengan path URL yang dimulai dengan query /search/label/

  • User-agent: Mediapartners-google Mulai grup 2. Nama user agent ditentukan secara spesifik (Mediapartners-google). Hal ini berarti intruksi yang terdapat pada grup 2 hanya diperuntukkan untuk crawler dengan nama Mediapartners-google. Dalam hal ini, Mediapartners-google adalah nama user agent untuk crawler Google adsense.

  • Disallow: Intruksi yang diterapkan untuk grup 2. Pada intruksi ini, Path URL tidak didefinisikan. Fungsi dari pengaturan ini adalah mengizinkan crawler yang disebutkan pada grup 2 untuk dapat mengindex semua konten web.

  • Sitemap: http://www.wiblogger.com/atom.xml Menginformasikan URL sitemap xml kepada semua crawlers. Ini bertujuan untuk mempermudah crawler dalam mengindex konten blog.

Sampai pada paragraf ini, anda telah memiliki pemahaman dasar terkait format penulisan serta bagian-bagian yang terdapat didalam konfigurasi robots.txt. Sekarang, akan kita bahas mengenai setiap bagian ini secara lebih dalam.



Mendefinisikan Target User Agent

Setiap crawler mesin pencari memiliki user agent yang berbeda. Pada konfigurasi robots.txt, pendefinisian user agent dilakukan dengan 2 cara, yaitu:

  1. Mengisi target user agent dengan * (simbol bintang)
            
            User-agent : *
            Intruksi-intruksi grup...........
            
          

    Ini adalah cara untuk menyebutkan semua user agent. Dengan kata lain, semua intruksi yang terdapat pada grup bersangkutan diperuntukkan untuk semua crawlers.

  2. Menyebutkan target user agent secara spesifik
            
              User-agent: Googlebot
              Intruksi-intruksi grup...........
            
          

    Intruksi yang terdapat pada grup yang bersangkutan hanya diperuntukkan untuk user agent Googlebot. Googlebot sendiri merupakan user agent untuk crawler google yang bertugas mengindex konten web.


Prioritas Grup

Seperti yang telah disampaikan sebelumnya, setiap crawler (user agent) hanya akan menjalankan satu grup intruksi. Untuk kasus dimana suatu crawler memiliki kecocokan terhadap lebih dari satu grup, crawler akan memilih satu grup yang akan dijalankan.

POIN Grup dengan target user agent yang didefinisikan secara spesifik memiliki prioritas lebih tinggi dibandingkan dengan grup dengan target user agent yang didefinisikan menggunakan simbol bintang


Contoh:
    
User-agent: *
Intruksi-intruksi grup 1...........

User-agent: Googlebot
Intruksi-intruksi grup 2...........
    
  

Pada konfigurasi diatas, terdapat grup yang menyebutkan semua crawlers (grup 1). Selain itu, terdapat juga grup yang menyebutkan crawler dengan user agent Googlebot (grup 2). Pada kasus ini, crawler dengan user agent Googlebot juga memiliki kecocokan terhadap grup 1. Hal ini karena grup 1 diperuntukkan untuk semua crawler.

Berdasarkan prioritas grup, pada konfigurasi diatas, semua crawlers selain Googlebot akan mengeksekusi grup 1. Untuk crawler Googlebot, grup yang akan dieksekusi adalah grup 2.

POIN: Urutan grup akan diabaikan. Dengan kata lain, prioritas grup tidak dipengaruhi oleh urutan grup.

Konfigurasi di bawah ini memiliki peranan yang sama dengan konfigurasi sebelumnya.

    
User-agent: Googlebot
Intruksi-intruksi grup 1...........

User-agent: *
Intruksi-intruksi grup 2...........
    
  



Mendefinisikan Path URL pada intruksi

Path URL merupakan lokasi file di dalam sebuah situs relative terhadap domain utama (hostname). Lebih jauh tentang Path URL bisa dibaca pada halaman: Pengertian dan bagian-bagian URL. Pada konfigurasi robtos.txt, penulisan path url tidak harus dilakukan secara lengkap. Perhatikan contoh penulisan path url berikut:

	  
User-agent: *
Disallow: /search
	  
	

Keterangan: Tidak mengizinkan semua crawlers untuk mengindex halaman dengan path URL yang dimulai dengan /search. Beberapa contoh halaman berikut tidak akan diindex.

	  
https://www.wiblogger.com/search
https://www.wiblogger.com/search/label/SEO
https://www.wiblogger.com/search?q=Belajar+blogger
https://www.wiblogger.com/searchwhateverhere
	  
	

POIN Penulisan path url yang dilakukan secara standar (tanpa menggunakan simbol spesial) berarti berlaku untuk semua url yang memiliki kecocokan di awal path.


Prioritas Intruksi

Seperti halnya prioritas grup, Intruksi dengan path yang didefinisikan lebih spesifik memilik prioritas yang lebih tinggi.

	  
User-agent: *
Disallow: /p/
Allow: /p/tentang-kami.html
	  
	

Keterangan: Tidak menginzinkan semua crawlers untuk mengindex halaman statis blog kecuali untuk halaman tentang kami.

URL Izin pengindeksan
https://www.wiblogger.com/p/hubungi-kami.html Tidak diizinkan
https://www.wiblogger.com/p/sanggahan.html Tidak diizinkan
https://www.wiblogger.com/p/kebijakan-privasi.html Tidak diizinkan
https://www.wiblogger.com/p/tentang-kami.html Diizinkan



Penggunaan simbol * dan $ pada Path URL

Pada konfigurasi robots.txt, terdapat 2 simbol spesial yang bisa digunakan yaitu simbol * (bintang) dan simbol $ (dollar).

  1. Simbol * Menerima karakter apapun yang terletak pada posisi yang bersangkutan. Penggunaan simbol * pada Path URL umumnya dikombinasikan dengan karakter sebelum atau setelahnya. Perhatikan beberapa contoh penggunaan simbol * pada Path URL berikut:

    Contoh penulisan Keterangan
    /abc* Berlaku untuk:
    https://www.wiblogger.com/abc
    https://www.wiblogger.com/abcdef
    https://www.wiblogger.com/abc/def
    https://www.wiblogger.com/abcapapun-disini

    Tidak berlaku untuk:
    https://www.wiblogger.com/
    https://www.wiblogger.com/def/abc
    https://www.wiblogger.com/defabc
    https://www.wiblogger.com/ghi-abc
    /abc*ghi Berlaku untuk:
    https://www.wiblogger.com/abcdefghi
    https://www.wiblogger.com/abc-def-ghi
    https://www.wiblogger.com/abc/def/ghi
    https://www.wiblogger.com/abc/def/ghi/hij

    Tidak berlaku untuk:
    https://www.wiblogger.com/defabc
    https://www.wiblogger.com/ghi-abc

    PENTING! Penggunaan simbol * seperti diatas hanya berlaku untuk Path URL, untuk penggunaan pada nama user agent (untuk menyebutkan semua crawler), penulisan dilakukan tanpa karakter lainnya.


  2. Simbol $ Simbol $ digunakan untuk menentukan akhiran URL. Simbol $ selalu diletakkan diakhir path url. Perhatikan beberapa contoh penggunaan simbol $ berikut:

    Contoh penulisan Keterangan
    abc$ Berlaku untuk:
    https://www.wiblogger.com/abc
    https://www.wiblogger.com/search/abc
    https://www.wiblogger.com/whatever/abc
    https://www.wiblogger.com/whatever-abc

    Tidak berlaku untuk:
    https://www.wiblogger.com/
    https://www.wiblogger.com/abc.html
    https://www.wiblogger.com/whatever-abc.html
    /abc$ Berlaku untuk:
    https://www.wiblogger.com/abc
    https://www.wiblogger.com/search/abc
    https://www.wiblogger.com/whatever/abc

    Tidak berlaku untuk:
    https://www.wiblogger.com/
    https://www.wiblogger.com/whateverabc
    https://www.wiblogger.com/whatever-abc
    https://www.wiblogger.com/whatever-abc.html



URL Sitemap

Sebuah file robots.txt dapat menyertakan URL sitemap. Sitemap pada robots.txt bersifat global. Dengan kata lain, URL sitemap tersedia untuk semua crawlers.

	  
User-agent: Nama user agent
Intruksi: Patch URL .........

Sitemap: Absolute URL
	  
	

Tidak seperti pada intruksi yang menuliskan URL hanya berupa Path, pada sitemap URL harus didefinisikan secara lengkap (Absolute URL).

	  
User-agent: *
Disallow: /search/
Sitemap: http://www.wiblogger.com/atom.xml
	  
	



User Agent Crawlers Google

Berbagai contoh yang akan anda jumpai selanjutnya akan menggunakan crawler milik google sebagai target user agent. Perlu diketahui bahwa user agent Googlebot yang telah anda jumpai pada contoh-contoh sebelumnya adalah user agent untuk menyebutkan semua crawler google yang bertugas mengindex konten (semua jenis konten).

Berdasarkan halaman daftar user agent google, hingga saat ini terdapat beberapa crawler yang bertugas mengindex konten. Diantaranya adalah:

User Agent Kebutuhan
Googlebot Mengindex konten web (Crawler utama)
Googlebot
Googlebot-Image
Mengindex konten berupa gambar (images.google.com)
Googlebot
Googlebot-News
Mengindex konten untuk google news (news.google.com)
Googlebot
Googlebot-Video
Mengindex konten berupa video

Di atas merupakan daftar sebagian crawler miliki google. Ada beberapa lagi lainnya dengan fungsi yang berbeda, secara lengkap daftar crawler ini bisa anda lihat pada: https://support.google.com/webmasters/answer/1061943?hl=id.

Ketika kita mendefinisikan user agent dengan Googlebot, hal ini berarti grup tersebut berlaku untuk semua crawler yang disebutkan pada tabel diatas. Jika anda menginginkan konfigurasi grup yang hanya diperuntukkan untuk user agent google tertentu saja. Hal ini bisa dilakukan dengan menuliskan nama user agent dengan lebih spesifik. Perhatikan contoh konfigurasi berikut:

	  
User-agent: *
Intruksi-intruksi grup 1...........

User-agent: Googlebot-Image
Intruksi-intruksi grup 2...........
	  
	
User agent Grup yang dijalankan
Bingbot (crawler mesin pencari Bing.com) 1
Googlebot 1
Googlebot-Video 1
Googlebot-Image 2

	  
User-agent: *
Intruksi-intruksi grup 1...........

User-agent: Googlebot
Intruksi-intruksi grup 2...........

User-agent: Googlebot-Image
Intruksi-intruksi grup 3...........
	  
	
User agent Grup yang dijalankan
Bingbot (crawler mesin pencari Bing.com) 1
Googlebot 2
Googlebot-Video 2
Googlebot-Image 3



Daftar User Agent Berbagai Crawler

Untuk crawlers dari pihak selain google, informasi user agent ini bisa anda dapatkan pada halaman: http://www.robotstxt.org/db.html.



Contoh-contoh

Berikut adalah beberapa contoh konfigurasi robots.txt beserta fungsinya. Semua contoh ini menggunakan format URL blogger.com.

Contoh 1:
        
  User-agent: *
  Disallow: /search/
        
      
Tidak mengizinkan semua crawlers untuk mengindex konten yang terdapat pada halaman bertipe search.

Contoh 2:
        
User-agent: *
Disallow: /search/

User-agent: Mediaparners-google
Disallow:
        
      
Berfungsi seperti halnya pada contoh 1 sebelumnya, namun terdapat pengecualian yang didefinisikan melalui grup 2 yaitu tetap menginzinkan crawler google adsense untuk dapat mengindex semua halaman.

Contoh 3:
        
User-agent: *
Disallow: *noindex
        
      
Tidak mengizinkan semua crawlers untuk mengindex konten dengan URL yang terdapat query noindex. Semua URL dibawah ini tidak akan diindex:

  
  https://www.wiblogger.com/p/noindex.html
  https://www.wiblogger.com/2018/06/noindex-post.html
  https://www.wiblogger.com/search/label/noindex
  https://www.wiblogger.com/search?q=noindex
  

Contoh 4:
        
User-agent: *
Disallow: .jpeg$
Disallow: .png$
        
      
Tidak menginzinkan semua crawlers untuk mengindex file gambar dengan format .jpeg dan .png
Komentar