wiblogger

Format (sintak) penulisan Robots.txt Blog / Website

Materi pendukung:

Pengertian beberapa istilah
Crawler Adalah Mesin / software / program penjelajah web yang digunakan oleh pihak tertentu untuk keperluan tertentu. Dalam konteks ini, crawler yang dimaksud lebih ditujukan pada crawler mesin pencari, yaitu program yang dibuat untuk mengindex konten web (Halaman, file atau aset lainnya). Istilah lain dari crawler yang juga sering digunakan adalah Spider dan Bot.
User Agent Adalah Identitas / nama / token untuk menyebutkan satu atau sekelompok crawlers. Satu user agent dapat mewakili satu atau lebih crawlers.
Index (me-ngindex) Proses atau keadaan dimana konten web diambil oleh mesin pencari dan diletakkan dalam database mereka. Konten yang telah diindex oleh mesin pencari dapat ditemukan pada hasil penelusuran mesin pencari yang besangkutan.


Contoh konfigurasi robots.txt

User-agent : *
Disallow : /search
Allow : /search/label/

User-agent : Mediapartners-google
Disallow :

Sitemap : http://www.wiblogger.com/atom.xml


Bagian-bagian konfigurasi robots.txt:

Diatas adalah contoh konfigurasi robots.txt. Adapun beberapa bagian konfigurasi robots.txt diatas dapat dilihat pada gambar berikut:

konfigurasi robots.txt blog


Format (sintak)

Format penulisan konfigurasi pada robots.txt adalah sebagai berikut:

User-agent : Nama user agent 1
Intruksi : Path URL
Intruksi : Path URL

User-agent : Nama user agent 2
Intruksi : Path URL
Intruksi : Path URL

User-agent : Nama user agent n
Intruksi : Path URL
Intruksi : Path URL

Sitemap : URL sitemap xml

Informasi tentang bagaimana cara mendefinisikan user agent, intruksi serta aturan-aturan didalamnya akan dijelaskan pada poin-poin selanjutnya.


Grup Intruksi

Grup Intruksi (selanjutnya disebut grup) adalah bagian utama dari konfigurasi robots.txt. Grup merupakan kumpulan intruksi yang akan diterapkan untuk satu atau sekelompok crawlers. Sebuah grup selalu dimulai dengan mendefinisikan target user agent yang akan terpengaruh oleh intruksi-intruksi yang didefinisikan setelahnya (didalamnya). Dengan kata lain, semua intruksi yang didefinisikan dalam grup tertentu hanya akan berlaku untuk target user agent yang didefinisikan pada grup yang bersangkutan. Kita misalkan format konfigurasi robots.txt adalah sebagai berikut:

User-agent : Nama target user agent grup 1
Intruksi-intruksi grup 1..................

User-agent : Nama target user agent grup 2
Intruksi-intruksi grup 2..................

Pada konfigurasi robots.txt diatas, intruksi-intruksi grup 1 hanya akan digunakan oleh user agent grup 1. Begitupula dengan intruksi-intruksi grup 2, ini hanya akan digunakan oleh user agent grup 2.

PENTING:
Setiap crawler (user agent) hanya akan menjalankan 1 (satu) grup intruksi.


Intruksi (directives)

Setiap intruksi didefinisikan setelah target user agent (pembuka grup) didefinisikan. Setiap grup setidaknya memiliki satu intruksi. Terdapat 2 intruksi yang umumnya digunakan, yaitu: Disallow dan Allow.

User-agent : Nama target user agent grup
Disallow : Path URL
Allow : Path URL

Keterangan:
  • Disallow : Path URL
    Tidak mengizinkan target user agent grup yang bersangkutan untuk dapat mengindex konten dengan path URL yang bersangkutan.
  • Allow : Path URL
    Mengizinkan target user agent grup yang bersangkutan untuk dapat mengindex konten dengan path URL yang bersangkutan.

POIN
Intruksi default robots.txt adalah Allow. Ketika tidak terdapat intruksi Disallow untuk URL yang bersangkutan, konten dengan url tersebut akan diindex. Dengan kata lain, intruksi Allow digunakan sebagai pengecualian untuk intruksi Disallow.

Untuk mendapatkan pemahaman yang lebih baik, sedikit akan kita tinjau mengenai contoh konfigurasi yang telah anda jumpai diawal.

User-agent : *
Disallow : /search
Allow : /search/label/

User-agent : Mediapartners-google
Disallow :

Sitemap : http://www.wiblogger.com/atom.xml

Keterangan:
  • User-agent : * Mulai grup 1. Nama user agent diisi dengan simbol *. Hal ini berarti pengaturan yang terdapat pada grup 1 diperuntukkan untuk semua crawlers. Lebih jauh tentang simbol * akan kita bahas nanti.
  • Disallow : /search Intruksi yang diterapkan untuk grup 1. Tidak mengizinkan target crawlers grup 1 untuk dapat mengindex konten dengan path URL yang dimulai dengan query /search
  • Allow : /search/label/ Intruksi lainnya yang juga diterapkan untuk grup 1. Mengizinkan target crawlers grup 1 untuk dapat mengindex konten dengan path URL yang dimulai dengan query /search/label/
  • User-agent: Mediapartners-google Mulai grup 2. Nama user agent ditentukan secara spesifik (Mediapartners-google). Hal ini berarti intruksi yang terdapat pada grup 2 hanya diperuntukkan untuk crawler dengan nama Mediapartners-google. Dalam hal ini, Mediapartners-google adalah nama user agent untuk crawler Google adsense.
  • Disallow: Intruksi yang diterapkan untuk grup 2. Pada intruksi ini, Path URL tidak didefinisikan. Fungsi dari pengaturan ini adalah mengizinkan crawler yang disebutkan pada grup 2 untuk dapat mengindex semua konten web.
  • Sitemap : http://www.wiblogger.com/atom.xml Menginformasikan URL sitemap xml kepada semua crawlers. Ini bertujuan untuk mempermudah crawler dalam mengindex setiap konten yang dikehendaki (untuk diindex).



Sampai pada paragraf ini, anda telah memiliki pemahaman dasar terkait format penulisan serta bagian-bagian yang terdapat didalam konfigurasi robots.txt. Sekarang, akan kita bahas mengenai setiap bagian ini secara lebih dalam.


Mendefinisikan Target User Agent (Pembuka grup)

Setiap crawler mesin pencari memiliki user agent yang berbeda. Pada konfigurasi robots.txt, pendefinisian user agent dilakukan dengan 2 cara, yaitu:

  1. Mengisi target user agent dengan * (simbol bintang).
  2. Menyebutkan target user agent secara spesifik


1. Mengisi target user agent dengan simbol bintang
User-agent : *
Intruksi-intruksi grup...........

Ini adalah cara untuk menyebutkan semua user agent. Dengan kata lain, semua intruksi yang terdapat pada grup bersangkutan diperuntukkan untuk semua crawlers.

2. Menyebutkan target user agent secara spesifik
User-agent : Googlebot
Intruksi-intruksi grup...........

Intruksi yang terdapat pada grup yang bersangkutan hanya diperuntukkan untuk user agent Googlebot. Googlebot sendiri merupakan user agent untuk crawler google yang bertugas mengindex konten web. Informasi mengenai user agent google dan daftar user agent untuk pihak lainnya akan anda jumpai nanti.


Prioritas Grup

Seperti yang telah disampaikan sebelumnya, setiap crawler (user agent) hanya akan menjalankan (mengeksekusi) 1 grup saja. Pada konfigurasi robots.txt, terdapat kasus dimana suatu crawler memiliki kecocokan terhadap beberapa grup (lebih dari satu grup). Dalam kasus ini, crawler akan memilih 1 grup yang akan dijalankan.

POIN:
Grup dengan target user agent yang didefinisikan secara spesifik memiliki prioritas lebih tinggi dibandingkan dengan grup dengan target user agent yang didefinisikan menggunakan simbol bintang

Untuk lebih mudahnya, kita ambil contoh penulisan konfigurasi robots.txt dilakukan seperti berikut:

User-agent : *
Intruksi-intruksi grup 1...........

User-agent : Googlebot
Intruksi-intruksi grup 2...........

Pada konfigurasi diatas, terdapat grup yang menyebutkan semua crawlers (grup 1). Selain itu, terdapat juga grup yang menyebutkan crawler dengan user agent Googlebot (grup 2). Pada kasus ini, crawler dengan user agent Googlebot juga memiliki kecocokan terhadap grup 1. Hal ini karena grup 1 diperuntukkan untuk semua crawler.

Berdasarkan prioritas grup, pada konfigurasi diatas, semua crawlers selain Googlebot akan mengeksekusi grup 1. Untuk crawler Googlebot, grup yang akan dieksekusi adalah grup 2.


POIN:
Urutan grup akan diabaikan. Dengan kata lain, prioritas grup tidak dipengaruhi oleh urutan grup.

Konfigurasi dibawah ini memiliki peranan yang sama dengan konfigurasi sebelumnya.

User-agent : Googlebot
Intruksi-intruksi grup 1...........

User-agent : *
Intruksi-intruksi grup 2...........

Semua crawlers selain Googlebot akan mengeksekusi grup 2. Untuk crawler Googlebot, grup yang akan dieksekusi adalah grup 1.


Mendefinisikan Path URL pada intruksi

Path URL merupakan lokasi file di dalam sebuah situs relative terhadap domain utama (hostname). Lebih jauh tentang Path URL telah dijelaskan pada post: Pengertian dan bagian-bagian URL. Pada konfigurasi robtos.txt, penulisan path url tidak harus dilakukan secara lengkap. Perhatikan contoh penulisan path url berikut:

User-agent : *
Disallow : /search

Keterangan Tidak mengizinkan semua crawlers untuk mengindex halaman dengan path URL yang dimulai dengan /search. Beberapa contoh halaman berikut tidak akan diindex (Semua path URL dimulai dengan /search).

http://www.wiblogger.com/search
http://www.wiblogger.com/search/label/SEO
http://www.wiblogger.com/search?q=Belajar+blogger
http://www.wiblogger.com/searchwhateverhere



User-agent : *
Disallow : /p/

Keterangan Tidak mengizinkan semua crawlers untuk mengindex halaman dengan path URL yang dimulai dengan /p/. Beberapa contoh halaman berikut tidak akan diindex.

http://www.wiblogger.com/p/tentang-kami.html
http://www.wiblogger.com/p/sanggahan.html
http://www.wiblogger.com/p/apapun-disini-ya-boleh


POIN:
Penulisan path url yang dilakukan secara standar (tanpa menggunakan simbol spesial) berarti berlaku untuk semua url yang memiliki kecocokan di awal (path url).


Prioritas Intruksi

Seperti halnya prioritas grup, Intruksi dengan path yang didefinisikan lebih spesifik memilik prioritas yang lebih tinggi.

User-agent : *
Disallow : /p/
Allow : /p/tentang-kami.html

Keterangan: Tidak menginzinkan semua crawlers untuk mengindex halaman statis blog kecuali untuk halaman tentang kami.

URL Izin pengindeksan
http://www.wiblogger.com/p/hubungi-kami.html Tidak diizinkan
http://www.wiblogger.com/p/sanggahan.html Tidak diizinkan
http://www.wiblogger.com/p/kebijakan-privasi.html Tidak diizinkan
http://www.wiblogger.com/p/tentang-kami.html Diizinkan


Penggunaan simbol * (bintang) dan $ (dollar) pada Path URL

Pada konfigurasi robots.txt, terdapat 2 simbol spesial yang bisa digunakan, yaitu simbol * dan simbol $.

Simbol * Menerima karakter apapun yang terletak pada posisi yang bersangkutan.

Simbol $ Menentukan akhiran URL.


Penggunaan simbol *

Penggunaan simbol * pada Path URL umumnya dikombinasikan dengan karakter sebelum atau setelahnya. Perhatikan beberapa contoh penggunaan simbol * pada Path URL berikut:

Contoh penulisan Keterangan
/abc* Berlaku untuk:
http://www.wiblogger.com/abc
http://www.wiblogger.com/abcdef
http://www.wiblogger.com/abc/def
http://www.wiblogger.com/abcapapun-disini-ya-boleh

Tidak berlaku untuk:
http://www.wiblogger.com/
http://www.wiblogger.com/def/abc
http://www.wiblogger.com/defabc
http://www.wiblogger.com/ghi-abc
/abc*ghi Berlaku untuk:
http://www.wiblogger.com/abcdefghi
http://www.wiblogger.com/abc-def-ghi
http://www.wiblogger.com/abc/def/ghi
http://www.wiblogger.com/abc/def/ghi/hij

Tidak berlaku untuk:
http://www.wiblogger.com/defabc
http://www.wiblogger.com/ghi-abc


PENTING:
Penggunaan simbol * seperti diatas hanya berlaku untuk Path URL, untuk penggunaan pada nama user agent (untuk menyebutkan semua crawler), penulisan dilakukan tanpa karakter lainnya.


Penggunaan simbol $

Simbol $ digunakan untuk menentukan akhiran URL. Karena fungsinya ini, simbol $ selalu diletakkan diakhir path url. Untuk lebih mudahnya, perhatikan beberapa contoh penggunaan simbol $ berikut:

Contoh penulisan Keterangan
abc$ Berlaku untuk:
http://www.wiblogger.com/abc
http://www.wiblogger.com/search/abc
http://www.wiblogger.com/whatever/abc
http://www.wiblogger.com/whatever-abc

Tidak berlaku untuk:
http://www.wiblogger.com/
http://www.wiblogger.com/abc.html
http://www.wiblogger.com/whatever-abc.html
/abc$ Berlaku untuk:
http://www.wiblogger.com/abc
http://www.wiblogger.com/search/abc
http://www.wiblogger.com/whatever/abc

Tidak berlaku untuk:
http://www.wiblogger.com/
http://www.wiblogger.com/whateverabc
http://www.wiblogger.com/whatever-abc
http://www.wiblogger.com/whatever-abc.html

POIN:
Simbol $ umumnya digunakan untuk mengatur perizinan akses untuk konten berupa file. Sebut saja misalnya file gambar, pdf, dan lain sebagainya.



Mengenai URL Sitemap

Seperti yang telah anda jumpai diawal, sebuah file robots.txt dapat menyertakan URL sitemap. Sitemap pada robots.txt bersifat global. Dengan kata lain, URL sitemap tersedia untuk semua crawlers. Ini akan memudahkan crawler menjelajahi setiap konten yang dikehendaki (untuk diindex).

User-agent : Nama user agent
Intruksi : Patch URL .........
Sitemap : Absolute URL


Tidak seperti pada intruksi yang menuliskan URL hanya berupa Path, pada sitemap, URL harus didefinisikan secara lengkap (Absolute URL).

User-agent : *
Disallow : /search/
Sitemap : http://www.wiblogger.com/atom.xml



Mengenai User Agent Crawlers Google

Berbagai contoh yang akan anda jumpai selanjutnya akan menggunakan crawler milik google sebagai target user agent. Perlu diketahui bahwa user agent Googlebot yang telah anda jumpai pada contoh-contoh sebelumnya adalah user agent untuk menyebutkan semua crawler google yang bertugas mengindex konten (semua jenis konten).

Berdasarkan halaman daftar user agent google, hingga saat ini, terdapat beberapa crawler yang bertugas mengindex konten. Diantaranya adalah:

User agent Kebutuhan
Googlebot Mengindex konten web (Crawler utama)
Googlebot
Googlebot-Image
Mengindex konten berupa gambar (images.google.com)
Googlebot
Googlebot-News
Mengindex konten untuk google news (news.google.com)
Googlebot
Googlebot-Video
Mengindex konten berupa video

Ketika kita mendefinisikan user agent dengan Googlebot, hal ini berarti grup tersebut berlaku untuk semua crawler yang disebutkan pada tabel diatas. Jika anda menginginkan konfigurasi grup yang hanya diperuntukkan untuk user agent google tertentu saja. Hal ini bisa dilakukan dengan menuliskan nama user agent dengan lebih spesifik. Perhatikan beberapa contoh konfigurasi berikut:

Konfigurasi:
User-agent : *
Intruksi-intruksi grup 1...........

User-agent : Googlebot-Image
Intruksi-intruksi grup 2...........

Keterangan:
User agent Grup yang dijalankan
Bingbot (crawler mesin pencari Bing.com) Grup 1
Googlebot Grup 1
Googlebot-Video Grup 1
Googlebot-Image Grup 2


Konfigurasi:
User-agent : *
Intruksi-intruksi grup 1...........

User-agent : Googlebot
Intruksi-intruksi grup 2...........

User-agent : Googlebot-Image
Intruksi-intruksi grup 3...........

Keterangan:
User agent Grup yang dijalankan
Bingbot Grup 1
Googlebot Grup 2
Googlebot-Video Grup 2
Googlebot-Image Grup 3


Informasi user agent untuk berbagai crawler

Diatas merupakan daftar sebagian crawler miliki google. Ada beberapa lagi lainnya dengan fungsi yang berbeda-beda, secara lengkap daftar crawler ini bisa anda lihat di: https://support.google.com/webmasters/answer/1061943?hl=en.

Untuk crawlers dari pihak lainnya, informasi user agent ini bisa anda dapatkan di: http://www.robotstxt.org/db.html.


Contoh-contoh

Berikut adalah beberapa contoh konfigurasi robots.txt beserta fungsinya. Semua contoh ini menggunakan format URL blogger.com.

Contoh 1:
User-agent : *
Disallow : /search/

Keterangan: Tidak mengizinkan semua crawlers untuk mengindex konten yang terdapat pada halaman bertipe search.


Contoh 2:
User-agent : *
Disallow : /search/

User-agent : Mediaparners-google
Disallow :

Keterangan: Berfungsi seperti halnya pada contoh 1 sebelumnya, namun, terdapat pengecualian yang didefinisikan melalui grup 2 yaitu tetap menginzinkan crawler google adsense untuk dapat mengindex semua konten.


Contoh 3:
User-agent : *
Disallow : *noindex

Keterangan: Tidak mengizinkan semua crawlers untuk mengindex konten dengan URL yang terdapat query noindex.

URL Izin pengindeksan
http://www.wiblogger.com/p/noindex.html Tidak diizinkan
http://www.wiblogger.com/2018/06/noindex-post.html Tidak diizinkan
http://www.wiblogger.com/search/label/noindex Tidak diizinkan
http://www.wiblogger.com/search?q=noindex Tidak diizinkan


Contoh 4:
User-agent : *
Disallow : .jpeg$
Disallow : .png$

Keterangan: Tidak menginzinkan semua crawlers untuk mengindex file gambar dengan format .jpeg dan .png


Bagikan ke:

1 komentar untuk:

Format (sintak) penulisan Robots.txt Blog / Website
  1. Mantap gan iformasinya,, ijin diterapkan.
    Detail banget informasinya gan

    BalasHapus

Silahkan tulis komentar anda untuk hal apapun yang masih berhubungan dengan post pada halaman ini. Dukungan tag HTML: Bold Text, Italic Text, and Link Text (Hanya jika diperlukan).

Berlangganan Artikel
Dengan berlangganan artikel kami, anda akan mendapatkan setiap update yang diterbitkan pada situs wiBlogger.com langsung melalui akun email anda. Pastikan juga anda mengkonfirmasi alamat email anda untuk dapat mengaktifkan layanan.
×
Jangan tampilkan lagi