Robots.txt

Home » Technical SEO » Robots.txt

Apa itu Robots.txt?

Robots.txt adalah file yang memberi tahu search engine spider untuk halaman mana yang boleh dan tidak boleh di-crawling di website. Namun, file ini tidak seharusnya digunakan untuk mencegah halaman keluar dari indeks Google. Sebagian besar search engine utama, seperti Google, Bing, dan Yahoo, mengenali dan menghormati permintaan Robots.txt.

File robots.txt mungkin tampak rumit pada awalnya, tetapi sintaksisnya (bahasa komputer) cukup sederhana.

Sebelum masuk lebih lanjut, mari kita jelaskan bagaimana robots.txt berbeda dari beberapa istilah yang terdengar mirip.

Robots.txt vs Meta Robots vs X-Robots

Meta robots tags, x-robots tags, dan file robots.txt memberi tahu search engine bagaimana menangani konten website Anda.

Namun, mereka memiliki tingkat kontrol yang berbeda, serta lokasi dan apa yang mereka kontrol.

Berikut adalah penjelasannya teman-teman:

  • Robots.txt: File ini terletak di direktori root situs web Anda dan berfungsi sebagai penjaga gerbang untuk memberi search engine crawlers arahan umum tentang area mana dari website Anda yang tidak boleh mereka crawling.
  • Meta robots tags: Potongan kode yang ditemukan di bagian “head” halaman website tertentu. Selain itu, memberikan arahan khusus kepada search engine tentang bagaimana halaman harus diindeks, dimasukkan dalam hasil pencarian, dan diikuti melalui tautan yang ada di dalamnya.
  • X-robots tags: Potongan kode yang biasanya digunakan untuk file yang tidak berkode HTML, seperti PDF dan gambar. Itu dipasang di header HTTP file tersebut.

Mengapa Robots.txt Penting untuk SEO?

File robots.txt membantu mengelola aktivitas crawl website, sehingga mereka tidak membebani website Anda atau mengganggu halaman yang tidak dimaksudkan untuk dilihat oleh publik.

Sebagaian besar website tidak membutuhkan file robots.txt.

Itu karena Google biasanya dapat menemukan dan mengindeks semua halaman website yang penting.

Dan mereka secara otomatis TIDAK akan mengindeks halaman yang tidak penting atau menduplikasi halaman yang lain.

Ada beberapa alasan mengapa Anda harus menggunakan file robots.txt:

1. Optimalkan Crawl Budget

Crawl Budget mengacu pada berapa banyak halaman yang akan di-crawling Google di website Anda dalam jangka waktu tertentu.

Jumlah ini dapat berbeda tergantung pada ukuran website, health, dan jumlah backlink.

Mungkin ada halaman penting yang tidak dapat diindeks jika crawl budget website Anda melebihi jumlah halaman yang ada.

Halaman-halaman yang tidak terindeks tersebut tidak akan mendapatkan peringkat. Artinya, Anda membuang waktu membuat halaman yang tidak akan dilihat pengguna.

Memblokir halaman yang tidak diperlukan dengan robots.txt memungkinkan Googlebot (crawler web Google) untuk menghabiskan lebih banyak crawl budget pada halaman yang penting.

2. Blokir Halaman Duplicate dan Non-Public

Karena tidak semua halaman website Anda dirancang untuk ditampilkan di search engine result page  (SERP), crawl bot tidak perlu menyisir setiap halaman.

Beberapa sistem manajemen konten menangani halaman internal seperti staging site, internal search results pages, duplicates page, atau login page.

Misalnya, WordPress secara otomatis menolak halaman login “/wp-admin/” untuk di crawlers.

Anda dapat memblokir halaman ini dari crawler dengan menggunakan Robots.txt.

3. Mencegah Pengindeksan Resources

Meta directives dapat berfungsi dengan baik dengan robots.txt untuk mencegah halaman diindeks.

Namun, meta directives tidak bekerja dengan baik untuk sumber daya multimedia, seperti PDF dan gambar. Di sinilah robots.txt berperan.

Untuk menjaga privasi pengguna atau untuk menjaga fokus Google pada konten yang lebih penting.

Dalam kedua kasus tersebut, robots.txt menjaga agar sumber daya tersebut tidak di-crawling.

Kesimpulannya?

Robots.txt memberi tahu search engine spiders untuk tidak meng-crawl beberapa halaman webstie Anda.

Di Google Search Console, Anda dapat melihat jumlah halaman yang telah diindeks.

Anda tidak perlu repot-repot dengan file Robots.txt jika jumlah halaman yang ingin Anda indeks sesuai.

Namun, jika jumlah tersebut melampaui perkiraan dan Anda menemukan URL yang diindeks yang seharusnya tidak diindeks, maka saatnya untuk membuat file robots.txt untuk situs web Anda.

Bagaimana Cara Kerja File Robots.txt?

File robots.txt memberi tahu bot search engine URL mana yang harus mereka rayapi dan mana yang harus diabaikan. Ini sangat penting.

Bot search engine menemukan dan mengikuti tautan saat mereka merayapi halaman wesbite. Melalui proses ini, mereka dikirim dari situs A ke situs B ke situs C melalui tautan, halaman, dan webstie.

Namun, sebuah bot akan membaca file robots.txt sebelum melakukan apa pun.

Sintaksisnya sederhana.

Anda menetapkan aturan dengan mengidentifikasi “user-agent” (bot search engine) dan menentukan direktif (aturan).

Selain itu, Anda dapat menggunakan tanda asterisk (*) untuk memberi tahu setiap user-agent agar aturan tersebut diterapkan pada semua bot.

Cara Menemukan File Robots.txt

File robots.txt Anda dihosting di server, seperti file direktori lainnya.

Dengan mengetikkan URL lengkap domain anda dan menambahkan “/robots.txt” di akhir, Anda dapat melihat file robots.txt situs web mana pun.

Contohnya adalah “https://dailysswift.com/robots.txt”.

Robots.Txt

Note:

File robots.txt harus selalu berada di level domain root. Untuk “www.your-domain.com,” file robots.txt berada di “www.your-domain.com/robots.txt.” Tempatkan di tempat lain, dan crawler mungkin menganggap Anda tidak memiliki file tersebut.

Penjelasan Syntax Robots.txt

Dalam file robots.txt terdiri dari:

  • Satu atau lebih blok “directives” (aturan)
  • Masing-masing dengan “user-agent” (search engine bot) yang ditentukan
  • Dan instruksi “allow” atau “disallow”

Sebuah blok sederhana dapat terlihat seperti ini:

User-agent: Googlebot
Disallow: /not-for-google
User-agent: BingBot
Disallow: /not-for-bing

Sitemap: https://www.your-domain.com/sitemap.xml

1. User-Agent Directive

Setiap blok direktif memiliki user-agent, yang mengidentifikasi crawler, di baris pertama.

Misalnya, jika Anda ingin memberi tahu Googlebot untuk menghindari mengakses halaman admin WordPress Anda, instruksi Anda akan dimulai dengan:

User-agent: Googlebot
Disallow: /wp-admin/

Note:

Sebagian besar search engine menggunakan multiple crawl yang berbeda untuk pengindeksan standar, gambar, video, dan fungsi lainnya.

Bot dapat memilih directive bot yang paling spesifik saat ada banyak direktif.

Misalnya, Anda memiliki tiga set direktif: satu untuk Googlebot, satu untuk Googlebot-Image, dan satu lagi untuk *.

Googlebot-News user agent akan mengikuti petunjuk jika ia mengunjungi situs Anda.

Sebaliknya, user-agent Googlebot-Image akan mengikuti instruksi yang lebih khusus dari Googlebot-Image.

2. Disallow Robots.txt Directive

Baris kedua dari robots.txt directive adalah baris “disallow”.

Ada kemungkinan bahwa Anda memiliki beberapa instruksi disallow yang dimaksudkan untuk memastikan bahwa crawler tidak dapat mengakses bagian mana dari website Anda.

Baris disallow yang kosong berarti Anda tidak melarang apa pun, crawler dapat mengakses semua bagian situs Anda.

Misalnya, jika Anda ingin semua search engine meng-crawl seluruh situs Anda, blok Anda akan terlihat seperti ini:

User-agent: *
Allow: /

Jika Anda ingin mencegah semua search engine mengunjungi situs Anda, blok Anda akan terlihat seperti ini:

User-agent: *
Disallow: /

Note:

Direktif seperti “Allow” dan “Disallow” tidak peka huruf besar-kecil. Namun, nilai di dalam setiap direktif peka huruf besar-kecil. Namun, Anda sering menemukan direktif “Allow” dan “Disallow” dalam huruf kapital untuk mempermudah pembacaan manusia.

3. Allow Robots.txt Directive

Direktif “allow” memungkinkan search engine untuk meng-crawl subdirektori atau halaman tertentu, bahkan dalam direktori yang secara umum dilarang.

Misalnya, Anda mungkin membuat instruksi seperti ini untuk mencegah Googlebot mengakses setiap posting blog Anda kecuali satu:

User-agent: Googlebot
Disallow: /blog
Allow: /blog/example-post

Note:

Google dan Bing mendukung perintah ini, meskipun tidak semua search engine mengenalinya.

4. Sitemap Directive

Sitemap Directive memberi tahu search engine, terutama Bing, Yandex, dan Google, di mana XML sitemap Anda ditemukan.

Sitemap biasanya mencakup halaman yang diinginkan oleh search engine untuk crawl dan index.

Menambahkan instruksi sitemap ke file robots.txt Anda adalah cara cepat untuk melakukannya, tetapi Anda juga dapat menggunakan webmaster tool untuk mengirimkan XML sitemap Anda ke setiap search engine, yang lebih baik.

Meskipun search engine pada akhirnya akan merayapi situs Anda, mengirimkan sitemap mempercepat proses crawling.

5. Crawl-Delay Directive

Crawler diberi instruksi untuk menunda laju crawling mereka melalui “crawl-delay”. Untuk menghindari beban server yang berlebihan dengan memperlambat website Anda.

Google tidak lagi mendukung direktif crawl-delay. Jika Anda ingin mengatur kecepatan crawling Googlebot, Anda harus melakukannya di Search Console.

Namun, direktif crawl-delay didukung oleh Bing dan Yandex. Berikut cara menggunakannya.

Misalnya, Anda dapat mengatur penundaan menjadi sepuluh detik jika Anda ingin crawler menunggu sepuluh detik setelah setiap tindakan crawling:

User-agent: *
Crawl-delay: 10

6. Noindex Directive

File robots.txt memberi tahu bot URL mana yang tidak boleh diindeks dan ditampilkan dalam search result. Namun, file ini tidak dapat memberi tahu search engine URL mana yang tidak boleh diindeks dan ditampilkan dalam hasil pencarian.

Noindex Tag di file robots.txt dapat mencegah bot mengetahui apa yang ada di halaman Anda. Namun, halaman tersebut tetap akan muncul dalam hasil pencarian, meskipun tidak memiliki informasi.

Google tidak pernah secara resmi mendukung aturan ini. Pada 1 September 2019, Google bahkan menyatakan bahwa mereka tidak mendukung aturan noindex robots.txt.

Jika Anda ingin secara andal mengecualikan halaman atau file dari muncul dalam hasil pencarian, hindari direktif ini sama sekali dan gunakan “meta robots noindex tag” sebagai gantinya.

5 Teknik Robots.txt yang Harus Dihindari

Saat Anda membuat file robots.txt, Anda harus memperhatikan beberapa kesalahan yang sering terjadi.

1. Tidak Menyertakan Robots.txt di Root Directory

Selalu pastikan file robots.txt Anda berada di root directory website Anda agar search engine crawl dapat dengan mudah menemukan file Anda.

Misalnya, webstie Anda bernama “www.your-domain.com”, file robots.txt Anda harus terletak di “www.your-domain.com/robots.txt.”

Jika file robots.txt Anda ditempatkan di subdirektori, misalnya, “your-domain.com/contact/robots.txt”, crawler search engine mungkin tidak dapat menemukannya. Selain itu, Anda mungkin berpikir bahwa Anda belum menetapkan instruksi crawling untuk situs web Anda.

2. Menggunakan Instruksi Noindex di Robots.txt

Robots.txt harus fokus pada crawl directive daripada pengindeksan. Sekali lagi, Google menolak aturan noindex dalam file robots.txt.

Sebaliknya, untuk mengontrol pengindeksan, gunakan tag meta robots pada halaman tertentu, (seperti <meta name=”robots” content=”noindex”>).

3. Memblokir JavaScript dan CSS

Berhati-hatilah untuk tidak memblokir search engine untuk mengakses file JavaScript dan CSS melalui robots.txt kecuali ada alasan khusus untuk melakukannya, seperti membatasi akses ke data sensitif.

Dengan menggunakan robots.txt untuk mencegah search engine meng-crawl file-file ini, Anda dapat membuat search engine kesulitan memahami struktur dan konten website Anda.

Karena saerch engine mungkin tidak dapat memberikan halaman Anda sepenuhnya, hal ini dapat berdampak negatif pada peringkat pencarian Anda.

4. Tidak Memblokir Akses ke Situs atau Halaman yang Belum Selesai

Saat Anda mengembangkan versi baru dari website Anda, Anda harus menggunakan robots.txt untuk memblokir search engine menemukan konten yang belum selesai dalam hasil pencarian. Untuk mencegah konten yang belum selesai ditampilkan dalam hasil pencarian.

Search engine yang crawl dan index halaman yang sedang dalam pengembangan dapat menyebabkan User Experience yang buruk. Dan potensi masalah duplicate content.

Dengan memblokir akses ke robots.txt situs Anda yang belum selesai, Anda memastikan bahwa hanya situs yang telah diselesaikan dan telah dibersihkan yang muncul dalam hasil pencarian.

Note:

Pastikan bahwa halaman yang sedang dalam pengembangan tidak memiliki tautan ke internet, jika tidak, halaman tersebut masih dapat diindeks.

5. Menggunakan URL Absolute

Untuk mempermudah pengelolaan dan pemeliharaan, gunakan URL yang simple dalam file robots.txt Anda.

Jika domain Anda berubah, URL absolute dapat membuat kesalahan.

⛔ Contoh file robots.txt dengan URL absolute diberikan di sini:

User-agent: *
Disallow: https://www.example.com/private-directory/
Disallow: https://www.example.com/temp/
Allow: https://www.example.com/important-directory/

✅ Dan satu tanpa URL absolute:

User-agent: *
Disallow: /private-directory/
Disallow: /temp/
Allow: /important-directory/

6. Robots.txt vs Meta Directives

Mengapa menggunakan robots.txt, ketika Anda dapat memblokir halaman di level halaman dengan meta tag  “noindex”?

Seperti yang saya katakan sebelumnya, sangat sulit untuk menggunakan tag noindex pada resources multimedia seperti PDF dan video.

Selain itu, jika Anda memiliki website dengan ribuan halaman yang ingin Anda blokir, kadang-kadang lebih mudah untuk menggunakan robots.txt untuk memblokir seluruh bagian situs daripada menambahkan tag noindex secara manual ke setiap halaman.

Selain itu, ada situasi di mana Anda tidak ingin menghabiskan banyak resource untuk crawl Google yang mengarah pada halaman yang memiliki tag noindex.

Note:

Di luar 3 situasi ini, lebih baik menggunakan meta directives daripada robots.txt. Mereka lebih sederhana untuk diterapkan. Dan ada kemungkinan yang lebih kecil bahwa hal-hal buruk akan terjadi, seperti memblokir seluruh situs web Anda.

Teknik Terbaik Robots.txt

Gunakan Baris Baru untuk Setiap Directive

Setiap directive harus ditempatkan di baris baru.

Jika Anda tidak melakukannya, search engine mungkin tidak dapat memahaminya, dan instruksi Anda akan diabaikan.

Salah:

User-agent: * Disallow: /admin/
Disallow: /directory/

Benar:

User-agent: *
Disallow: /admin/
Disallow: /directory/

Gunakan Setiap User-Agent Hanya Sekali

Jika Anda menggunakan user-agent yang sama berulang kali, bot tidak akan keberatan.

Namun, satu hal yang perlu diperhatikan adalah menjaga semuanya teratur dan sederhana, dan mengurangi kemungkinan kesalahan manusia.

Membingungkan:

User-agent: Googlebot
Disallow: /example-page

User-agent: Googlebot
Disallow: /example-page-2

Lihat bagaimana user-agent Googlebot didaftarkan dua kali?

Jelas:

User-agent: Googlebot
Disallow: /example-page
Disallow: /example-page-2

Jika Anda menulis semua instruksi di bawah user-agent yang sama, itu akan lebih rapi dan membantu Anda tetap terorganisir. Namun, Google akan tetap mengikuti instruksi dalam contoh pertama.

Gunakan Wildcard untuk Memperjelas Directions

Untuk menerapkan directive ke semua user-agent dan mencocokkan pola URL, Anda dapat menggunakan wildcard (*).

Anda sebenarnya bisa mencantumkan parameter satu per satu untuk mencegah search engine mengakses URL dengan parameter.

Namun, itu tidak efektif. Wildcard dapat menyederhanakan instruksi Anda.

Tidak Efisien:

User-agent: *
Disallow: /sepatu/vans?
Disallow: /sepatu/nike?
Disallow: /sepatu/adidas?

Efisien:

User-agent: *
Disallow: /sepatu/*?

Contoh di atas memblokir semua bot mesin pencari dari meng-crawl semua URL di bawah subfolder “/sepatu/” yang memiliki tanda tanya.

Gunakan ‘$’ untuk Menunjukkan Akhir URL

Akhir URL ditunjukkan dengan menambahkan “$”.

Misalnya, Anda dapat mencantum file.jpg satu per satu untuk mencegah search engine meng-crawl semua file.jpg yang ada di situs Anda.

Namun, itu tidak akan efektif.

Tidak Efisien:

User-agent: *
Disallow: /foto-a.jpg
Disallow: /foto-b.jpg
Disallow: /foto-c.jpg

Sebagai gantinya, tambahkan fitur “$”:

Efisien:

User-agent: *
Disallow: /*.jpg$

Note:

Dalam contoh ini, “/dog.jpg” tidak bisa di-crawling, tetapi “/dog.jpg?p=32414” bisa di-crawling karena tidak diakhiri dengan “.jpg.”

Dalam situasi tertentu, seperti yang disebutkan di atas, ekspresi “$” adalah fitur yang bermanfaat, tetapi juga dapat merugikan.

Berhati-hatilah saat menggunakannya karena dapat membuka blokir apa pun dengan mudah.

Gunakan Simbol Hash untuk Menambahkan Komentar

Crawlers mengabaikan semua yang dimulai dengan hash (#).

Pengembang sering menggunakan hash untuk menambahkan komentar ke file robots.txt, yang membuat file tetap teratur dan mudah dibaca.

Untuk memasukkan komentar, awali baris dengan hash (#).

User-agent: *
#Landing Pages
Disallow: /landing/
Disallow: /lp/

#Files
Disallow: /files/
Disallow: /private-files/

#Websites
Allow: /website/*
Disallow: /website/search/*

Gunakan File Robots.txt Terpisah untuk Subdomain yang Berbeda

File robots.txt hanya bertanggung jawab atas perilaku crawling di subdomain yang dihosting.

Anda memerlukan file robots.txt yang berbeda untuk mengontrol crawling di berbagai subdomain.

Oleh karena itu, jika domain utama Anda berada di “domain.com” dan blog Anda berada di subdomain “blog.domain.com”, Anda akan membutuhkan dua file robots.txt: satu untuk direktori root domain utama dan yang lain untuk direktori root blog.

Cara Membuat File Robots.txt

Anda dapat menggunakan robots.txt generator tool atau membuat sendiri.

Ini adalah cara membuatnya dari awal:

1. Buat File dan Namakan Robots.txt

Mulai dengan membuka dokumen.txt menggunakan text editor atau web browser.
Daftar

Note:

Jangan gunakan pengolah kata karena file mereka sering disimpan dalam format proprietari yang memungkinkan penambahan karakter acak.

Selanjutnya, ubah nama dokumen menjadi “robots.txt”.

Anda sekarang siap untuk mulai mengetik directive.

2. Tambahkan Directive ke File Robots.txt

File robots.txt terdiri dari satu atau lebih kelompok directive dengan beberapa baris instruksi untuk setiap kelompok.

Setiap kelompok dimulai dengan user-agent dan mengandung data berikut:

  • Untuk siapa kelompok ini berlaku (user-agent)
  • File atau direktori (halaman) mana yang dapat diakses oleh agen
  • File atau direktori (halaman) mana yang tidak dapat diakses oleh agen
  • Sitemap (opsional) untuk memberi tahu search engine halaman dan file yang Anda anggap penting

Baris yang tidak sesuai dengan direktif ini diabaikan oleh crawlers.

Misalnya, jika Anda ingin Google tidak mengakses direktori “/clients/” hanya untuk penggunaan internal, kelompok pertama akan tampak seperti berikut:

User-agent: Googlebot
Disallow: /clients/

Instruksi tambahan dapat ditambahkan di baris terpisah di bawahnya, seperti ini:

User-agent: Googlebot
Disallow: /clients/
Disallow: /not-for-google

Setelah Anda menyelesaikan intruksi khusus untuk Google, tekan enter 2 kali untuk membuat kelompok directive baru.

Kita harus membuat kelompok ini untuk semua search engine, dan kita harus memastikan bahwa mereka tidak meng-crawl direktori “/archive/” dan “/support/” Anda karena hanya digunakan untuk penggunaan internal.

Ini akan terlihat seperti berikut:

User-agent: Googlebot
Disallow: /clients/
Disallow: /not-for-google

User-agent: *
Disallow: /archive/
Disallow: /support/

Setelah itu, tambahkan  sitemap Anda.

Ini adalah tampilan file robots.txt yang selesai:

User-agent: Googlebot
Disallow: /clients/
Disallow: /not-for-google

User-agent: *
Disallow: /archive/
Disallow: /support/

Sitemap: https://www.yourwebsite.com/sitemap.xml

Kemudian, simpan file robots.txt Anda. Ingatlah untuk namanya harus “robots.txt”.

Note:

Crawlers membaca dari atas ke bawah dan mencocokkan dengan kelompok aturan pertama dan paling spesifik. Oleh karena itu, mulailah file robots.txt Anda dengan user-agent tertentu. Kemudian, gunakan wildcard (*) yang lebih umum untuk mencocokkan semua crawlers.

3. Unggah File Robots.txt

Setelah Anda menyimpan file robots.txt di komputer Anda, unggah file ke server dan pastikan bahwa file tersebut tersedia untuk di-crawl search engine.

Sayangnya, tidak ada alat yang dapat digunakan untuk langkah ini.

Mengunggah file robots.txt tidak selalu mudah, ini tergantung pada bagaimana struktur file dan penyedia hosting website Anda.

Untuk mendapatkan bantuan dalam mengunggah file robots.txt, cari informasi online atau hubungi penyedia hosting Anda.

Misalnya, Anda dapat mencari “unggah file robots.txt ke WordPress”.

Cara mengunggah file robots.txt di platform paling populer dijelaskan dalam artikel berikut:

Periksa apakah file dapat dilihat oleh siapa aja dan apakah Google dapat membacanya setelah mengunggah file.

Ini adalah caranya.

4. Uji File Robots.txt Anda

Pertama, pastikan file robots.txt Anda diunggah dengan benar dan dapat diakses secara publik.

Buka incognito window di browser Anda dan cari file robots.txt Anda.

Jika Anda melihat file robots.txt Anda dengan konten yang telah Anda tambahkan, Anda siap untuk menguji markup (kode HTML).

Google menyediakan dua cara untuk menguji markup robots.txt:

Note:

Memeriksa file robots.txt Anda untuk masalah sangat penting, karena bahkan kesalahan kecil dapat berdampak negatif pada kemampuan situs Anda untuk diindeks.

Menjaga File Robots.txt Anda Bebas dari Kesalahan

Sekarang Anda tahu bagaimana file robots.txt berfungsi, sangat penting untuk mengoptimalkan file Anda sendiri. Ini karena kesalahan kecil dapat mengganggu kemampuan webstie Anda untuk di-crawling, diindeks, dan ditampilkan dengan benar dalam hasil pencarian.

Bagikan Postingan Ini

Derrel Gerary
Derrel Gerary
Articles: 25

Subscribe Sekarang!

Dapatkan berita terbaru seputar SEO | Digital Marketing Gratis!

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Translate »