Crawl Budget

Home » Technical SEO » Crawl Budget

Apa itu Crawl Budget?

Crawl Budget adalah jumlah halaman URL yang diindeks dan dicrawl oleh Googlebot di sebuah website dalam waktu tertentu. Setelah itu, halaman tersebut akan ditransfer ke situs lain.

Ini adalah hal yang harus diperhatikan:

Search engine tidak memiliki banyak resources untuk memeriksa setiap website setiap hari, jadi mereka harus memprioritaskan apa dan kapan untuk di-crawl.

Sebelum membahas bagaimana mereka melakukannya, kita harus mendiskusikan mengapa hal ini penting untuk SEO Anda.

Mengapa Crawl Budget Penting untuk SEO?

Semuanya harus berjalan lancar selama proses tersebut agar konten Anda muncul dalam hasil pencarian.

Sebelum mendapatkan peringkat, pertama-tama Google harus meng-crawl dan mengindeks halaman Anda. 

Jadi, jika jumlah halaman yang Anda miliki di website melebihi budget crawling situs Anda, halaman tersebut tidak akan diindeks.

Ini dapat berdampak besar pada tujuan bisnis dan traffic organik Anda.

Namun, sebagian besar situs tidak perlu khawatir tentang crawl budget karena Google dan search engine lainnya sangat hebat dalam menemukan (crawl) dan meng-index halaman.

Tetapi dalam beberapa situasi tertentu, crawl budget Google sangat penting untuk SEO:

  • Website Anda sangat Besar: Jika website Anda besar dan kompleks (memiliki lebih dari 10.000 halaman), Google mungkin kesulitan menemukan halaman baru dengan cepat atau sering meng-crawl ulang semua halamannya.
  • Anda menambahkan banyak halaman baru: Jika Anda sering menambahkan halaman baru, crawl budget Anda dapat memengaruhi visibilitas halaman-halaman tersebut.
  • Masalah teknis terjadi di Website Anda: Jika ada masalah dengan crawlability website Anda yang menghalangi search engine untuk melakukan crawling secara efektif, konten Anda mungkin tidak muncul dalam search result.

Bagaimana Google Menentukan Budget Crawl?

Dua komponen utama menentukan cralw budget Anda:

1. Crawl Demand

Crawl Demand adalah seberapa sering Google meng-crawl website Anda berdasarkan persepsi yang dianggap penting (populer). Tingkat permintaan website Anda dipengaruhi oleh tiga komponen:

#1 Penemuan Daftar Inventory

Google biasanya akan mencoba untuk meng-crawl (merayapi) semua atau sebagian besar halaman yang diketahui di website Anda. Kecuali jika Anda meminta Google untuk tidak melakukannya.

Ini berarti Googlebot mungkin masih mencoba untuk menelusuri halaman duplikat dan halaman yang telah Anda hapus jika Anda tidak memberitahu mereka untuk melewatkannya. Misalnya melalui file robots.txt Anda (lebih lanjut tentang itu nanti) atau 404/410 kode status HTTP.

#2 Popularitas

Google umumnya memprioritaskan halaman yang memiliki lebih banyak backlink (link ke situs web lain) dan menarik lebih banyak traffic saat dicrawling. Kedua faktor ini dapat memberi tahu algoritma Google bahwa website Anda penting dan layak untuk di-crawl lebih sering.

Perhatikan jumlah backlink tidak penting — backlink harus relevan dan berasal dari sumber yang dapat dipercaya.

Meskipun tidak pasti, halaman ini mungkin adalah halaman situs Anda yang paling sering di-crawling oleh Google.

Oleh karena itu, perhatikan bahwa halaman penting yang memiliki sedikit backlink mungkin lebih jarang dilihat. Selain itu, pikirkan untuk menggunakan teknik backlink untuk mendapatkan lebih banyak website yang menautkan ke halaman penting Anda.

#3 Konten Kadaluarsa

Search engine bertujuan untuk meng-crawl konten dengan frekuensi yang cukup untuk mendeteksi perubahan, tetapi Google mungkin akan lebih jarang meng-crawl konten jika tidak banyak berubah seiring waktu.

Misalnya, karena situs web berita sering menerbitkan konten baru setiap hari. Dalam kasus ini, website memiliki permintaan crawling yang tinggi.

Ini tidak berarti Anda harus memperbarui konten setiap hari hanya untuk mencoba membuat Google mengindeks situs Anda lebih sering, seperti yang dikatakan oleh Google.

Oleh karena itu, berikan prioritas kepada kualitas konten daripada melakukan perubahan rutin yang tidak relevan untuk meningkatkan frekuensi perayapan.

2. Crawl Capacity Limit

Crawl Capacity Limit mencegah bot Google memperlambat website Anda karena terlalu banyak permintaan, yang dapat mengakibatkan masalah kinerja.

Terutama, kualitas website Anda secara keseluruhan dan batas perayapan Google sendiri.

#1 Kesehatan Crawl Website Anda

Seberapa cepat website Anda merespon permintaan Google dapat berdampak pada crawl budget.

Crawl Capacity Limit website dapat meningkat jika responsnya lebih cepat, dan Google mungkin akan meng-crawl halaman Anda lebih cepat.

Namun, jika situs Anda melambat, batas kapasitas perayapan Anda mungkin berkurang.

Jika situs web Anda mengalami kesalahan server, ini juga dapat mengurangi limit crawl tersebut. Selain itu, Google mungkin akan lebih jarang meng-crawl website Anda.

#2 Batas Crawl Google

Google memiliki resources tidak terbatas untuk menghabiskan waktu meng-crawl website yang tidak berfungsi. Itu sebabnya, budget untuk crawl ditempatkan di tempat pertama.

Pada dasarnya, ini adalah metode yang digunakan Google untuk menentukan halaman mana yang paling sering diakses.

Jika sumber daya Google terbatas, ini dapat berdampak pada Crawl Capacity Limit website Anda.

Cara Memeriksa Aktivitas Crawl Anda

Google Search Console (GSC) memberikan informasi menyeluruh tentang cara Google meng-crawl website Anda. Ini mencakup masalah yang mungkin terjadi dan perubahan perilaku crawling yang signifikan yang telah dilakukan oleh Google.

Ini dapat membantu Anda menentukan apakah ada masalah yang memengaruhi crawl budget Anda yang dapat Anda perbaiki.

Over-Time Charts

Grafik yang menunjukkan jumlah crawl requests Google website Anda dalam 90 hari terakhir.

Setiap kotak di atas memiliki arti berikut:

  • Total permintaan Crawl: Jumlah crawl requests Google dalam 90 hari terakhir.
  • Total ukuran Download: Jumlah total data yang diunduh oleh crawler Google selama periode tertentu saat mengakses website Anda.
  • Waktu respons rata-rata: Rata-rata waktu yang dibutuhkan server situs Anda untuk merespons permintaan dari crawler (dalam milidetik)

Host Status 

Status host menunjukkan seberapa mudah Google dapat meng-crawl situs Anda.

Misalnya, jika website Anda tidak mampu memenuhi tuntutan crawling Google, Anda mungkin akan melihat pesan “Host mengalami masalah di masa lalu.”

Dengan mengklik kotak ini, Anda dapat melihat informasi lebih lanjut jika ada masalah.

Ini akan mengidentifikasi masalah dengan:

  • Pengambilan file robots.txt
  • Domain Name System (DNS)
  • Konektivitas server

Crawl Requests Breakdown

Bagian laporan ini memberikan informasi tentang permintaan crawling dan mengelompokkannya berdasarkan:

  • Respon (misalnya, “OK (200)” atau “Not Found (404)”)
  • Jenis file URL (misalnya, HTML atau gambar)
  • Tujuan permintaan (“Discovery” penemuan untuk halaman baru atau “Refresh” pembaruan untuk halaman yang ada)
  • Jenis Googlebot (misalnya, smartphone atau desktop)

Setiap widget akan menampilkan informasi lebih lanjut jika Anda klik pada itemnya. Ini dapat termasuk halaman yang mengembalikan kode status tertentu.

Google Search Console dapat memberikan informasi bermanfaat tentang crawl budget Anda langsung dari sumbernya, tetapi alat lain dapat memberikan informasi lebih mendalam tentang cara meningkatkan kinerja website Anda.

7 Tips untuk Mengoptimalkan Crawl Budget

Setelah Anda mengetahui masalah crawl budget website Anda, Anda memiliki kemampuan untuk memperbaiki masalah tersebut untuk memaksimalkan efisiensi perayapan.

Berikut adalah beberapa tindakan penting yang dapat Anda ambil:

1. Perbaiki Site Speed Anda

Meningkatkan page speed dapat membantu Google mengelola situs Anda lebih cepat, sehingga memaksimalkan penggunaan crawl budget website dan pengalaman pengguna (UX) yang lebih baik.

Anda akan melihat rincian tentang seberapa cepat halaman Anda dimuat dan kecepatan rata-rata halaman, bersama dengan daftar kesalahan dan peringatan yang mungkin menyebabkan kinerja yang buruk.

Faktanya, Google menyatakan bahwa:

“Mempercepat situs meningkatkan pengalaman pengguna sambil juga meningkatkan tingkat crawling.”

Dengan kata lain: Halaman yang membutuhkan waktu lama untuk memuat, menghabiskan waktu Googlebot.

Namun, jika halaman Anda memuat dengan cepat, Googlebot memiliki waktu untuk mengunjungi dan mengindeks lebih banyak halaman di situs Anda.

Ada beberapa cara untuk mempercepat halaman Anda, seperti:

  • Mengoptimalkan gambar Anda: Untuk mengurangi ukuran file tanpa membuat gambar Anda buram, gunakan alat online seperti Image Compressor.
  • Meminimalkan kode dan skrip: Menggunakan alat online seperti Minifier atau plugin WordPress seperti WP Rocket dapat membantu mempercepat pemuat website Anda.
  • Apabila Anda menggunakan content delivery network (CDN): CDN adalah jaringan server terdistribusi yang mengirimkan konten web ke pengguna berdasarkan lokasi mereka untuk kecepatan muat yang lebih cepat.

2. Gunakan Internal Link

Googlebot memprioritaskan halaman yang memiliki banyak internal link dan external, yang dapat memaksimalkan penggunaan crawl budget Anda dan meningkatkan potensi peringkat Anda.

Memang idealnya untuk mendapatkan backlink yang mengarah ke setiap halaman website Anda, tetapi ini seringkali tidak mungkin untuk struktur internal link yang efektif. Pastikan bahwa Anda menghilangkan semua tautan yang tidak berfungsi dengan baik ke halaman Anda. Untuk internal link, tautan yang rusak mengarah ke halaman yang dihapus atau dipindahkan, yang belum dihapus atau dialihkan.

Anda perlu menemukan dan memperbaiki broken links sebagai praktik SEO terbaik.

Internal link sangat penting, dan ini tidak boleh diabaikan. Internal link Anda mengarahkan Googlebot ke setiap halaman situs yang Anda inginkan untuk diindeks.

Selain itu, ini membantu menghindari orphan page, yaitu halaman yang tidak memiliki internal link yang mengarah ke mereka. Google masih dapat menemukan halaman ini, tetapi akan jauh lebih mudah jika Anda memiliki internal link yang relevan yang mengarah ke mereka.

Untuk membantu search engine mengindeks dan meng-crawl konten Anda, periksa dan perbaiki masalah di setiap halaman ini.

3. Flat Website Architecture

Menurut Google: “URL yang lebih populer di Internet cenderung lebih sering dicrawling untuk menjaga agar tetap segar dalam indeks kami.”

Dan dalam dunia Google, Popularitas = Link Authority.

Karena itu, Anda harus menggunakan flat website architecture.

Semuanya diatur oleh arsitektur website yang simple, sehingga setiap halaman situs Anda memiliki link authority.

Hindari “Orphan Page”

Orphan Page tidak memiliki internal link atau external link.

Google kesulitan menemukan orphan page. Oleh karena itu, pastikan bahwa setidaknya ada satu tautan internal atau eksternal ke setiap halaman situs Anda jika Anda ingin memaksimalkan pengeluaran crawling Anda.

4. Selalu Update Sitemap Anda

Cara lain untuk mengarahkan Google ke halaman penting Anda adalah dengan memiliki sitemap XML yang paling baru. Selain itu, memperbarui sitemap saat Anda menambahkan halaman baru dapat membuat halaman tersebut lebih mungkin untuk di-crawling, meskipun ini tidak selalu benar.

Sitemap Anda mungkin terlihat seperti ini (bisa bervariasi tergantung pada metode yang Anda gunakan untuk membuatnya).

Google menyarankan agar Anda hanya memasukkan URL yang Anda inginkan untuk muncul dalam hasil pencarian dalam sitemap Anda.

Selain itu, tag dapat digunakan untuk menunjukkan kapan terakhir kali Anda memperbarui URL tertentu. Namun, ini tidak diperlukan.

5. Blokir URL yang Tidak Ingin di Crawl Search Engine

Untuk mencegah Google meng-crawl halaman yang tidak Anda inginkan, gunakan file robots.txt Anda. File ini memberi tahu bot mesin pencari halaman mana yang boleh dan tidak boleh di-crawling. Ini dapat membantu mengurangi anggaran crawling yang terbuang.

Mengapa Anda ingin mencegah crawling untuk beberapa halaman?

Karena beberapa halaman mungkin tidak relevan atau pribadi. Anda mungkin tidak ingin search engine menghabiskan resources mereka untuk halaman ini.

Semua halaman setelah “Disallow” menentukan halaman-halaman yang tidak Anda inginkan di-crawling oleh search engine.

Note:

Selain itu, tag meta “noindex” dapat digunakan untuk memblokir halaman. Namun, meskipun noindex dapat bermanfaat untuk tujuan lain, Google tidak menyarankan untuk menggunakannya untuk mencoba memengaruhi crawl budget.

6. Hapus Redirect yang Tidak Perlu

Pengalihan memungkinkan pengguna dan bot beralih dari satu URL ke URL lainnya, yang dapat menghemat waktu muat halaman dan mengurangi crawl bduget.

Ini bisa menjadi masalah, terutama jika Anda memiliki redirect chains. Redirect chains terjadi ketika ada lebih dari satu pengalihan antara URL asli dan URL akhir.

7. Perbaiki Broken Link

Broken link adalah tautan yang tidak mengarah ke halaman yang aktif, biasanya mengembalikan kode kesalahan “Not Found 404”.

Ini bukan hal yang buruk. Faktanya, halaman yang tidak ada biasanya akan menampilkan kode status 404. 

Meskipun demikian, karena banyak tautan yang mengarah ke halaman yang tidak berfungsi, bot mungkin terus mencoba meng-crawl halaman tersebut meskipun tidak memiliki nilai. Selain itu, pengguna yang mengikuti tautan tersebut tidak senang dengan hal ini.

8. Menghapus Duplicate Content

Duplicate Content adalah ketika Anda memiliki halaman yang sangat mirip di situs Anda. Masalah ini dapat membuang crawl budget karena bot pada dasarnya crawling versi halaman yang sama.

Ada banyak jenis duplicate content, seperti halaman yang sama atau hampir sama atau variasi halaman yang disebabkan oleh parameter URL (umum pada website e-commerce).

Ini disebabkan oleh keinginan Google untuk menghindari kerugian resources dengan mengindeks berbagai halaman yang memiliki konten yang sama.

Oleh karena itu, pastikan setiap halaman web Anda terdiri dari konten yang unik dan berkualitas tinggi.

Untuk situs yang memiliki lebih dari sepuluh ribu halaman, hal ini tidak mudah, tetapi ini adalah hal yang harus dilakukan jika Anda ingin memaksimalkan crawl budget Anda.

Jika Anda memilikinya, pertimbangkan pilihan berikut:

  • Untuk memberi tahu Google halaman mana yang ingin ditampilkan di hasil pencarian, masukkan tag “rel=canonical” ke dalam kode HTML Anda.
  • Pilih satu halaman untuk dijadikan halaman utama (pastikan untuk menambahkan apa pun yang hilang dari halaman utama yang terdapat di halaman duplikat). Kemudian, gunakan pengalihan 301 (301 redirects) untuk mengarahkan halaman-halaman duplikat.

Bagikan Postingan Ini

Derrel Gerary
Derrel Gerary
Articles: 25

Subscribe Sekarang!

Dapatkan berita terbaru seputar SEO | Digital Marketing Gratis!

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Translate »