Selasa, 24 Maret 2026

Crawling Web #2 Tidak ditemukan (404)

Ini terusan dari post yang pertama di alamat INI. Agak kepikiran aku dengan aktifitas google dan bing yang sedang merayapi blog ini. Dari hasil googling dan uji coba, aku bagikan hal-hal yang bisa kalian lakukan ya jika aktifitas crawling web ini sedang dilakukan pada website atau blog kalian. Seperti pada post yang pertama, crawling web adalah aktifitas yang dilakukan oleh bot milik google atau bing, dengan maksud pengideksan tiap halamannya, sehingga ketika seorang mencari suatu konten yang ada kaitannya dengan konten-konten yang kita sajikan di blog, akan ketemu melalui mesin pencari. Tujuannya baik ya, tentu. Tapi karena aktifitas ini dilakukan oleh bot, maka kesalahan sedikit saja langsung eksekusi. Kita tidak bisa menjelaskan jika tiba-tiba konten kita terblokir dari mesin pencari karena menurut bot tersebut ada plagiatisme, ada konten yang berulang-ulang, ada gambar yang tidak seharusnya, ada konten yang dilarang, dan semacamnya. 

Dari mana tahu kalo web kita sedang ada aktifitas crawling? Hal paling dasar jika kita pakai bloger, kita sudah dibekali menu statistik, jika tiba-tiba jumlah pengunjung membludak dalam sehari namun yang dilihat adalah postingan lama, bisa jadi itu tanda. Kita juga bisa lihat pada negara pengunjung, umunya berasal dari satu negara, dalam hal ini, blog saya dikunjungi oleh ratusan pengunjung dalam sejam dari Amerika Serikat. Glek. 

Kemudian, sebagai blogger, kita wajib main dengan google console. Karena disinilah aktifitas crawling tersebut dilaporkan. Kalian bisa masuk ke google console dengan alamat seperti dibawah ini. pilih yang search console. 
  • Google Play Console (Developer Android): play.google.com/console
  • Google Search Console (Webmaster): search.google.com/search-console
  • Google Cloud Console (Infrastruktur Cloud): console.cloud.google.com
  • Google Admin Console (G Suite/Workspace): admin.google.com
Tampilannya :

Oke bisa dilihat ya pada blog saya ditemukan 188 halaman bermasalah dengan masalah yang berbeda-beda. 
  1. Tidak ditemukan (404) jumlah 1
  2. Halaman alternatif dengan tag kanonis yang tepat  jumlah 75
  3. Halaman dengan pengalihan jumlah 10
  4. Error server (5xx) jumlah 9
  5. Di-crawl - saat ini tidak diindeks jumlah 93
  6. Diblokir oleh robots.txt jumlah  0
Solusinya? Untuk yang nomor 1, ada halaman 404, halaman tersebut sebelumnya sudah masuk ke indeks google namun kemudian saya hapus. Sehingga, ketika seseorang mencari informasi yang kaitannya dengan konten tersebut, di halaman google masih muncul namun ketika diklik akan ada notif : Halaman tidak ada. Oke solusinya adalah minta penghapusan dari indeks tersimpan google.

Caranya? Masuk ke menu penyusunan indeks - Pilih Penghapusan - Pilih Permintaan penghapusan


Itu adalah cara menyelesaikan problem nomor satu, yaitu 404. Atau halaman tidak ditemukan. Proses permintaan ini akan diproses dalam hitungan hari. Jadi sabar. 

Intinya, maksud kegiatan crawling web ini adalah baik. Membuat setiap halaman dan konten di website milik kita tersimpan pada memori google atau bing atau mesin penelusur lain, sehingga memudahkan pengguna untuk menemukan informasi yang similiar. Contoh penggunaan yang biasa kita lakukan adalah membandingkan harga suatu barang. Kalian tidak perlu membuka website satu persatu, hanya perlu mengetik harga produk yang dicari kemudian muncul info yang dibutuhkan. Informasi tersebut disediakan oleh web crawler yang sudah mengindeks data dari berbagai website terkait. Dan masih banyak lagi. 

Untuk 5 masalah yang lain kita sambung di post berikutnya ya. Kalo dijadikan satu disini akan panjang sekali. 

-Saya pasti pulang-
Share:

1 komentar: