Tampilkan postingan dengan label crawling. Tampilkan semua postingan
Tampilkan postingan dengan label crawling. Tampilkan semua postingan

Selasa, 24 Maret 2026

Crawling Web #2 Tidak ditemukan (404)

Ini terusan dari post yang pertama di alamat INI. Agak kepikiran aku dengan aktifitas google dan bing yang sedang merayapi blog ini. Dari hasil googling dan uji coba, aku bagikan hal-hal yang bisa kalian lakukan ya jika aktifitas crawling web ini sedang dilakukan pada website atau blog kalian. Seperti pada post yang pertama, crawling web adalah aktifitas yang dilakukan oleh bot milik google atau bing, dengan maksud pengideksan tiap halamannya, sehingga ketika seorang mencari suatu konten yang ada kaitannya dengan konten-konten yang kita sajikan di blog, akan ketemu melalui mesin pencari. Tujuannya baik ya, tentu. Tapi karena aktifitas ini dilakukan oleh bot, maka kesalahan sedikit saja langsung eksekusi. Kita tidak bisa menjelaskan jika tiba-tiba konten kita terblokir dari mesin pencari karena menurut bot tersebut ada plagiatisme, ada konten yang berulang-ulang, ada gambar yang tidak seharusnya, ada konten yang dilarang, dan semacamnya. 

Dari mana tahu kalo web kita sedang ada aktifitas crawling? Hal paling dasar jika kita pakai bloger, kita sudah dibekali menu statistik, jika tiba-tiba jumlah pengunjung membludak dalam sehari namun yang dilihat adalah postingan lama, bisa jadi itu tanda. Kita juga bisa lihat pada negara pengunjung, umunya berasal dari satu negara, dalam hal ini, blog saya dikunjungi oleh ratusan pengunjung dalam sejam dari Amerika Serikat. Glek. 

Kemudian, sebagai blogger, kita wajib main dengan google console. Karena disinilah aktifitas crawling tersebut dilaporkan. Kalian bisa masuk ke google console dengan alamat seperti dibawah ini. pilih yang search console. 
  • Google Play Console (Developer Android): play.google.com/console
  • Google Search Console (Webmaster): search.google.com/search-console
  • Google Cloud Console (Infrastruktur Cloud): console.cloud.google.com
  • Google Admin Console (G Suite/Workspace): admin.google.com
Tampilannya :

Oke bisa dilihat ya pada blog saya ditemukan 188 halaman bermasalah dengan masalah yang berbeda-beda. 
  1. Tidak ditemukan (404) jumlah 1
  2. Halaman alternatif dengan tag kanonis yang tepat  jumlah 75
  3. Halaman dengan pengalihan jumlah 10
  4. Error server (5xx) jumlah 9
  5. Di-crawl - saat ini tidak diindeks jumlah 93
  6. Diblokir oleh robots.txt jumlah  0
Solusinya? Untuk yang nomor 1, ada halaman 404, halaman tersebut sebelumnya sudah masuk ke indeks google namun kemudian saya hapus. Sehingga, ketika seseorang mencari informasi yang kaitannya dengan konten tersebut, di halaman google masih muncul namun ketika diklik akan ada notif : Halaman tidak ada. Oke solusinya adalah minta penghapusan dari indeks tersimpan google.

Caranya? Masuk ke menu penyusunan indeks - Pilih Penghapusan - Pilih Permintaan penghapusan


Itu adalah cara menyelesaikan problem nomor satu, yaitu 404. Atau halaman tidak ditemukan. Proses permintaan ini akan diproses dalam hitungan hari. Jadi sabar. 

Intinya, maksud kegiatan crawling web ini adalah baik. Membuat setiap halaman dan konten di website milik kita tersimpan pada memori google atau bing atau mesin penelusur lain, sehingga memudahkan pengguna untuk menemukan informasi yang similiar. Contoh penggunaan yang biasa kita lakukan adalah membandingkan harga suatu barang. Kalian tidak perlu membuka website satu persatu, hanya perlu mengetik harga produk yang dicari kemudian muncul info yang dibutuhkan. Informasi tersebut disediakan oleh web crawler yang sudah mengindeks data dari berbagai website terkait. Dan masih banyak lagi. 

Untuk 5 masalah yang lain kita sambung di post berikutnya ya. Kalo dijadikan satu disini akan panjang sekali. 

-Saya pasti pulang-
Share:

Senin, 23 Maret 2026

Crawling web #1 Apa Itu?

Seminggu yang lalu saya terkaget-kaget dengan statistik website saya yang tiba-tiba jumlah pengunjungnya ratusan orang per hari. Setelah saya jarang nulis tutorial microsoft office, jumlah pengunjung blog ini memang menurun drastis. Ya paling-paling 40 an per hari. Dan sebagian mampir ke tutorial microsoft office yang udah lawas. Karena selama beberapa hari jumlah pengunjung meledak jadi ratusan jadi saya agak khawatir, apa saya salah membuat suatu konten? Atau apa?

Seperti yang kita tahu, statistik website tidak bisa mengetahui pengunjung berasal dari mana saja, keyword yang mereka gunakan untuk menemukan blog kita pakai apa dan sebagainya. Hanya ada tampilan berapa jumlah pengunjung hari itu dan mampir ke konten yang mana saja. Karena agak khawatir saya browsing dan menemukan bahwa kemungkinan, sedang ada proses crawling web yang terjadi di blog saya.

Saya cek pakai google console dan ya ternyata bener. Jadi Web crawling adalah proses otomatis di mana robot perangkat lunak (disebut web spider atau crawler) menelusuri, membaca, dan mengindeks konten dari seluruh halaman web di internet. Ini adalah langkah utama mesin pencari seperti Google untuk menemukan, memahami, dan menyimpan data situs web agar dapat ditampilkan saat pengguna mencari informasi.

Berikut adalah poin-poin penting mengenai web crawling. Tujuan Utama web crawling adalah menemukan URL baru, mengindeks halaman, dan memperbarui konten web agar tetap relevan di hasil pencarian (SERP). Cara Kerjanya gimana? Crawler memulai dari daftar URL, mengunjungi situs tersebut, lalu mengikuti tautan (hyperlink) ke halaman lain, merekam kontennya, dan mengulanginya secara sistematis. Mesin pencari menggunakan bot (contoh: Googlebot) untuk menganalisis data, termasuk teks, gambar, dan video untuk menentukan peringkat. Perbedaan dengan Scraping adalah Crawling fokus pada penelusuran tautan untuk pengindeksan, sedangkan web scraping fokus mengekstraksi data spesifik untuk dianalisis. Web crawling memastikan situs web bisnis dapat ditemukan oleh mesin pencari, yang berdampak langsung pada visibilitas dan trafik organik.

Secara ringkas, web crawling membuat internet dapat dinavigasi, memungkinkan pengguna menemukan informasi yang relevan dengan cepat melalui mesin pencari.

Saat tulisan ini dibuat, proses crawl tersebut sepertinya sudah selesai dengan hasil yang ditampakan pada gambar diatas. Saya sendiri masih mencari tahu bagaimana memperbaiki masalah-masalah yang ditemukan itu. Kalo sudah ketemu, saya share untuk sesama teman blogger ya. Semoga bisa saling membantu. 

-Saya pasti pulang-
Share: