Tampilkan postingan dengan label Web crawling. Tampilkan semua postingan
Tampilkan postingan dengan label Web crawling. Tampilkan semua postingan

Kamis, 26 Maret 2026

Crawling Web #4 Halaman Dengan Pengalihan

Ini adalah versi yang keempat dari seri crawling web, mengatasi halaman dengan pengalihan. Untuk yang 1, 2 dan 3 sudah aku sematkan alamatnya dibawah ya. 


Teman-teman blogger harus tahu bahwa url di blogspot ada yang mengandung parameter ?m=1 atau ?m=0 yang muncul ketika blog kita diakses melalui device mobile maupun komputer. Parameter ?m=1 digunakan untuk menunjukkan bahwa blog sedang diakses melalui dengan device mobile sementara ?m=0 digunakan untuk tampilan blog desktop. Hal ini secara otomatis membantu blog tampil sesuai dengan versi yang diinginkan, yang paling nyaman ukurannya dengan device mobile ataupun melalui desktop. Namun ada alasan kenapa parameter ini perlu dihapus.

Saya juga bingung, tapi pada proses web crawling, parameter ini bisa jadi dianggap sebagai duplikasi, dan kesalahan pada pengkodingan tema. Sehingga pengujung akan diberikan notifikasi phising. Padahal mah cuma karena adanya parameter ini doank.

Nah gimana cara menghilangkan parameter itu diblog? 

1. Langsung saja ke menu Tema - Sesuaikan - Edit HTML. Masukan kursor ke kode - Klik ctrl+f - ketik <head>. Kalo sudah ketemu copy paste script dibawah.
<scripttype="text/javascript"> if (window.location.href.indexOf('?m=1') > -1 || window.location.href.indexOf('?m=0') > -1) { window.location.href= window.location.href.split('?')[0]; } 
</script>
atau 
 <script>
    if (window.location.href.indexOf(&#39;?m=1&#39;) &gt; -1 || window.location.href.indexOf(&#39;?m=0&#39;) &gt; -1) {
        window.location.href= window.location.href.split(&#39;?&#39;)[0];
    }
</script>
Script di atas ini gunanya mendeteksi kode parameter ?m=1 atau ?m=0 dalam url situs kamu dan secara otomatis akan menghapusnya.

2. Masukan Script Redirect pada Server
Terus gimana kalo kamu pakai hosting mandiri? Atau misal pakai framework sendiri? Kamu bisa mengunakan pengaturan redirect untuk memastikan bahwa url tersebut tetap berjalan dengan baik, berikut penjelasan singkatnya. 

Tambahkan script pengaturan berikut pada file .htaccess:
RewriteEngineOn
RewriteCond%{QUERY_STRING}^m=1$ [OR]
RewriteCond%{QUERY_STRING}^m=0$
RewriteRule^(.*)$/$1? [R=301,L]
Aturan yang ditambahkan ke file .htaccess tersebut akan bermaksud untuk memastikan bahwa semua permintaan url dengan ?m=1 atau ?m=0 diarahkan ulang ke url tanpa parameter tersebut.

3. Test apakah script diatas berjalan
Setelah kamu menambahkan ini dan itu pada point nomor 1 atau nomor 2, silahkan uji coba apakah berjalan sebagaimana yang kita inginkan?  Coba akses url dengan parameter https://septinarizki.blogspot.com/?m=1 atau https://septinarizki.blogspot.com/?m=0 Jika blog masih dapat berjalan dengan normal baik kecepatan maupun tampilannya. Sudah dapat dipastikan masalah pada web crawling selesai. 

Dengan selesainya post tentang web crawling keempat ini, berakhir juga tulisan saya mengenai tema ini ya. Semoga teman blogger bisa mendapat jalan keluar yang baik dengan adanya web crawling yang dilakukan oleh bot para seach engine ini. 




-Saya pasti pulang-
Share:

Crawling Web #3 Halaman Alternatif Dengan Tag Kanonis Yang Tepat

Ini adalah crawling web bagian ke tiga yaitu solusi halaman alternatif dengan tag kanonis yang tepat. Yang bagian pertama dan kedua ada dibawah ini ya.


Pengertian dari tag Kanonis (rel="canonical") adalah kode HTML di bagian <head> situs web yang memberi tahu mesin pencari (seperti contohnya Google) versi URL utama mana yang harus diindeks dan ditampilkan dalam hasil pencarian. Tujuannya adalah Ini mencegah masalah konten duplikat ketika satu konten dapat diakses melalui beberapa URL.

Langsung saja contohnya biar cepet paham. Pada blog saya sebenarnya ada beberapa alamat yang bisa diakses padahal akan menuju halaman yang sama. Kalian bisa mengakses dengan :
  • https://septinarizki.blogspot.com
  • http://septinarizki.blogspot.com
  • www.septinarizki.blogspot.com
dan versi lainnya. Tapi, itu semua akan mengarah pada satu halaman yang sama yaitu home. Crawling web akan menemukan itu sebagai duplikat halaman karena isinya sama persis (doi nggak tahu, bukan isinya yang sama tapi memang halaman yang sama).

Lalu bagaimana solusinya? Ikuti langkah-langkah ini dengan santai, jangan tergesa-gesa. Kalo nggak nemu jangan langsung emosi. Komen aja. Disclaimer : Saya pakai blogspot, kalo kalian pakai wordpress caranya hampir sama. Tapi kalo kalian membangun website sendiri, intinya cari dimana koding pengaturan header itu berada. Biasanya ditandai dengan <head>.

1. Masuk ke blogspot, kemudian pilih menu tema. Kalian bisa memilih cadangkan jika tidak terlalu yakin akan menempelkan kode ini. Oke pilih Edit HTML.


2. Masukan kursor ke koding, kemudian ctrl + f, ketik <head> - enter


3. Pilih salah satu dari kode dibawah ini. Dan paste tepat dibawah <head>

<link rel="canonical" href="https:septinarizki.blogspot.com" />
<link href='https://septinarizki.blogspot.com/' rel='canonical'/>

Ganti alamat website dengan alamat website kamu. Kemudian simpan. Tombol simpan ada di kanan atas.

4. Uji URL aktif. Masuk google console - pilih inspeksi URL. Masukan alamat website kamu. Tunggu sebentar. Hasilnya ujinya tidak dapat ditemukan? Jangan panik. 

5. Pada kanan atas ada tombol UJI URL. Klik aja. Tunggu beberapa saat. 



Jika langkah-langkah kamu sudah benar. Harusnya akan tampil seperti gambar dibawah ini.



Nanti kita lanjut lagi caranya menyelesaikan halaman dengan pengalihan di post yang berbeda. Oki, sarapan dulu. Dadaah.





-Saya pasti pulang-
Share:

Selasa, 24 Maret 2026

Crawling Web #2 Tidak ditemukan (404)

Ini terusan dari post yang pertama di alamat INI. Agak kepikiran aku dengan aktifitas google dan bing yang sedang merayapi blog ini. Dari hasil googling dan uji coba, aku bagikan hal-hal yang bisa kalian lakukan ya jika aktifitas crawling web ini sedang dilakukan pada website atau blog kalian. Seperti pada post yang pertama, crawling web adalah aktifitas yang dilakukan oleh bot milik google atau bing, dengan maksud pengideksan tiap halamannya, sehingga ketika seorang mencari suatu konten yang ada kaitannya dengan konten-konten yang kita sajikan di blog, akan ketemu melalui mesin pencari. Tujuannya baik ya, tentu. Tapi karena aktifitas ini dilakukan oleh bot, maka kesalahan sedikit saja langsung eksekusi. Kita tidak bisa menjelaskan jika tiba-tiba konten kita terblokir dari mesin pencari karena menurut bot tersebut ada plagiatisme, ada konten yang berulang-ulang, ada gambar yang tidak seharusnya, ada konten yang dilarang, dan semacamnya. 

Dari mana tahu kalo web kita sedang ada aktifitas crawling? Hal paling dasar jika kita pakai bloger, kita sudah dibekali menu statistik, jika tiba-tiba jumlah pengunjung membludak dalam sehari namun yang dilihat adalah postingan lama, bisa jadi itu tanda. Kita juga bisa lihat pada negara pengunjung, umunya berasal dari satu negara, dalam hal ini, blog saya dikunjungi oleh ratusan pengunjung dalam sejam dari Amerika Serikat. Glek. 

Kemudian, sebagai blogger, kita wajib main dengan google console. Karena disinilah aktifitas crawling tersebut dilaporkan. Kalian bisa masuk ke google console dengan alamat seperti dibawah ini. pilih yang search console. 
  • Google Play Console (Developer Android): play.google.com/console
  • Google Search Console (Webmaster): search.google.com/search-console
  • Google Cloud Console (Infrastruktur Cloud): console.cloud.google.com
  • Google Admin Console (G Suite/Workspace): admin.google.com
Tampilannya :

Oke bisa dilihat ya pada blog saya ditemukan 188 halaman bermasalah dengan masalah yang berbeda-beda. 
  1. Tidak ditemukan (404) jumlah 1
  2. Halaman alternatif dengan tag kanonis yang tepat  jumlah 75
  3. Halaman dengan pengalihan jumlah 10
  4. Error server (5xx) jumlah 9
  5. Di-crawl - saat ini tidak diindeks jumlah 93
  6. Diblokir oleh robots.txt jumlah  0
Solusinya? Untuk yang nomor 1, ada halaman 404, halaman tersebut sebelumnya sudah masuk ke indeks google namun kemudian saya hapus. Sehingga, ketika seseorang mencari informasi yang kaitannya dengan konten tersebut, di halaman google masih muncul namun ketika diklik akan ada notif : Halaman tidak ada. Oke solusinya adalah minta penghapusan dari indeks tersimpan google.

Caranya? Masuk ke menu penyusunan indeks - Pilih Penghapusan - Pilih Permintaan penghapusan


Itu adalah cara menyelesaikan problem nomor satu, yaitu 404. Atau halaman tidak ditemukan. Proses permintaan ini akan diproses dalam hitungan hari. Jadi sabar. 

Intinya, maksud kegiatan crawling web ini adalah baik. Membuat setiap halaman dan konten di website milik kita tersimpan pada memori google atau bing atau mesin penelusur lain, sehingga memudahkan pengguna untuk menemukan informasi yang similiar. Contoh penggunaan yang biasa kita lakukan adalah membandingkan harga suatu barang. Kalian tidak perlu membuka website satu persatu, hanya perlu mengetik harga produk yang dicari kemudian muncul info yang dibutuhkan. Informasi tersebut disediakan oleh web crawler yang sudah mengindeks data dari berbagai website terkait. Dan masih banyak lagi. 

Untuk 5 masalah yang lain kita sambung di post berikutnya ya. Kalo dijadikan satu disini akan panjang sekali. 

-Saya pasti pulang-
Share:

Senin, 23 Maret 2026

Crawling web #1 Apa Itu?

Seminggu yang lalu saya terkaget-kaget dengan statistik website saya yang tiba-tiba jumlah pengunjungnya ratusan orang per hari. Setelah saya jarang nulis tutorial microsoft office, jumlah pengunjung blog ini memang menurun drastis. Ya paling-paling 40 an per hari. Dan sebagian mampir ke tutorial microsoft office yang udah lawas. Karena selama beberapa hari jumlah pengunjung meledak jadi ratusan jadi saya agak khawatir, apa saya salah membuat suatu konten? Atau apa?

Seperti yang kita tahu, statistik website tidak bisa mengetahui pengunjung berasal dari mana saja, keyword yang mereka gunakan untuk menemukan blog kita pakai apa dan sebagainya. Hanya ada tampilan berapa jumlah pengunjung hari itu dan mampir ke konten yang mana saja. Karena agak khawatir saya browsing dan menemukan bahwa kemungkinan, sedang ada proses crawling web yang terjadi di blog saya.

Saya cek pakai google console dan ya ternyata bener. Jadi Web crawling adalah proses otomatis di mana robot perangkat lunak (disebut web spider atau crawler) menelusuri, membaca, dan mengindeks konten dari seluruh halaman web di internet. Ini adalah langkah utama mesin pencari seperti Google untuk menemukan, memahami, dan menyimpan data situs web agar dapat ditampilkan saat pengguna mencari informasi.

Berikut adalah poin-poin penting mengenai web crawling. Tujuan Utama web crawling adalah menemukan URL baru, mengindeks halaman, dan memperbarui konten web agar tetap relevan di hasil pencarian (SERP). Cara Kerjanya gimana? Crawler memulai dari daftar URL, mengunjungi situs tersebut, lalu mengikuti tautan (hyperlink) ke halaman lain, merekam kontennya, dan mengulanginya secara sistematis. Mesin pencari menggunakan bot (contoh: Googlebot) untuk menganalisis data, termasuk teks, gambar, dan video untuk menentukan peringkat. Perbedaan dengan Scraping adalah Crawling fokus pada penelusuran tautan untuk pengindeksan, sedangkan web scraping fokus mengekstraksi data spesifik untuk dianalisis. Web crawling memastikan situs web bisnis dapat ditemukan oleh mesin pencari, yang berdampak langsung pada visibilitas dan trafik organik.

Secara ringkas, web crawling membuat internet dapat dinavigasi, memungkinkan pengguna menemukan informasi yang relevan dengan cepat melalui mesin pencari.

Saat tulisan ini dibuat, proses crawl tersebut sepertinya sudah selesai dengan hasil yang ditampakan pada gambar diatas. Saya sendiri masih mencari tahu bagaimana memperbaiki masalah-masalah yang ditemukan itu. Kalo sudah ketemu, saya share untuk sesama teman blogger ya. Semoga bisa saling membantu. 

-Saya pasti pulang-
Share: