Mengenal googlebot dan webcrawl

Pengertian Googlebot

Mengenal googlebot

Googlebot adalah bot perayapan web Google (terkadang juga disebut "spider"). Perayapan adalah proses Googlebot dalam menemukan laman baru dan termutakhir untuk dimasukkan ke dalam indeks Google. Kami menggunakan banyak sekali komputer untuk mengambil (atau "merayapi") miliaran laman di web.

Googlebot adalah webcrawler (perayap jaringan) yang digunakan oleh Google. Googlebot digunakan untuk mencari dan mengumpulkan halaman-halaman di internet. Informasi yang dikumpulkan Googlebot digunakan untuk memperbarui index Google.

Googlebot mengunjungi triliyunan halaman yang ada di internet secara terus menerus , seperti halnya blog helmykkediri,com yang artikel terbarunya selalu di index oleh google dalam hitungan hari tergantung intensitas google bot dalam merayapi halaman


Pengertian webcrawl

Mengenal googlebot dan webcrawl

Web crawler adalah suatu program atau script otomatis yang relatif simple, yang dengan metode tertentu melakukan scan atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data yang dicarinya. Nama lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.

Webcrawl juga disebut sebagai robot , bots atau spider  Web crawl mengambil data dari setiap website seperti tautan link baik eksternal atau internal kemudian teks , gambar , element lain tipografi , video dll setiap data dari halaman website dirayapi dan disimpan kedalam googlecache

Data yang telah dikumpulkan oleh webcrawl nantinya digunakan untuk berbagai keperluan seperti index kemesin penelusuran baik web , gambar , video dsb kemudian disimpan kedalam google cache dan webarchive kemudian dikumpulkan untuk melakukan proses filtering sebelum tampil dihasil penelusuran paling atas . Misal blog helmykkediri.com sebelum diranking kegoogle difilter dulu oleh algoritma panda biasanya dicrawl apakah ada konten plagiat yang bernilai sama dengan website lain atau tidak begitu pula dari segi backlink webcrawl mengambil semua inbound link dan difilter menggunakan google pinguin untuk mengetahui spam links
Selengkapnya : Cara filter backlink sampah

Hubungan googlebot dengan website

Semua informasi yang telah dikumpulan oleh google bot nantinya akan diproses oleh algoritma mesin pencari , jika google bot mampu merayapi halaman anda dengan baik seharusnya proses index artikel kehalaman mesin pencari berlangsung dengan cepat . . . selain berperan dalam proses index , googlebot juga membantu algoritma google memberikan peringkat pada halaman website anda seperti yang sudah saya jelaskan diatas

Jadi langkah pertama untuk membuat website anda mudah terindeks dimesin pencari adalah dengan memastikan bahwa tidak ada resource atau pengaturan seperti robot txt yang memblokir perenderan oleh googlebot


Biasanya untuk masalah perayapan google bot diatur dalam pengaturan robot txt , setting tagtajuk robot khusus untuk pengguna blogger , penggunaan tag noindex nofollow dalam template , dan ijin perapan mesin pencari dipengaturan platform website masing-masing

Apakah googlebot bisa merayapi halaman blog saya ?

Untuk mengetahui apakah google bot bisa merayapi halaman anda atau tidak coba ketikkan kata kunci berikut dimesin pencari google site:helmykkediri.com set rentang waktunya menjadi seminggu terakhir guna memastikan saja bahwa bot google merayapi blog saya tanpa ada masalah pada waktu dekat ini

Itu adalah sebuah perintah untuk menampilkan seluruh halaman blog helmykkediri.com yang sebelumnya telah dikumpulkan oleh googlebot dan ditambahkan kedalam database pencarian google

 googlebot dan webcrawl

Dari sini anda bisa melihat jumlah halaman yang telah di index oleh google apakah jumlahnya wajar , kurang atau malah terlalu banyak

Jika jumlah indexnya sedikit misal hanya 20 padahal jumlah konten nya ada 100  berarti ada suatu hal yang menghalangi proses perenderan google bot coba dianalisa dari pengaturan robot txt , settingan tag tajuk robot khusus , lihat pengaturan search console terkait halaman yang diindex namun diblokir biasanya disana ditampilkan penyebab mengalaman halaman anda gagal dirayapi oleh bot google biasanya yang paling umum disebabkan oleh script tambahan dari histats atau iklan lain yang tidak dioptimalkan dengan async harusnya terindex setelah halaman selesai dimuat 70% namun justru menjadi prioritas untuk dimuat pertama kali dibandingkan main konten / konten utama maksudnya

Jika jumlah indexnya berlebihan misal post cuma 20 namun yang terindex ada 100 berarti ada halaman penting yang tidak sengaja ikut terindeks oleh google , coba diperhatikan apakah halaman arsip anda di index terlalu banyak ? bagaimana dengan halaman label apakah juga di index ? halaman statis juga ? duplikat versi mobile m=1 dengan dekstop m=0 ? jika iya coba gunakan tag noindex karena terlalu banyak halaman sampah yang terindex google menyebabkan kualitas halaman lain menjadi menurun ingat cara kerja algoritma google panda ? beberapa konten dengan kualitas rendah akan mempengaruhi kualitas seo seluruh halaman website anda

Jika jumlah indexnya wajar misal konten 1000 yang terindex 993 berarti tidak ada masalah , google bot hanya memerlukan waktu untuk menambahkan index pada postingan yang terbaru

Mana yang paling merusak seo website anda ? 

Keduanya merusak

Jika jumlah index sedikit maka visibilitas halaman anda tidak begitu terlihat dimata google dan google pun menganggap website anda minim konten , sebaliknya jika yang terindeks terlalu banyak tidak sesuai dengan konten yang benar-benar harus di index maka peringkat halamanya terbagi menjadi beberapa point sehingga menurunkan kualitas seo dari halaman yang benar-benar diunggulkan

Apakah googlebot bisa mengakses semua konten dan tautan ? tidak semua halaman bisa dilihat oleh googlebot misalnya

Ini adalah sitemap untuk seluruh postingan blog tidak termasuk halaman statis

http://www.helmykkediri.com/sitemap.xml

Ini adalah sitemap khusus halaman statis , postingan blog tidak termasuk

http://www.helmykkediri.com/sitemap-pages.xml

Kita harus memberikan prioritas mana halaman yang memang penting di indeks oleh google dan diperlihatkan kepada SEO , kita juga harus menyembunyikan halaman yang dapat mempengaruhi konten unggulan diSERP

Halaman statis , arsip , label , pencarian merupakan halaman yang dapat menurunkan kualitas seo website anda dan memang sebaiknya disembunyikan dari serp
Beberapa penyebab google tidak bisa merayapi semua isi halaman anda diantaranya karena
  1. Diblokir robot txt , coba pergi ke search console lihat pada laporan cakupan indeks
  2. Link mati atau broken link 404 juga mempengaruhi kualitas seo silahkan cek dengan broken link checker
  3. Menggunakan teknologi frame flash modern yang belum mampu dibaca oleh google
  4. Ada script template atau widget yang error sehingga menghalangi render
  5. Link dinamis yang selalu berubah - ubah berdasarkan ID
  6. Script lain yang memblokir perenderan seperti histat , googleapis translate dan frame facebook
Untuk menguji mana halaman yang error atau tidak bisa dirayapi dengan sempurna oleh google cobalah menggunakan fasilitas fetch and render disearch console , lihatlah dalam format laporan apakah bot bisa merender semua halaman atau tidak

Atau anda juga bisa melihat melalui google cached caranya ketikkan saja site:helmykkediri.com klik bagian panah kecil menuju bawah lalu pilih cached coba lihat apakah halaman anda ditampilkan secara utuh lengkap dengan wiget tambahan seperti badges DMCA atau tidak , jika tidak berarti itulah sumber daya yang gagal dirender oleh bot crawl

dirender oleh bot crawl

Cara lainya cek saja di google pagespeed insight , lihat saran pengoptimalan apakah ada saran untuk memperbaiki script yang menghalangi perenderan oleh google bot atau tidak

Bagaimana cara mengendalikan google bot ?

Kita bisa mengendalikan google bot dengan memberikan tanda noindex atau disallow pada tempat-tempat yang memang menghabiskan kuota index atau dalam algoritma google panda ditakutkan sebagai penggolongan konten berkualitas rendah

Cara mengendalikan bot google

  • Menggunakan robot txt
 Ini adalah file yang berisi aturan bagaimana seharusnya robot perayap berinteraksi di halaman web anda. Yang perlu anda ketahui adalah;... hanya karena website anda menggunakan robots.txt bukan berarti semua robot akan mengikuti aturan yang ada di dalamnya.

Robot dari pihak yang tidak baik tentu saja tidak akan mempedulikan aturan di dalam robots.txt ini.

Khusus Googlebot; anda bisa mengatur halaman mana yang boleh dan tidak boleh diakses oleh Googlebot saat datang ke website anda.
  • Peta situs dan robot tag tajuk khusus
  Peta situs berisi data semua alamat website anda , selain itu juga terdapat data dengan parameter lastmodified artinya konten yang terakhir kali anda edit

Sitemap membantu google memahami struktur website anda , sebenarnya anda harus mengirimkan peta situs untuk membantu dalam keperluan seo

- Jika anda memiliki website besar dengan puluhan ribu konten sebaiknya bantu googlebot memahami setiap url blog anda dengan mengirimkan sitemap

- Website anda memang memiliki banyak konten namun saling terisolasi atau tidak memiliki struktur link yang baik , misal kita membuat konten tanpa related link sama sekali sehingga membuat konten sulit bersaing digoogle

-  Situs anda masih baru sehingga mengalami kesulitan dalam hal index , googlebot memanfaatkan peta situs untuk memahami seluruh halaman website anda
  • Tag nofollow dan noindex 
untuk memblokir bot google merayapi sebuah halaman contoh
<!-- Noindex halaman pencarian, label, dan arsip -->
<b:if cond='data:blog.pageType in {&quot;archive&quot;} or data:blog.searchLabel or data:blog.searchQuery'>
<meta content='noindex,nofollow' name='robots'/>
</b:if>

Jenis google bot ada 9 , artinya selain konten ada beberapa element lain yang dikumpulkan oleh googlebot

-Googlebot (Google Web search) untuk mengambil data setiap halaman dalam website helmykkediri.com

-Google Smartphone , pencarian untuk versi dekstop dan seluler itu berbeda mungkin anda ingat bahwa januari kemarin google menerbitkan aturan google first page speed index artinya web dengan AMP atau cepat dalam versi seluler mempengaruhi hasil peringkat dipenelusuran versi seluler

-Google Mobile (Feature phone) , pencarian untuk feature phone hasilnya berbeda juga dalam versi seluler maupun dekstop , biasanya web berat akan dibuka dalam mode googleweblight

-Googlebot Images , pentingnya memberikan title pada image yang kita upload agar gambar dalam blog juga tampil pada pencarian google image

-Googlebot Video , bukan hanya konten dan gambar bahkan video pun memiliki pencarian nya sendiri

-Googlebot News , khusus bagi website yang terdaftar dalam googlenews saja yang kontenya bisa tampil disini selebihnya gak akan bisa , daftar google news juga sulit diantaranya website harus sering up to date

-Google Adsense, bot google adsense biasanya digunakan untuk mengumpulkan jumlah klik dari setiap halaman yang berbeda selain itu juga digunakan untuk filtering badwords

-Google Mobile Adsense , ehm Memeriksa kualitas iklan pada halaman aplikasi Android. Mematuhi aturan robot AdsBot-Google

-Google Adsbot (landing page quality check) , Memeriksa kualitas iklan pada halaman desktop

Demikian penjelasan singkat mengenai google bot semoga bermanfaat jika ada yang menambahkan atau bertanya saya persilahkan saja , menyumbang opini dan pendapat pribadi pun juga boleh asal mematuhui aturan yang saya buat yaitu jangan sara . sekian terimakasih

Belum ada Komentar untuk "Mengenal googlebot dan webcrawl"

Posting Komentar

Sumber artikel: Pengetahuan penulis , pos tamu , tulisan temen dan situs lain

Jika ingin melakukan full copas/nyepin cantumkan sumber , dari pada site-mu saya laporkan ke DMCA ditandai sebagai web spam dan disembunyikan dari Serp

Apabila ditemukan dead link tolong beri tahu saya melalui komentar

Tidak menerima pemasangan slot iklan apapun.

Iklan Atas Artikel

Iklan Tengah Artikel 1

Iklan Tengah Artikel 2

Iklan Bawah Artikel