Halaman

Spider, Bots, dan Crawler

robot text, spider, bots dan crawler tutorhackblog.blogspot.comSpider, Bots, dan Crawler adalah sejenis robot penjelajah di dunia internet yang bertugas mengunjungi website-website dengan maksud dan tujuan berbeda. Tapi “padanya dasara” pekerjaan utama mereka mengambil data tentang sebuah website, mengindexnya, membawanya, dan menyimpannya didalam database pusat. Jika kita “pasti” pernah mencari suatu keyword di search engine macam Google, maka dalam sekejap akan muncul beratus-ratus sampai berjuta-juta link pada halaman Google tersebut (dinamakan SERP : Search Engine Result Page). Nah karena dengan teknologi yang sekarang sangat sulit untuk mendapatkan banyak link di seluruh dunia dalam waktu sekitar satu detik, dalam prosesnya Google menggunakan simpanan database yang telah dicari oleh Spider, Bots, dan Crawler sebelumnya.

Sesuai dengan dunia nyata, Robot text hanya diberi tugas untuk memindai, mengindex, dan membawa data untuk disimpan di database. Selain tugas yang diberikan robot ini tidak mempunyai nafsu untuk melakukan tugas-tugas lainnya. Untuk memasukkan (memasang) Robot Text ke blog kita bukanlah hal yang sulit. Namun ini penting juga artinya sebagaimana banyak digunakan dan dibahas master SEO.


Bagi pengguna blogger.com atau jika blognya masih gratisan seperti saya ini, caranya adalah memasukkan kode-kode berikut pada html code bagian meta tag (atau antara dan ).
Kode untuk mencegah robot mengindex :

Kode untuk membolehkan robot mengindex halaman yang bersangkutan, akan tetapi jika ada hyperlinks didalam halaman tersebut tidak ikut diindex atau diikuti :

Kode agar halaman yang bersangkutan tidak diindex, dan link-link lainnya tidak diikuti. Juga mencegah web-stripper (mirroring) mendownload misalnya software program dari halaman tersebut :

Kode mana yang anda pilih dan bagaimana anda memodifikasinya tergantung anda.


Jika blog atau website anda hosting sendiri alias punya rumah sendiri anda bisa membuat robot text dengan menggunakan Notepad Windows. Dengan mengetikkan beberapa perintah yang diperlukan kita bisa mengarahkan para Googlebot, lalu menyimpannya dengan nama file robots.txt, dan selanjutnya kita upload ke root folder di server dengan menggunakan aplikasi FTP.
Sintax dasar sebuah robots.txt adalah sbb:

User-agent: (keterangan: spiders name here)
Disallow:/
(keterangan: filename here)


Berikut saya berikan beberapa contoh sintax robot text yang disimpan di dalam robots.txt al:

User-agent: *
Disallow:


(Perhatikan sintax diatas User-agent: *, (tanda bintang atau wildcard) artinya semua jenis robot, dan Disallow: maksudnya yang tidak diperbolehkan. Pada contoh sintax diatas dimana Disallow: tidak disertai dengan tanda garis miring ( / ), itu artinya semua file boleh diindex.


User-agent: *
Disallow: /


(Perhatikan sintax diatas User-agent: *, (tanda bintang atau wildcard) artinya semua jenis robot, dan Disallow: maksudnya tidak diperbolehkan, / (tanda garis miring) itu artinya folder. Pada contoh sintax diatas dimana sesudah tanda miring ( / ) tidak disertai dengan apa-apa, itu artinya semua file tidak boleh diindex.

User-agent: *
Disallow: /images/



(sintax diatas membolehkan semua jenis robot mengindex semua file yang ada, kecuali file images, Disallow: maksudnya dilarang mengindex file images)

User-agent: *
Disallow: /images/
Disallow: /stats/



(sintax diatas membolehkan semua jenis robot mengindex semua file yang ada, kecuali file images dan file stats, Disallow: maksudnya dilarang mengindex file images dan file stats)

User-agent: Googlebot
Disallow: /


(sintax diatas User-agent: Googlebot maksudnya khusus robot Googlebot dilarang masuk, robot lainnya dipersilahkan masuk dan mengindex semua file)

User-agent: Googlebot-Image
Disallow: /images/


(sintax diatas User-agent: Google-Image maksudnya khusus Google-Image tidak boleh mengindex file images)
Jika anda ingin melarang robot untuk mengindex beberapa file tertentu, misalnya file1.html, file2.html,anda tidak boleh menuliskannya seperti sintax dibawah ini.

User-agent: *
Disallow: /file1.htm,file2.html


Cara penulisan sintax yang benar adalah
User-agent: *
Disallow: /file1.htm
Disallow: /file2.html


Cara-cara tersebut adalah cara manual, sedangkan jika anda ingin praktis dan mudah banyak juga robot text generator online yang ada di internet.
Beberapa layanan online robot text generator ada yang berbayar namun ada juga yang gratis. Berikut beberapa layanan online robot text generator yang bisa anda gunakan (ada yang gratisan ada pula yang berbayar) :
  1. 1-hit Robots.Txt Generator
  2. Advanced Robots.txt Generator
  3. DotNetNuke Robots.txt Generator Module
  4. Global promoter’s Robots.txt File Generator
  5. Hypergurl Robot Text Generator
  6. Invision-graphics Robots.txt Generator Tool
  7. Mcanerin’s Robots.txt Tool
  8. Online Robots.txt Generator
  9. Oven Fresh Robots.txt Maker
  10. Page promoter’s Robots.txt
  11. Position gold’s Robots.txt Generator
  12. RoboGen ROBOTS.TXT Editor
  13. Robot-Manager Standard Edition
  14. Robotstxt.ca
  15. Search bliss Robots.txt Generator
  16. Seo Administrator - robots.txt generator
  17. SEO Tools - Robots.txt Generator
  18. SEO-watch. Robots.txt Generator
  19. Site submit robots.txt
  20. Submit corner’s Robots Generator
  21. Visibility Robots.txt Generator
  22. Website tool box pro Robots.txt File Generator
  23. Yellow pipe’s Robots.txt Generator
Anda bisa melakukan test robots.txt anda yang terdapat di root server anda menggunakan layanan online gratis ini di sini

Selamat Mencoba.

Baca juga Artikel lainnya :

1 komentar:

Pace Photo mengatakan...

mantap.. jadi ngerti tuh tulisan kode-kode yang bikin puyeng... tapi masih bingung cara uploadnya.

Posting Komentar