buat blog: Crawler (Web Crawler)

Crawler adalah proses otomatis membaca, menunjuk, dan mengklasifikasikan pada interval peentuan tertentu. Web crawler, secara instan, akan menunjuk halaman web secara periodik untuk menentukan jika isi telah dubah. Isi web akan dirujuk oleh taksonomi sehingga end user dapat secara mudah menemukannya. Crawler tidak perlu membuat copy (salinan) dokumen yang ditunjuk; lebih baik dari merujuk dengan membuat virtual card yang menggambarkan dokumen. Virtual card tersebut akan hidup dalam indeks portal.

Web crawler adalah suatu program atau script otomat yang relatif simple, yang dengan metode tertentu melakukan scan atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data yang dicarinya. Nama lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.

Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan.

Ketika web crawl suatu search engine mengunjungi halaman web, ia “membaca” teks yang terlihat, hyperlink, dan konten berbagai tag yang digunakan dalam situs seperti meta tag yang banyak berisi keyword. Berdasar informasi yang dikumpulkan web crawl, search engine akan menentukan mengenai apakah suatu situs dan mengindex informasinya. Website itu kemudian dimasukkan ke dalam database search engine dan dilakukan proses penentuan ranking halaman-halamannya.

Namun search engine bukanlah satu-satunya pengguna web crawl. Linguist bisa menggunakan web crawl untuk melakukan analisis tekstual; yakni, mereka bisa menyisir Internet untuk menentukan kata apa yang paling umum digunakan hari ini. Peneliti pasar dapat menggunakan web crawl untuk menentukan dan memanipulasi trend pada suatu pasar tertentu. Ini semua merupakan contoh beragam penggunaan web crawl. Web crawl dapat digunakan oleh siapapun yang melakukan pencarian informasi di Internet.

Web crawl bisa beroperasi hanya sekali, misalnya untuk suatu projek yang hanya sekali jalan, atau jika tujuannya untuk jangka panjang seperti pada kasus search engine, mereka bisa diprogram untuk menyisir Internet secara periodik untuk menentukan apakah sudah berlangsung perubahan signifikan. Jika suatu situs mengalami trafik sangat padat atau kesulitan teknis, spider atau crawl dapat diprogram untuk mencatat hal ini dan mengunjunginya kembali setelah kesulitan teknis itu terselesaikan.

CONTOH WEB CRAWLER

Beberapa contoh web crawler:
1. Teleport Pro
Salah satu software web crawler untuk keperluan offline browsing. Software ini sudah cukup lama popular, terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di http://www.tenmax.com.

2. HTTrack
Ditulis dengan menggunakan C, seperti juga Teleport Pro, HTTrack merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk anda, agar dapat dilihat secara offline. Yang menarik software ini free dan dapat di download pada website resminya di http://www.httrack.com

3. Googlebot
Merupakan web crawler untuk membangun index pencarian yang digunakan oleh search engine Google. Kalau website anda ditemukan orang melalui Google, bisa jadi itu merupakan jasa dari Googlebot. Walau konsekuensinya, sebagian bandwidth anda akan tersita karena proses crawling ini.

4. Yahoo!Slurp
Kalau Googlebot adalah web crawler andalan Google, maka search engine Yahoo mengandalkan Yahoo!Slurp. Teknologinya dikembangkan oleh Inktomi Corporation yang diakuisisi oleh Yahoo!.

5. YaCy
Sedikit berbeda dengan web crawler lainnya di atas, YaCy dibangun atas prinsip jaringan P2P (peer-to-peer), di develop dengan menggunakan java, dan didistribusikan pada beberapa ratus mesin computer (disebut YaCy peers). Tiap-tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server central. Contoh search engine yang menggunakan YaCy adalah Sciencenet (http://sciencenet.fzk.de), untuk pencarian dokumen di bidang sains.

CARA KERJA WEB CRAWLER

1. Mesin pencari web bekerja dengan cara menyimpan informasi tentang banyak halaman web, yang diambil langsung dari WWW. Halaman-halaman ini diambil dengan web crawler — browser web otomatis yang mengikuti setiap pranala yang dilihatnya. Isi setiap halaman lalu dianalisis untuk menentukan cara mengindeksnya (misalnya, kata-kata diambil dari judul, subjudul, atau field khusus yang disebut meta tag). Data tentang halaman web disimpan dalam sebuah database indeks untuk digunakan dalam pencarian selanjutnya.

2. Mesin pencari juga menyimpan dan memberikan informasi hasil pencarian berupa pranala

yang merujuk pada file, seperti file audio, file video, gambar, foto dan sebagainya.

3. Ketika seorang pengguna mengunjungi mesin pencari dan memasukkan query, biasanya dengan memasukkan kata kunci, mesin mencari indeks dan memberikan daftar halaman web yang paling sesuai dengan kriterianya.

Sumber : http://djuyadi.wordpress.com/

Sumber : http://muhammadyusuf-gunadarma.blogspot.com/

buat blog

Minggu, 26 Oktober 2014

Crawler (Web Crawler)

Tidak ada komentar:

Posting Komentar