TUGAS SOFTSKILL MENGANALISA WEBSITE
Analisis Web
adalah pengukuran, pengumpulan, analisis dan pelaporan data internet untuk
tujuan memahami dan mengoptimalkan penggunaan web. Web analytics bukan hanya
alat untuk mengukur lalu lintas web, tetapi dapat digunakan sebagai alat untuk
bisnis dan riset pasar, dan untuk menilai dan meningkatkan efektivitas dari
sebuah situs web, membantu orang untuk memperkirakan bagaimana lalu lintas ke
situs web berubah setelah peluncuran kampanye iklan baru. Web analytics
menyediakan informasi tentang jumlah pengunjung ke sebuah situs web dan jumlah
tampilan halaman. Ini membantu mengukur lalu lintas dan popularitas tren yang
berguna untuk riset pasar.
pengukuran kinerja web (web measurement) adalah seni untuk
mengumpulkan data dan menganalisa data agar dapat digunakan dan mudah dibaca
oleh manusia. Salah satu teknik mengukur dan menguji suatu kinerja web adalah
dengan mengukur pengalaman seseorang atau user experience pengunjung situs yang
berinteraksi dengan halaman-halaman web yang berada di internet.
Ada beberapa
tools yang digunakan untuk mengukur website dari segi kecepatan akses dan
performanya, serta mengukur banyaknya pengunjung suatu website. Dibawah ini
akan dipaparkan beberapa tools tersebut:
1. Pingdom
Tools
Beberapa
kelebihannya di kategorikan sebagai berikut :
Performance
Grade : melihat nilai kecepatan performa halaman web, dari akses DNS, browser
cache, combine external css dan lain-lain.
Waterfall : melihat detail kecepatan akses ketika membuka
halaman web, dari gambar bahkan sampai seberapa cepat script tersebut dapat di
akses.
Page Analysis : melihat detail analisa halaman web.
History : melihat detail akses dari beberapa hari lalu.
Kekurangan
yang terdapat pada tools ini, sama seperti tools alat ukur akses web pada
umumnya yaitu Membutuhkan akses internet yang stabil, karena tidak mungkin kita
bisa mengukur kecepatan akses suatu website kalau akses internet kita terhadap
website tersebut tidak stabil/berjalan dengan baik.
2. GTmetrix
Adalah website untuk
menganalisa kecepatan web yang tersedia secara gratis, dengan menggunakan
google page speed dan Yahoo Yslow sebagai analyze engine dan untuk menampilkan
hasil serta rekomendasi yang harus dilakukan.
Dengan GTmetrix juga dapat membandingkan beberapa URL
sekaligus
3. Alexa
Rank
Alexa Internet, Inc. adalah perusahaan yang mengoperasikan situs yang
menyediakan informasi mengenai banyaknya pengunjung suatu situs dan urutannya.
Cara kerja Alexa rank Alexa memberikan peringkat ke sebuah situs berdasarkan
jumlah pengunjung unik. Semakin rendah alexarank dari situs berarti situs
memiliki sedikit pengunjung unik.Jadi jika Anda
bisa mendapatkan lebih banyak traffic ke situs Anda, Anda akan mendapatkan
lebih rendah alexa rank.
Selain
tools-tools diatas, masih banyak tools serupa lainnya yang bisa dicari sendiri
di Search Engine.
Crawlers
Crawler adalah
robot milik search engine yg tugasnya mengumpulkan informasi pada halaman
blog/web dan semua media internet yg bisa diindeks oleh search engine.
Cara kerja
Crawlers, Pertama robot mengumpulkan informasi pada halaman blog/web dan semua
media internet yg bisa diindeks oleh search engine. Robot tersebut kemudian
membawa informasi yg didapatnya ke data center. Di data center, data tersebut
kemudian di oleh sedemikian rupa, apabila memenuhi persyaratan, maka dia akan
dimasukkan ke dalam indeks. Nah, proses yg dilakukan oleh user search engine
adalah memanggil indeks-indeks tersebut, apabila indeks2 memiliki kesesuaian
dengan yg dicari user (dan bila memiliki peringkat yg baik), di akan
ditampilkan di halaman utama search engine (berperingkat).
Web crawler
adalah suatu program atau script otomat yang relatif simple, yang dengan metode
tertentu melakukan scan atau “crawl” ke semua halaman-halaman Internet untuk
membuat index dari data yang dicarinya. Nama lain untuk web crawl adalah web
spider, web robot, bot, crawl dan automatic indexer.
Web crawl dapat digunakan untuk beragam tujuan. Penggunaan
yang paling umum adalah yang terkait dengan search engine. Search engine
menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di
halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga
ketika pengguna Internet mengetikkan kata pencarian di komputernya, search
engine dapat dengan segera menampilkan web site yang relevan.
Ketika web
crawl suatu search engine mengunjungi halaman web, ia “membaca” teks yang terlihat,
hyperlink, dan konten berbagai tag yang digunakan dalam situs seperti meta tag
yang banyak berisi keyword. Berdasar informasi yang dikumpulkan web crawl,
search engine akan menentukan mengenai apakah suatu situs dan mengindex
informasinya. Website itu kemudian dimasukkan ke dalam database search engine
dan dilakukan proses penentuan ranking halaman-halamannya.
Search Engine
Mesin pencari
atau Search engine adalah program komputer yang dirancang untuk melakukan
pencarian atas berkas-berkas yang tersimpan dalam layanan www, ftp, publikasi
milis, ataupun news group dalam sebuah ataupun sejumlah komputer peladen dalam
suatu jaringan. Search engine merupakan perangkat pencari informasi dari
dokumen-dokumen yang tersedia. Hasil pencarian umumnya ditampilkan dalam bentuk
daftar yang seringkali diurutkan menurut tingkat akurasi ataupun rasio
pengunjung atas suatu berkas yang disebut sebagai hits. Informasi yang menjadi
target pencarian bisa terdapat dalam berbagai macam jenis berkas seperti
halaman situs web, gambar, ataupun jenis-jenis berkas lainnya. Beberapa mesin
pencari juga diketahui melakukan pengumpulan informasi atas data yang tersimpan
dalam suatu basisdata ataupundirektori web.
Sebagian besar
mesin pencari dijalankan oleh perusahaan swasta yang menggunakan algoritma
kepemilikan dan basisdata tertutup, di antaranya yang paling populer adalah
Google (MSN Search danYahoo!). Telah ada beberapa upaya menciptakan mesin
pencari dengan sumber terbuka (open source), contohnya adalah Htdig, Nutch,
Egothor dan OpenFTS.
Mesin pencari
web bekerja dengan cara menyimpan informasi tentang banyak halaman web, yang
diambil langsung dari WWW. Halaman-halaman ini diambil dengan web crawler —
browser web otomatis yang mengikuti setiap pranala/link yang dilihatnya. Isi
setiap halaman lalu dianalisis untuk menentukan cara indeks-nya (misalnya,
kata-kata diambil dari judul, subjudul, atau field khusus yang disebut meta
tag). Data tentang halaman web disimpan dalam sebuah database indeks untuk
digunakan dalam pencarian selanjutnya. Sebagian mesin pencari, seperti Google,
menyimpan seluruh atau sebagian halaman sumber (yang disebut cache) maupun informasi
tentang halaman web itu sendiri.
Selain halaman
web, Mesin pencari juga menyimpan dan memberikan informasi hasil pencarian
berupa pranala yang merujuk pada file, seperti file audio, file video, gambar,
foto dan sebagainya, serta informasi tentang seseorang, suatu produk, layanan,
dan informasi beragam lainnya yang semakin terus berkembang sesuai dengan
perkembangan teknologi informasi.
Ketika seseorang mengunjungi mesin pencari dan memasukkan
query, biasanya dengan memasukkan kata kunci, mesin mencari indeks dan
memberikan daftar halaman web yang paling sesuai dengan kriterianya, biasanya
disertai ringkasan singkat mengenai judul dokumen dan kadang-kadang sebagian
teksnya.
Archiving Web
Adalah proses pengumpulan bagian-bagian dari World Wide Web
untuk memastikan informasi tersebut diawetkan dalam arsip bagi para peneliti di
masa depan, sejarawan, dan masyarakat umum. Web Archivist biasanya menggunakan
web crawler untuk menangkap otomatis karena ukuran besar dan jumlah informasi
di Web. Organisasi terbesar web pengarsipan berdasarkan pendekatan bulk
crawling adalah Internet Archive yang berusaha untuk mempertahankan sebuah
arsip dari seluruh Web.
Web Archive
adalah Sebuah file format terkompresi, didefinisikan oleh Java EE standar,
untuk menyimpan semua sumber daya yang diperlukan untuk menginstal dan
menjalankan aplikasi Web dalam satu file.
Teknik yang
paling umum digunakan dalam pengarsipan Web adalah dengan menggunakan web
crawler untuk mengotomatisasi proses pengumpulan halaman web. Web crawler
biasanya mengakses halaman web dengan cara yang sama seperti yang user biasa
lihat pada Web. Contoh pengarsipan web yang menggunakan web crawlers
diantaranya adalah :
1. Heritrix
Heritrix adalah crawler web yang dirancang untuk keperluan
Web Archiving. Heritrix ditulis oleh Internet Archive. Heritrix berlisensi free
software dan ditulis dalam bahasa Java. Interface utama dapat diakses
menggunakan Web Browser,, ada beberapa baris perintah yang opsional dapat
digunakan untuk menginisiasi Crawler.
Heritrix
dikembangkan bersama oleh Internet Archive dan perpustakaan nasional Nordic
pada awal 2003. Rilis resmi pertama adalah pada bulan Januari 2004, dan telah
terus ditingkatkan oleh karyawan dari Internet Archive dan pihak lain yang
berkepentingan.
Heritrix bukan
crawler utama yang digunakan untuk menjelajah konten untuk koleksi web Internet
Archive selama bertahun-tahun. Penyumbang terbesar untuk koleksi adalah Alexa
Internet. menjelajah web untuk keperluan sendiri, dengan menggunakan crawler
bernama ia_archiver. Alexa kemudian menyumbangkan materi ke Internet Archive.
Internet Archive sendiri melakukan crawlingnya sendiri menggunakan Heritrix,
tetapi hanya pada skala yang lebih kecil.
Mulai tahun
2008, Internet Archive mulai peningkatan kinerja untuk melakukan Crawling skala
luas sendiri, dan sekarang telah mengumpulkan sebagian besar isinya.
2. HTTrack
HTTrack merupakan Web Crawler yang gratis dan bersifat open
source, dikembangkan oleh Xavier Roche dan berlisensi di bawah Lisensi GNU
General Public License Versi 3. HTTrack memungkinkan pengguna untuk
men-download situs World Wide Web dari Internet ke komputer lokal. HTTrack juga
dapat mengupdate situs mirror yang ada dan melanjutkan download terputus.
HTTrack dikonfigurasi dengan option dan oleh filter (include/exclude), dan
memiliki sistem bantuan yang terintegrasi. Ada versi baris perintah dasar dan
dua versi GUI (WinHTTrack dan WebHTTrack)
HTTrack
menggunakan crawler Web untuk men-download website. Beberapa bagian dari situs
web tidak dapat didownload secara default karena protokol exclusion robot
dinonaktifkan selama program. HTTrack dapat mengikuti link yang dihasilkan
dengan dasar JavaScript dan di dalam Applet atau Flash, tapi bukan kompleks
link (dihasilkan dengan menggunakan fungsi atau ekspresi) atau peta gambar
server-side.
3. Wget
GNU Wget, seringkali hanya disebut wget, adalah sebuah
program komputer sederhana yang mengambil materi dari web server, dan merupakan
bagian dari Proyek GNU. Namanya diturunkan dari World Wide Web dan get,
konotatif dari fungsi primernya. Program ini mendukung pengunduhan melalui
protokol HTTP, HTTPS, dan FTP, protokol berbasis TCP/IP yang paling luas
digunakan untuk penjelajahan web.
Fitur-fiturnya meliputi pengunduhan rekursif, konversi
pranala untuk peninjauan offline dari HTML lokal, mendukung proxy, dan lebih
banyak lagi. Pertama kali muncul pada tahun 1996, dilatarbelakangi oleh ledakan
penggunaan Web, menyebabkan penggunaan yang luas di antara para pengguna Unix
dan distribusi Linuxterkemuka. Ditulis menggunakan bahasa C portabel, Wget
dapat diinstal secara mudah pada sistem mirip-Unix apa saja dan telah diportasi
ke beberapa lingkungan, termasuk Mac OS X, Microsoft Windows, OpenVMS
danAmigaOS.
Wget digunakan sebagai basis program-program GUI semisal
Gwget untuk desktop GNOME. Dirilis di bawah Lisensi Publik Umum GNU v3, Wget
adalah perangkat lunak bebas.
Cara kerja Web Archiving
1. Menemukan
Informasi Website lewat crawling web
Bagaimana cara kerja web crawling Google ? Google memiliki
software khusus untuk proses perayapan website/blog yang bisa diakses secara
umum. Secara sederhana cara kerja web crawler Google menggunakan aplikasi yang
disebut Googlebot.
Crawler Googlebot akan merayapi setiap halaman website/blog
seperti ketika sobat belajar online membuka link lewat browser, kemudian
mengikuti link setiap halaman web dan membawa data dari website/blog tersebut
ke server Google.
Proses crawling web oleh googlebot dimulai dari crawling
alamat utama web (domain), kemudian ke sitemap (peta situs) yang dibuat oleh
pemilik website.
adanya sitemap website akan memudahkan google bot google
dalam proses crawling web/blog tersebut.
Pada akhirnya program google bot akan menentukan situs mana
yang ramai pengunjung dan selalu diupdate, berapa banyak konten yang ada, untuk
menentukan posisinya.
Google tidak menerima bayaran dalam memposisikan website.
Website/blog yang menurut mesin pencari google bagus maka akan berada di posisi
pertama hasil pencarian Google. Mengapa Google tidak mau menerima bayaran dalam
merayapi dan mengindeks website ? Hal ini tentu saja berkaitan dengan manfaat
untuk pengguna yang mencari informasi lewat mesin pencari google, karena itu
merupakan bisnis utama mesin pencari Google.
2. Mengorganisasi informasi hasil proses
crawling web
Setelah proses crawling web, maka mesin pencari google
kemudian memasukkannya dalam daftar indeks Google. Gambaran internet itu ibarat
perpustakaan dengan miliaran buku, namun sayangnya tidak mempunyai katalog
khusus dan pengarsipan utama. Dari situ, maka google mengumpulkan alamat dan
isi halaman-halaman web yang dicrawl oleh google bot kemudian membuat indeks.
Dengan begitu mesin pencari google tahu persis bagaimana Google melihat halaman
yang bersangkutan.
Gambaran bagaimana google membuat indeks dari miliaran web
yang ada di dunia, coba sobat belajar online buka indeks buku yang ada di
bagian belakang. Indeks Google juga berisi tentang informasi kata-kata dan
lokasi kata tersebut.
Dengan perkembangan web generasi kedua, ditambah dengan html
5 yang memberikan kesempatan kepada developer web untuk membuat web dinamis
semakin banyak jenis konten yang harus diindeks google, dari teks, gambar dan
video. Google pun juga menyempurnakan pengindekan konten-konten yang ada di
internet untuk memahami apa yang diinginkan oleh pencari informasi lewat mesin
pencari Google.
3. Pengaturan crawling pada pemilik
website/blog
Walaupun Google dapat merayapi setiap halaman web, namun
mesin pencari juga memberikan kebebasan kepada pemilik situs yang tidak ingin
websitenya dirambah dan diindeks mesin pen31cari Google.
Untuk memilih dan memberitahu
google bot agar tidak merayapi dan mengindeks halaman sensitif yang berbahaya
apabila diakses oleh umum, maka sobat dapat menggunakan file robot.txt.
Sobat dapat mengakses Google Webmasters Tool untuk mendapatkan file robots.txtdan
mengisi bagian mana yang tidak boleh dirayapi dan diindeks dari website/blog
sobat oleh Google crawl.
NAMA KELOMPOK :
1.
Aji Pangestu Dwi Saputra
2.
Andre Bagas Kurniawan
3.
Syahrul Setiyawan
Referensi
:
Tidak ada komentar:
Posting Komentar