Kamis, 02 Juni 2011

The Web and its Science (Web dan Ilmunya )

Kita mungkin parafrase Web Sains sebagai ilmu dari Web. Sementara ini
kesetaraan mungkin jelas kita akan mulai dengan memecah frase
dan membuat sketsa komponen yang memungkinkan Web berfungsi sebagai
informasi yang efektif sistem yang terdesentralisasi. Kami akan meninjau dasar
prinsip-prinsip arsitektur dari Web, yang dirancang untuk mendukung pertumbuhan dan
nilai sosial perilaku berbagi informasi dan dapat dipercaya dalam
Bagian 2.1. Bagian 2.2 akan menawarkan beberapa refleksi metodologis
pada penyelidikan ilmiah dari Web.

Web 2.1 arsitektur
Arsitektur dari Web eksploitasi teknologi sederhana yang menghubungkan
efisien, untuk mengaktifkan ruang informasi yang sangat fleksibel dan bermanfaat, dan yang paling penting, skala. Web adalah sudah menjadi mengesankan platform tempat ribuan bunga telah mekar,
dan harapan itu dapat tumbuh lebih lanjut, meliputi bahasa lebih lanjut,
lebih media dan kegiatan lebih, hosting informasi lebih lanjut, serta
menyediakan alat dan metode untuk menginterogasi data yang keluar sana. Dalam bagian pembukaan kita akan meninjau secara singkat prinsip utama mendasari arsitektur Web; bagian ini adalah berhutang budi kepada [155], dan untuk detail lebih lanjut, lihat dokumen itu.
Web adalah ruang di mana sumber daya yang diidentifikasi oleh Seragam
Resource Identifier (URI - [33]). Ada protokol untuk mendukung interaksi antara agen, dan format untuk mewakili informasi
sumber daya. Ini adalah bahan dasar dari Web. Pada desain mereka tergantung utilitas dan efisiensi interaksi Web, dan desain yang
tergantung pada gilirannya pada sejumlah prinsip, beberapa di antaranya merupakan bagian dari
konsepsi asli, sementara yang lain harus belajar dari pengalaman.
Identifikasi sumber daya penting untuk dapat berbagi informasi tentang mereka, alasan tentang mereka, memodifikasi atau pertukaran mereka.
sumber daya tersebut dapat berupa apa saja yang dapat dihubungkan atau dibicarakan;
banyak sumber daya adalah murni informasi, tetapi yang lain tidak. Selanjutnya,
tidak semua sumber daya yang di Web, di bahwa mereka mungkin dapat diidentifikasi dari Web, tetapi tidak mungkin dapat diambil dari itu. Sumber daya yang pada dasarnya informasi, dan yang karenanya dapat diberikan tanpa abstraksi dan dicirikan sepenuhnya dalam pesan disebut informasi sumber daya.
Untuk penalaran dan fungsi mengacu terjadi pada global skala, sistem identifikasi diperlukan untuk menyediakan satu global standar; URI menyediakan sistem itu. Akan mungkin bagi alternatif
sistem untuk URI untuk dikembangkan, tetapi nilai tambah satu global sistem pengidentifikasi, memungkinkan menghubungkan, bookmark dan lainnya fungsi berbagai aplikasi heterogen, tinggi. Sumber Daya URI terkait dengan mereka, dan setiap URI idealnya mengidentifikasi satu
sumber daya secara konteks-independen. URI bertindak sebagai nama (dan
alamat - lihat Bagian 3.1.2 di bawah ini untuk pembahasan masalah ini), dan sebagainya
apakah mungkin untuk menebak sifat sumber daya dari perusahaan URI, yang merupakan
Hal kontingen, dalam URI umumnya lihat opaquely. Prinsip-prinsip hubungan antara URI dan sumber daya yang diinginkan tetapi tidak tegas dilaksanakan, biaya gagal mengaitkan URI dengan sumber daya adalah ketidakmampuan untuk merujuk ke sana, sedangkan biaya penempatan dua sumber
ke URI akan error, sebagai data tentang salah satu sumber daya akan diterapkan ke lainnya.
URI juga menghubungkan Web dengan dunia sosial offline, di mereka mewajibkan lembaga. Mereka berada di bawah skema didefinisikan tertentu,yang mungkin yang paling umum dipahami adalah HTTP, FTP dan mailto, skema tersebut terdaftar dengan internet Ditugaskan
Nomor Authority (IANA - http://www.iana.org/assignments/urischemes).
Skema ini harus dioperasikan pada jalur berprinsip pada Agar efektif. Jadi jika kita ambil HTTP sebagai contoh, HTTP URI dimiliki dan menyalurkan oleh orang atau organisasi, dan maka dapat dialokasikan secara bertanggung jawab atau tidak bertanggung jawab. Sebagai contoh, sebuah URI HTTP harus mengacu ke sumber tunggal, dan dialokasikan untuk pemilik tunggal. Hal ini juga diinginkan
untuk suatu URI untuk merujuk kepada sumber daya yang permanen, dan tidak mengubah
referensi dari waktu ke waktu (lihat Bagian 5.4.6 di bawah). Komunikasi melalui
Web melibatkan pertukaran pesan yang dapat berisi data atau
metadata tentang sumber daya. Salah satu tujuan umum dari komunikasi adalah
mengakses sumber daya melalui URI, atau untuk dereference URI. Jika sumber daya
telah diberi sebuah identifier, sumber daya harus dalam beberapa cara yang dapat diperoleh kembali
dari pengenal agar bisa nilai. Dereferencing biasanya
melibatkan menemukan indeks yang tepat untuk mencari pengenal. Ada
sering petunjuk dalam pengenal, atau penggunaan bantuan identifier, yang
di sini, terutama jika pihak berwenang penamaan memiliki semacam hirarki
struktur. Sebagai contoh, alamat pos memiliki struktur hirarkis yang
memungkinkan sebuah bangunan tertentu yang akan berada. Satu akan berkonsultasi dengan
indeks AZ London untuk menemukan jalan tertentu yang namanya satu
tahu dan yang satu tahu terletak di London, tapi ada lagi
tentang hal itu. Demikian pula, Domain Name System (DNS) eksploit hirarkis
struktur untuk membantu dengan dereferencing, sehingga untuk menghubungi server
"Foo.cs.bar.edu" melibatkan pengiriman pesan dari beberapa macam beberapa server
dikendalikan oleh Bar University di Amerika Serikat. Semakin banyak informasi
yang tersedia dalam nama atau identifier dari sumber daya, semakin mudah
itu adalah untuk dereference, walaupun tentu saja dalam hal sumber daya yang membatasi
nama perlu mengandung ada informasi sama sekali untuk membantu dereferencing itu
(Kadang-kadang ini adalah titik nama). Selanjutnya, identifikasi
sistem sering harus dipertahankan oleh otoritas untuk dereferencing
menjadi mungkin - jika AZ London tidak diperbarui setiap begitu sering, itu
akan menjadi mustahil untuk menggunakannya (edisi terbaru) untuk menemukan tertentu
rumah, dengan cara yang sama bahwa perubahan di server Universitas Bar program pemeliharaan dapat berarti bahwa beberapa sumber daya yang diselenggarakan pada nya
server yang unlocatable. Apa mengakses sumber informasi memerlukan bervariasi dari konteks
konteks, tapi mungkin pengalaman yang paling umum adalah menerima
representasi dari (keadaan) sumber daya pada browser. Tentu
tidak perlu kasus yang dereferencing URI otomatis mengarah ke
agen mendapatkan akses istimewa ke sumber daya. Ini mungkin bahwa tidak ada
representasi dari sumber daya tersedia, atau bahwa akses ke sumber daya
aman (misalnya kata sandi terkontrol), tetapi mungkin untuk merujuk
ke sumber daya menggunakan perusahaan URI tanpa memaparkan sumber daya yang untuk umum
tampilan. Pengembangan Web sebagai spasi, bukan yang besar
dan papan pengumuman kompleks, mengikuti dari kemampuan agen untuk menggunakan
interaksi untuk mengubah negara dari sumber daya, dan menanggung kewajiban dan
tanggung jawab. Mengambil representasi adalah contoh dari apa yang disebut
interaksi yang aman di mana perubahan tidak terjadi, sementara posting daftar adalah
interaksi yang tidak aman di mana negara-negara sumber daya 'dapat diubah. Perhatikan bahwa
sifat universal URI membantu identifikasi dan pelacakan
kewajiban yang timbul secara online melalui interaksi yang tidak aman.
Tidak semua URI dimaksudkan untuk memberikan akses ke representasi
dari sumber daya yang mereka mengidentifikasi. Misalnya, mailto ini:
skema mengidentifikasi sumber daya yang dicapai dengan menggunakan Internet mail (misalnya
mailto: romeo@example.edu mengidentifikasi kotak surat tertentu), tetapi mereka
sumber daya yang tidak dapat dipulihkan dari URI dalam cara yang sama seperti halaman web
adalah. Sebaliknya, URI digunakan untuk surat langsung ke kotak surat tertentu,
atau alternatif untuk menemukan mail dari itu.
Web mendukung berbagai format file, yang paling
terkenal adalah HTML. Beberapa format yang diperlukan, dan format perlu
fleksibel, karena sifat heterogen dari interaksi selama
Web. Konten dapat diakses melalui segala macam perangkat, paling sering PC atau perangkat mobile, dan nilai lebih dapat diekstraksi dari
Web jika penyajian konten adalah perangkat-independen sejauh mungkin
(Idealnya kompatibel dengan perangkat yang belum bermimpi). Memisahkan representasi dari isi dari keprihatinan presentasi dan interaksi adalah praktik yang baik di sini; bawah seperti konten, rezim, presentasi dan perlu interaksi menjadi direkombinasi dengan cara yang maksimal

berguna, yang umumnya dilakukan sebagian oleh server dan sebagian oleh klien, rasio yang tepat antara kedua tergantung pada konteks interaksi. Kekuatan Web berasal dari mengaitkannya memungkinkan.
sumber daya dapat berisi referensi ke sumber lain dalam bentuk
tertanam URI yang dapat digunakan untuk mengakses sumber daya kedua. Ini
Link memungkinkan navigasi asosiatif theWeb. Untuk memudahkan menghubungkan, format
harus mencakup cara untuk membuat dan mengidentifikasi link ke sumber daya lainnya,
harus memungkinkan link ke setiap sumber daya di mana saja melalui Web, dan harus
tidak membatasi penulis konten untuk menggunakan skema tertentu URI.
Sebuah tujuan penting dari Web Ilmu adalah untuk mengidentifikasi aspek-aspek penting
identifikasi, interaksi dan representasi yang membuat Web
kerja, dan untuk memungkinkan pelaksanaan sistem yang dapat mendukung
atau mempromosikan perilaku yang diinginkan. Pengalaman menghubungkan dokumen
dan, semakin, data rilis kekuatan besar, baik untuk penulis dan pengguna.
Kemungkinan kembali kebetulan konten memberdayakan penulis oleh
meningkatkan pengaruh mereka, dan pengguna dengan menyediakan akses lebih
informasi dari yang dimungkinkan dengan menggunakan teknologi lainnya.
Secara khusus, tiga fungsi identifikasi, interaksi dan
representasi harus dipisahkan. Mengubah atau menambahkan skema
untuk identifikasi, misalnya, seharusnya tidak berpengaruh pada skema untuk interaksi
atau representasi, memungkinkan independen, evolusi modular Web
arsitektur sebagai teknologi baru dan aplikasi baru mulai beroperasi
(Yang tidak berarti bahwa spesifikasi ortogonal tidak mungkin co-berevolusi
siklis dengan satu sama lain). Demikian pula, teknologi harus diperluas,
yaitu mereka harus mampu berkembang secara terpisah tanpa mengancam
mereka interoperabilitas dengan teknologi lainnya.
Akhirnya, prinsip penting arsitektur Web yang error
harus ditangani secara sederhana dan fleksibel. Kesalahan sangat penting - dalam sebuah informasi
ruang yang ukurannya dapat diukur dalam ribuan terabyte,
dan jumlah pengguna dalam ratusan juta, heterogenitas
tujuan dan kualitas beragam kepengarangan berarti bahwa akan ada
banyak sekali kesalahan desain. Keberadaan link menjuntai (link menggunakan URI
tanpa sumber daya di akhir itu), konten yang tidak baik-formed atau lainnya
kesalahan ditebak seharusnya tidak menyebabkan sistem crash, tuntutan

interoperabilitas mensyaratkan bahwa agen harus dapat pulih dari
kesalahan, tanpa, tentu saja, kompromi kesadaran pengguna bahwa kesalahan
telah terjadi.
Sebagai Web tumbuh dan berkembang untuk memenuhi situasi baru dan tujuan,
arsitektur harus berkembang. Tapi evolusi perlu
bertahap dan hati-hati (yang lambat dan selalu telaten negosiasi
standar komite adalah cara yang baik untuk menggabungkan gradualisme dengan kebugaran
untuk tujuan), dan prinsip menjaga perkembangan ortogonal
terpisah berarti bahwa evolusi di satu daerah tidak boleh mempengaruhi evolusi
tempat lain. evolusi perlu menghormati invariants penting
Web, seperti ruang URI, dan penting bahwa pengembang
setiap saat bekerja untuk melestarikan aspek-aspek Web yang perlu
diawetkan. Ini merupakan bagian dari misi dari W3C Teknis Arsitektur
Kelompok [154], meskipun standar dapat hanya pernah menjadi bagian dari
cerita. prinsip-prinsip arsitektur Web akan selalu diperdebatkan di luar
W3C, cukup baik, serta di dalamnya.

Web 2.2 sains: Metodologi
Jika penyelidikan dari Web yang akan dihitung sebagai benar ilmiah,
maka pertanyaan segera adalah bagaimana metode ilmiah harus berlaku
ini domain tertentu. Bagaimana seharusnya peneliti dan insinyur
Web pendekatan untuk memahami dan hubungannya dengan lebih luas
masyarakat, dan untuk berinovasi?
Berbagai aspek dari Web relatif baik dipahami, dan sebagai
sebuah contoh rekayasa blok bangunan yang dibuat, bukan fenomena alam.
Namun demikian, sebagai Web telah berkembang dalam kompleksitas dan
jumlah dan jenis interaksi yang terjadi telah membengkak, itu
tetap kasus yang kita tahu lebih banyak tentang beberapa fenomena alam yang kompleks
(Contoh jelas adalah genom manusia) daripada kita lakukan
yang satu ini rekayasa tertentu.
Namun itu benar-benar berkembang, ada Web Ilmu layak nama
perlu memenuhi beberapa kondisi yang jelas. Ada perlu
menjadi falsifiabilty hipotesis dan pengulangan penyelidikan. Ada
akan perlu prinsip-prinsip independen dan standar untuk menilai
ketika hipotesis telah dibentuk. Ada masalah nyata untuk

bagaimana prinsip-prinsip dan standar harus tiba di. Dan tentu saja
harus ada metode untuk bergerak dari penilaian dari Web dan
yang evolusi untuk pengembangan dan pelaksanaan inovasi.
Untuk mengambil satu contoh, ada sejumlah teknologi dan metode
untuk pemetaan Web dan menandai keluar topologi nya (lihat Bagian 4.1
bawah). Apa peta seperti kepada kita (lih. misalnya [80])? The visualisasi
seringkali sangat mengesankan, dengan interpretasi tiga-dimensi dan
warna-kode link antara node. Tapi bagaimana diverifikasi adalah peta seperti itu? Dalam
indra apa yang mereka katakan kami 'bagaimana Web adalah'? Apa keterbatasan?
Aplikasi jelas, dalam hal metodologis, peta dan
grafik struktur Web adalah untuk langsung sampling, dengan menentukan
properti yang model dan sampel dari Web seharusnya. Yang cepat
pertumbuhan Web membuat survei yang lengkap dari tahun-tahun pertanyaan
lalu, dan ilmuwan kebutuhan informasi statistik yang cepat dan tepat waktu tentang
isi sastra Web tersedia. Perwakilan sampling adalah kunci
untuk metode tersebut, tapi bagaimana seharusnya sebuah sampel dikumpulkan dalam rangka
secara tepat disebut wakil [188]? Untuk menjadi benar bermanfaat, contoh
harus acak; 'keacakan' biasanya ditetapkan untuk tertentu
domain, dan pada umumnya berarti bahwa semua individu dalam domain memiliki
kemungkinan yang sama yang dipilih sebagai sampel. Tapi untuk Web
yang memerlukan, misalnya, memahami apa yang individu, karena
Misalnya, apakah kita peduli dengan website atau halaman Web? Jika mantan,
maka orang bisa membayangkan kesulitan karena tidak ada pencacahan lengkap
mereka. Dan metode sampling berdasarkan, mengatakan, alamat IP yang rumit
oleh penduduk tentu jarang dari ruang alamat [219].
Selanjutnya, begitu murah adalah operasi di Web bahwa sejumlah kecil
operator bisa miring namun hati-hati hasil sampel adalah
dipilih. Sebuah survei melaporkan secara lebih rinci di bawah ini [99] ternyata ditemukan
bahwa 27% dari halaman dalam domain de. diubah setiap minggu, sebagai
dibandingkan dengan 3% untuk Web secara keseluruhan. Penjelasan ternyata
tidak menjadi kerajinan khas Jerman, melainkan di atas
juta URL, sebagian tetapi tidak semua pada server Jerman, yang memutuskan untuk suatu
satu alamat IP, yang secara otomatis dihasilkan dan terus berubah
situs pornografi.
Web memiliki banyak sifat yang tidak biasa yang membuat sampling rumit;
bagaimana bisa rasa hormat metode sampling apa yang tampaknya papan nama prima signifikan

sifat seperti, misalnya, persentase halaman diperbarui setiap hari,
mingguan, dll? Bagaimana kita bisa faktor dalam isu-isu seperti kemerdekaan
mendasari sumber data? Apakah kita memiliki banyak pemahaman dari distribusi
bahasa di seluruh Web (dan istilah dalam bahasa -. cf [167]),
dan bagaimana meningkatkan kepandaian dalam memberikan mempengaruhi hal-hal [138]?
Dan bahkan jika kita senang dengan metodologi sampling kami, di tengah-tengah bagaimana
semua suara bisa kita menemukan struktur menarik efisien [191]?
Selanjutnya, meskipun untuk banyak tujuan Web dapat diobati
sebagai ruang informasi statis, tentunya dinamis dan berkembang.
Jadi segala upaya untuk memahami longitudinal Web akan membutuhkan
untuk mengambil evolusi itu ke dalam account [218], dan model idealnya
memiliki pertumbuhan sistem (dalam hal penambahan konstan baru
titik dan sisi ke grafik), bersama-sama dengan struktur link yang
tidak invarian dari waktu ke waktu, dan hubungan domain hirarkis yang
selalu rentan terhadap revisi, dibangun ke dalam mereka (lih. misalnya [253]).
Analytic pemodelan dikombinasikan dengan data empiris yang dikumpulkan dengan hati-hati
dapat digunakan untuk menentukan probabilitas halaman Web yang sedang diedit
(Mengubah konten informasi mereka) atau tidak dihapus. Satu percobaan
pengawasan ratusan ribu halaman selama beberapa bulan
menghasilkan hasil yang menarik: setiap putaran satu waktu sekitar 20% dari halaman web
di bawah 11 hari tua, sedangkan 50% muncul di sebelumnya
tiga bulan. Di sisi lain, 25% lebih dari berumur tahun - usia yang
didefinisikan di sini sebagai perbedaan antara waktu modifikasi terakhir
ke halaman dan waktu download [43]. Percobaan lain
terlibat merayapi 150m halaman HTML sekali seminggu selama 11 minggu,
dan menemukan, misalnya, kuat hubungan antara tingkat-top
domain dan frekuensi perubahan (. halaman com diubah lebih sering
dari pemerintah atau.. halaman edu), dan bahwa dokumen besar (mungkin
counterintuitively) diubah lebih sering dari yang kecil.
Frekuensi perubahan terakhir adalah prediktor yang baik di masa depan
perubahan, hasil potensial penting bagi perayap Web incremental
[99]. Perkembangan metode sampling feed Web yang sangat
cepat ke dalam pengembangan pencarian lebih efisien dan akurat.
Metode untuk menemukan informasi secara online, baik logis atau heuristik,
apakah data-berpusat atau pada model sistem temu kembali informasi, memerlukan
akurat pemetaan.

Jadi salah satu aspek dari Web Ilmu adalah investigasi Web dalam
untuk tempat ancaman, peluang dan invariants untuk pengembangannya.
Lain adalah rekayasa yang baru, mungkin metode tak terduga
berurusan dengan informasi, yang menciptakan ekstensi non-konservatif
Web. teknik tersebut dapat berbasis penelitian, atau industri berbasis.
Sintesis sistem baru, bahasa, algoritma dan alat-alat adalah kunci
untuk pengembangan koheren dari Web, seperti, misalnya, dengan
studi tentang sistem kognitif, dimana banyak kemajuan beberapa tahun terakhir
tahun telah datang dengan teknik eksplorasi serta analisis dan
deskripsi (lih. misalnya [51]). Jadi, misalnya, satu-satunya cara untuk menemukan
dampak dari file sharing radikal desentralisasi adalah untuk mengembangkan peer to peer
sistem dan operasi mereka amati pada skala semakin besar. Seperti
upaya rekayasa perintis sangat penting untuk pengembangan Web, melainkan
adalah setelah semua konstruksi. Hal ini penting untuk Web secara keseluruhan yang
implementasi sistem berinteraksi dan tidak mengganggu, yang mana
badan standar memainkan peranan penting.
Oleh karena itu Web Sains adalah kombinasi dari sintesis, analisis dan pemerintahan.
Dalam sisa teks ini, kami akan mengambil tiga aspek pada gilirannya,
dimulai dengan sintesis, maka analisis, dan kemudian isu-isu sosial yang
berdampak pada pengembangan Web, sebelum berakhir dengan diskusi
masalah pemerintahan.

Tidak ada komentar:

Posting Komentar