Jumat, 03 Juni 2011

Engineering the Web (Rekayasa WEB)

Rekayasa Web
Pelacakan pengembangan Web, yang menentukan inovasi
baik (misalnya P2P) dan yang buruk (phishing misalnya), dan memberikan kontribusi bagi
perkembangan menguntungkan adalah kunci bertujuan Ilmu ofWeb. Pada bagian ini, kita
akan meninjau beberapa petunjuk saat pembangun Web. Kami
akan melihat Web Semantic dan beberapa isu dan kontroversi
sekitarnya yang (Bagian 3.1), masalah berkaitan dengan referensi dan identitas
(Yang penting untuk Web Semantic untuk memastikan, tetapi juga untuk setiap
jenis analisis informasi berbuah - Bagian 3.2), dan kemudian pilihan
inisiatif lebih lanjut, termasuk layanan Web, P2P, komputasi grid dan
sebagainya (Bab 3.3).
3.1 Web semantik
Web adalah arsitektur berprinsip standar, bahasa dan
formalisms yang menyediakan platform untuk aplikasi heterogen banyak.
Hasilnya bisa mudah menjadi kusut, dan keputusan yang dibuat tentang
standar yang mengatur satu formalisme dapat memiliki konsekuensi di luar,
yang dapat timbal tentu saja untuk keputusan desain yang kompleks (cf. [146]). Memang,
beberapa tuntutan di Web membuat godaan untuk model yang


semantik dengan formalisms sangat ekspresif, namun expressivity seperti
perdagangan umum off melawan kegunaan dan satu set kecil baik dipahami
prinsip-prinsip.
Namun, sering terjadi bahwa trade-off antara expressivity
dan kegunaan adalah akibat dari penyalahgunaan umum dari formalisms tersebut. Untuk
contoh - kita akan membahas contoh ini secara lebih rinci di bawah ini - menggunakan
dari mesin, diimplementasikan dan diusulkan, dari Web Semantic
[35, 17] untuk memperpanjang Web merupakan tujuan umum. Tapi desain
SW dan terkait formalisms dan alat-alat dimaksudkan untuk memperpanjang
Web untuk menutupi data terkait, tidak, seperti yang sering diasumsikan, untuk meningkatkan pencarian
atau mendapatkan kekuatan yang lebih besar dari teks beranotasi (yang lain, terpisah,
jenis ekstensi dari Web).
Ini mungkin, sebagai klaim banyak dan berharap, bahwa lokal model dan muncul
semantik merupakan bagian penting dari cara kita memahami
Web. Jika demikian, akan ada serius trade-off dengan interoperabilitas:
manfaat dari pencarian didistribusikan terstruktur dan berbagi data
besar namun memerlukan semantik interoperable. Meninggalkan semantik underdetermined
berarti memaksa pengguna (manusia) untuk melakukan pembuatan rasa, seperti untuk
Misalnya dengan sistem P2P saat ini yang, jika mereka memaksakan semantik di
semua, cenderung hanya menggunakan sangat sederhana, tingkat rendah, struktur tugas-relatif. Dalam
tertentu, asumsi bahwa aparat dari Web Semantic adalah
dirancang untuk memperpanjang teknologi yang tersedia untuk melihat dokumen
dapat menyebabkan khawatir tentang trade-off antara "mudah" semantik muncul
dan "sulit" logika yang salah, kita harus berhati-hati untuk tidak
bingung dua area aplikasi terpisah.
3.1.1 Web Semantic
Web memulai hidup sebagai upaya untuk membuat orang untuk mengubah mereka
perilaku dalam cara penting. Banyak orang membuat dokumen, namun
Web pra-asumsi bahwa dokumen adalah milik pribadi
dari penciptanya, dan keputusan untuk mempublikasikan miliknya nya atau sendirian.
Selain itu, teknologi untuk memungkinkan orang untuk menerbitkan dan menyebarkan
dokumen murah dan mudah sangat kurang. Tujuan Web adalah
untuk mengubah perilaku yang radikal dan menyediakan teknologi untuk melakukannya:
orang akan membuat dokumen mereka tersedia untuk orang lain dengan menambahkan link

untuk membuat mereka dapat diakses dengan mengikuti link. Pesatnya pertumbuhan theWeb,
dan cara di mana perubahan ini cepat diadopsi di semua sektor
masyarakat Barat mungkin mengaburkan radikalisme dari langkah ini.
Web Semantik (SW) merupakan upaya untuk memperluas potensi
Web dengan ekstensi analog perilaku orang. SW
mencoba untuk membuat orang untuk membuat data tersedia untuk orang lain, dan menambahkan
link untuk membuat mereka dapat diakses dengan mengikuti link. Jadi visi
SW adalah sebagai perluasan dari prinsip-prinsip Web dari dokumen untuk data. Ini
ekstensi, jika hal itu terjadi dan diterima, akan memenuhi lebih dari Web
potensial, dalam hal ini akan memungkinkan data yang akan dibagi secara efektif dengan yang lebih luas
masyarakat, dan untuk diproses secara otomatis oleh alat serta
manual [34]. Hal ini tentu saja menciptakan suatu persyaratan besar: seperti alat-alat harus
dapat memproses data dalam format bersama heterogen, berkumpul
menggunakan prinsip yang berbeda untuk berbagai tugas utama. The Web
kekuasaan akan yang jauh lebih besar jika data dapat didefinisikan dan terkait sehingga
bahwa mesin bisa melampaui tampilan, dan bukannya mengintegrasikan dan alasan
tentang data berbagai aplikasi (dan di seluruh organisasi atau masyarakat
batas). Saat ini, Web yang sangat tidak baik pada teks, musik dan
gambar, dan boleh juga di video dan jasa, namun data tidak dapat dengan mudah
digunakan pada skala Web [135]. Tujuan dari SW adalah untuk memfasilitasi menggunakan
data serta penemuan mereka, melampaui Google dalam hal ini.
Dalam konteks ini adalah layak disebut perbedaan antara
pengambilan informasi dan pengambilan data (alias questionanswering otomatis).
Tujuan yang pertama adalah untuk menghasilkan dokumen yang
relevan dengan query; dokumen ini tidak perlu menjadi unik, dan dua
episode berhasil pencarian informasi tetap dapat menghasilkan
hasil yang sama sekali berbeda. Tujuan yang terakhir adalah untuk menghasilkan
benar jawaban query. Ada perbedaan besar antara
dua jenis pencarian, dan kepatuhan ketat terhadap prinsip-prinsip formal
bahwa proyek terakhir membutuhkan mungkin menjadi penentu utama dari apa yang
struktur seseorang harus pilih ketika salah satu adalah menemukan skema untuk memberikan
signifikansi istilah dalam kueri seseorang. Data dalam arti yang sangat nyata
lebih fundamental dari sebuah dokumen, maka potensi kenaikan
Web kekuasaan. Ada juga banyak data di luar sana.
Masalah terbuka kedua adalah apa fungsi dapat dicapai
dengan membawa keluar hubungan antara berbagai sumber data.

Secara tradisional, di AI misalnya, basis pengetahuan atau sistem pakar,
atau bahkan database dalam sebuah organisasi, yang digunakan untuk mewakili certi-
fied informasi yang handal, dapat dipercaya, mungkin konsisten dan
sering didasarkan pada strategi akuisisi terpusat dan representasi
protokol. Di Web, tentu saja, asumsi ini tidak selalu
berlaku. Sebagai contoh, kita harus memastikan bahwa inkonsistensi (yang kita
harus berharap menemukan di Web) tidak menggelincirkan semua kesimpulan dari
kelompok tertentu sumber-sumber pengetahuan yang saling tidak konsisten. Banyak
aplikasi untuk SW belum mulai beroperasi, tetapi beberapa cara
datang untuk berdamai dengan potensi scruffiness bahkan baik terstruktur
data dari beberapa sumber adalah sebuah isu [278].
Strategi SW berikut, oleh karena itu, adalah untuk menyediakan umum
kerangka kerja untuk pembebasan data, berdasarkan Deskripsi Resource
Framework (RDF), yang mengintegrasikan berbagai aplikasi
menggunakan XML sebagai pertukaran sintaks [195]. Raw data dalam database
dibawa bersama-sama, dan terhubung ke model dunia (melalui
ontologi - lihat di bawah), yang kemudian memungkinkan agregasi dan analisa
data dengan memproduksi interpretasi konsisten di seluruh heterogen
sumber data. fokus, oleh karena itu, pada data itu sendiri. SW ini tidak
hanya masalah menandai dokumen HTML di Web, ataupun
varian pada masalah IR tradisional pengambilan dokumen. Ini adalah
berusaha untuk membawa bersama data di seluruh Web sehingga membuat luas
database melampaui komponennya, yang membuat aplikasi mungkin
yang menyimpulkan seluruh data heterogen, seperti CS AKTive Space
yang memungkinkan browsing dan kesimpulan di berbagai sumber data
kronik keadaan disiplin ilmu komputer di Amerika
Kerajaan [251].
Model data SW sangat berhubungan dengan dunia relasional
data (di mana data direpresentasikan sebagai hubungan n-ary, yang sesuai
ke sebuah meja - [62]), begitu dekat memang bahwa ada langsung
pemetaan dari database relasional untuk RDF. Sebuah database relasional adalah
tabel yang terdiri dari catatan, yang merupakan baris. Setiap record
terdiri dari ladang, yang analog dengan kolom, dan seorang individu
catatan tidak lebih dari isi dari bidangnya (isi
sel-sel dari matriks yang jatuh dalam baris). Catatan node RDF,
bidang adalah properti RDF dan bidang rekaman nilai [28].

Jadi, misalnya, seperti meja mungkin merepresentasikan data tentang mobil. Setiap
baris (record) akan terkait dengan mobil tertentu, dan setiap kolom
beberapa properti atau lapangan (warna, pemilik, nomor registrasi, jenis, baru-baru ini
mekanik sejarah dan sebagainya). Jadi beberapa properti tertentu dari mobil
diwakili dalam merekam akan diwakili dalam rekaman yang sesuai
lapangan. Tabel tersebut juga mungkin berisi informasi tambahan yang lebih sulit untuk
mengungkapkan dalam RDF atau dalam model relasional itu sendiri. Misalnya, Massachusetts
Negara mungkin memiliki database relasional mobil yang mencakup
bidang untuk pelat Massachusetts. Dalam hal ini, database mungkin
dimaksudkan untuk menjadi definitif, yaitu mobil direpresentasikan dalam database
jika dan hanya jika memiliki plat Massachusetts hukum. Itu tentu saja suatu
harta penting dari meja [28].
Semacam ini database adalah jenis sumber pengetahuan yang eksploitasi
dipahami sebagai dasar untuk SW. Jadi SW adalah perpanjangan
dari WWW dalam hal yang menjadi tahap berikutnya menghubungkan - menghubungkan
data tidak dokumen. Ini bukan satu set metode untuk secara khusus menangani
dokumen yang saat ini di Web, bukan seperangkat kesimpulan
metode berdasarkan metadata atau cara mengelompokkan halaman web saat ini,
atau cara super-pintar pencarian. Hal ini dimaksudkan untuk berfungsi dalam
konteks model relasional data.
Menghubungkan adalah kunci untuk SW tersebut. Secara khusus, meskipun penerbitan
data dan penggunaan RDF sangat penting, dalam banyak kasus praktek
telah menjadi konversi data ke RDF dan publikasi yang bercerai
dari dataflow dunia nyata dan manajemen. Bahasa, metode
dan alat-alat yang masih terguling keluar untuk lapisan SW, demi lapis, dan
mungkin mengherankan bahwa menang cepat tidak muncul dari publikasi
dari RDF sebelum alat untuk melihat, query dan memanipulasi
database telah mencapai pasar. Memang, sebagai data publikasi
sering menghapus data dari konteks organisasi, situasi baru
bagi banyak akan tampak lebih buruk dari era pra-SW: aplikasi dan
organisasi-spesifik alat untuk memanipulasi data yang telah berevolusi dengan
organisasi akan telah menyediakan banyak fungsi yang mungkin
telah hilang atau terkikis. Sementara itu, kurangnya menghubungkan antara data
potensi merusak yang lebih besar dari SW.
Lapisan berikutnya dari SW adalah Web Ontologi Bahasa OWL
[198], yang menyediakan sarana ekspresif dapat terhubung data ke dunia (seperti juga melakukan RDF RDF Schema atau-S - [44]). RDF dan OWL memungkinkan
pertukaran data dalam konteks dunia nyata, di atas inti ini akan
duduk bahasa query untuk RDF yang akan memungkinkan didistribusikan dataset untuk
di-query dengan cara yang standar dan dengan beberapa implementasi.
SPARQL memungkinkan interogasi dataset digabungkan untuk memberikan
akses ke informasi gabungan mereka [232].
Visi asli dari SW telah dirumuskan dalam bentuk terkenal
berlapis diagram ditunjukkan pada Gambar 3.1. Seperti dapat dilihat, pengembangan
Proses SW bergerak ke atas, dengan perhubungan / RDF OWL di
tengah. RDF seperti yang tercantum duduk di atas XML, dan tingkat terendah dari semua adalah
bahwa dari Uniform Resource Identifier (URI). Dalam ayat berikutnya
kita meneliti peran mendasar bahwa URI bermain di visi SW. Visi telah bergerak dengan upaya pelaksanaan, sebagai salah satu
harapkan. Setelah implementasi ontologi menggunakan OWL,
perhatian beralih ke bahasa aturan layer dan sesuai untuk
menyatakan aturan; pemikiran terkini menunjukkan bahwa Interchange Peraturan
Format (RIF) saat ini dalam pengembangan [112] harus duduk bersama
OWL sebagai perpanjangan RDF-S. Lapisan tersebut tercakup dalam
bahasa query SPARQL. Visi revisi SW stack, bersama-sama
dengan pengakuan akan kebutuhan user interface yang efektif dan aplikasi.

3.1.2 URI: Nama atau alamat? Atau keduanya?
RDF didasarkan pada identifikasi sumber daya melalui URI, dan menggambarkan
mereka dalam hal sifat dan nilai properti [195]. Membandingkan
RDF dengan XLink, bahasa menghubungkan untuk XML, yang menyediakan beberapa
informasi tentang link tetapi tidak memberikan rujukan eksternal untuk
apapun sehubungan dengan yang link relevan. Sebaliknya, RDF
memberikan URI khusus untuk hal-hal pribadi, seperti yang kita lihat di bawah ini
contoh. Ketika kami membuat grafik RDF node dan busur (Gambar 3.3),
kita dapat melihat bahwa URI bahkan digunakan untuk hubungan. Sebuah referensi URI
digunakan sebagai node dalam sebuah grafik RDF mengidentifikasi apa yang mewakili node;
URI digunakan sebagai predikat suatu mengidentifikasi hubungan antara hal-hal
diidentifikasi oleh node yang terhubung [172].


RDF <: RDF xmlns: RDF = "http://www.w3.org/1999/02/22-rdf-syntax-ns #"
xmlns: kontak = "http://www.w3.org/2000/10/swap/pim/contact #">

Eric Miller

Dr


Secara umum, menggunakan URI untuk mengidentifikasi sumber daya merupakan faktor penting
dalam pengembangan Web [33]. Menggunakan sintaks global konvensi penamaan
(Namun sintaks qua sewenang-wenang) memberikan efek jaringan global,
dari mana manfaat dari berasal Web; URI memiliki lingkup global dan
diinterpretasikan secara konsisten di seluruh konteks. Bergaul dengan URI
sumber daya harus terjadi jika ada cukup mungkin ingin link ke sana,
lihat atau mengambil representasi itu [155].
Hubungan, diidentifikasi dengan URI, link sumber daya yang juga diidentifikasi-
fied oleh URI. Untuk mendapatkan mesin-pembacaan yang dimaksudkan SW
aman, maka mesin harus bisa mendapatkan pada hubungan,
dan karenanya harus dapat dereference URI yang mengidentifikasi
relasi dan mengambil sebuah representasi dari sumber daya diidentifikasi. Jika
informasi yang relevan tentang hubungan (misalnya, pembatasan hak kekayaan)
juga tersedia di URI, maka mesin akan dapat
membuat kesimpulan mengenai hubungan menegaskan. RDFS dan semakin kompleks
OWL memungkinkan pernyataan dari pembatasan hak kekayaan yang pada gilirannya
memungkinkan mesin untuk membuat kesimpulan dengan cara ini. Dengan cara ini, SW
ini diperkuat oleh URI, penggunaan URI memungkinkan mesin untuk proses
data secara langsung memungkinkan pergeseran penekanan dimaksudkan dari dokumen
data. Kami mencatat di atas bahwa banyak inspirasi bagi SW datang
dari database relasional, dalam rangka mencapai keuntungan yang diantisipasi dalam
fungsi sehubungan dengan database tertentu, benda-benda di
database harus diekspor sebagai objek kelas pertama ke Web, dan oleh karena itu
harus dipetakan ke dalam sistem URI. Para menghubungkan yang mendukung
SW ini tentu saja dimaksudkan untuk menyediakan infrastruktur generik
untuk konten web mesin-processable, tetapi telah berpendapat bahwa ini
infrastruktur juga membahas banyak kekhawatiran tradisional
hypermedia komunitas [278].
Melakukan fungsi ini memerlukan pergeseran mendasar dalam pemahaman kita
tentang bagaimana kita menggunakan URI. Biasanya, nama dan alamat-alamat
berbeda, nama sesuatu merujuk langsung ke sana, alamat yang mengatakan
Anda mana (jika tidak tepat bagaimana untuk mendapatkan itu). Dalam komputasi tradisional
pengidentifikasi muncul dalam bahasa pemrograman, alamat adalah
lokasi di memori. Nama yang dipakukan ke obyek, alamat ke tempat-tempat,
dan karena itu obyek harus memiliki satu nama selamanya sementara alamatnya
bisa berubah sewenang-wenang sering. Hal ini dalam beberapa hal dimasukkan ke dalam "klasik"
melihat dari Web: ada asumsi bahwa identifier (URI)
akan menjadi salah satu dari dua macam hal. Itu baik akan menjadi nama
sesuatu, dipahami secara terpisah dari lokasi - sebuah URN - atau menentukan
lokasi hal - URL. Jadi kelas URI dipartisi
ke dalam kelas guci-guci dan kelas URL (dan mungkin satu atau dua
lain, seperti Uniform Resource Citations). Skema HTTP, untuk
misalnya, dilihat sebagai skema URL.
Lapisan ini tambahan komplikasi konseptual secara bertahap terlihat
bisa berguna kurang, dan gagasan tentang URI menjadi primer. URI bisa
melakukan yang mengidentifikasi baik secara langsung atau melalui lokasi, namun ini bukan
konseptual dalam perbedaan. Oleh karena HTTP adalah skema URI, meskipun
sebuah URI HTTP mengidentifikasi objek dengan mewakili akses primer
mekanisme, dan sebagainya (informal) kita bisa bicara tentang URI HTTP yang
URL. Nama / alamat Perbedaan adalah sebuah metafora spasial yang bekerja
dengan baik dalam lingkungan komputasi standar, tapi dalam jaringan
sistem komputasi perbedaan rusak. Demikian pula, objek dapat
diganti, dan sering adalah (alasan mengapa mereka tidak boleh dibahas
dalam Bagian 5.4.6 di bawah). Jika sistem hirarki penamaan sudah diatur dan
dikelola oleh otoritas, maka nama tersebut akan berfungsi hanya selama
sebagai otoritas yang mendukung bahwa sistem hirarkis, dan pada batas
hanya selama sebagai otoritas itu sendiri tetap ada.
Jadi kita harus berhati-hati dari menekan analogi spasial
nama / sistem alamat terlalu dekat. Lokasi literal adalah titik di
ruang 3-D, dan dalam sistem komputer jaringan kita tidak harus mendapatkan
juga tetap pada apa yang kita harus memanggil nama, atau alamat, atau fisik
lokasi sel memori yang akan menyimpannya. Sebuah memori komputer
alamat sering alamat dalam ruang memori virtual yang dialokasikan
suatu benda, yang diterjemahkan digunakan oleh perangkat keras ke dalam fisik
alamat memori. alamat IP yang tidak terikat pada komputer tertentu, namun secara implisit berisi referensi ke informasi routing, sehingga komputer
sesuai dengan alamat IP yang diberikan tidak dapat dipindahkan jauh di
struktur routing. Nama domain bisa digunakan untuk merujuk ke komputer atau
apa komputer menyajikan ketika kita ingin berhak untuk memindahkan
hal yang berhubungan dengan identifikasi dari satu bagian dari Internet
lain. Jadi Domain Name System (DNS), yang independen
sistem routing, tidak membatasi alamat IP yang
dapat diberikan ke komputer dari sebuah nama domain yang diberikan. DNS memang terlihat
seperti sistem nama, sedangkan alamat IP lakukan tampaknya berfungsi seperti
alamat [26].
Namun, juga sangat diamati bahwa domain nama untuk tertentu
sumber daya melakukan perubahan, karena protokol yang digunakan untuk penamaan mereka
diubah - alasan adalah bahwa ada informasi tertanam dalam
nama. Dalam dunia offline, nama bisa bertahan kegagalan tersebut tertanam
informasi untuk tetap benar (John Stuart Mill memberikan contoh
'Dartmouth' sebagai tempat yang lokasinya mungkin atau tidak mungkin tetap di
muara Sungai Dart). Perubahan tersebut ada yang dipermasalahkan. Tapi online,
ini lebih sulit untuk memastikan.
Pertimbangkan contoh http://pegasus.cs.example.edu/disk1/
siswa / romeo / keren / terbaru / readthis.html [26]. Ada berbagai macam
alasan mengapa hal ini URI bisa berubah. 'Pegasus', 'cs', dll 'mahasiswa' mungkin
semua perubahan selama bertahun-tahun sebagai komputer yang berbeda terbiasa dengan tuan rumah
informasi, atau sebagai lulusan Romeo dan menjadi anggota fakultas.
pendapat-Nya tentang apa yang 'keren' atau apa yang 'terbaru' juga akan berevolusi
dari waktu ke waktu (satu harapan). 'Http', yang merupakan protokol yang digunakan untuk mempresentasikan
sumber daya, dan 'readthis' yang relatif bermakna adalah yang paling mungkin
bagian dari URI yang terkait dengan sumber daya tertentu untuk berubah.
Alasan informasi tersebut disertakan adalah karena nama harus
dereferenced dalam rangka untuk mencari tahu apa pun tentang apa nama
adalah penamaan. Biasanya yang melibatkan menggunakan semacam index atau set
indeks, yang mungkin resmi dan kanonik, atau informal dan tidak resmi,
untuk mencari nama. indeks tersebut sering hirarkis untuk memfasilitasi
lookup, sebagai DNS namanya. Ini mungkin untuk menghilangkan semua informasi
dari nama domain, dan memastikan identifikasi unik untuk sumber daya
(Dan memang ada maka akan ada alasan yang jelas, segala sesuatu yang
sama, mengapa identifier tidak boleh permanen juga), pada biaya
membuat sulit untuk mencari dan dereference.
Hal-hal seperti itu yang penting relatif kecil sebagai manusia selama
adalah pengguna utama dan pemeras Web - setelah semua, satu terutama
setelah sumber daya dan konten yang mengandung, dan meskipun mungkin
frustasi untuk mengikuti URI hanya untuk menemukan sumber daya tidak lagi tinggal
sana, yang adalah iritasi daripada gangguan serius dalam sistem.
Orang juga relatif fleksibel dalam temu online dan dapat mentolerir
ambiguitas. Tetapi beberapa jenis resolusi untuk nama / alamat masalah
diperlukan jika kita mengharapkan sistem formal untuk menangani dengan URI. SW ini
alat untuk melakukan hal-hal dalam ruang sosial, bukan hanya satu set aturan untuk
memanipulasi formula, jadi kita perlu tahu apa yang kita maksud, dan
bagaimana mendapatkan pada saat-referen mana yang sesuai. Hal ini diinginkan untuk sebuah e-commerce
sistem, misalnya, untuk merujuk tanpa ambiguitas ke suatu nomor
hal: dokumen seperti tagihan dan faktur, barang-barang abstrak seperti
harga, dan hal-hal konkret seperti pembeli dan barang-barang yang sebenarnya
dibeli dan dijual. Merangkum [31] dan memberikan kritik dari sejumlah besar
cara pemahaman masalah ini dalam konteks HTTP.
Penamaan, pada akhirnya, adalah satu set pengaturan kontrak sosial. Kami
seharusnya tidak membiarkan sifat virtual dunia maya membutakan kita pada fakta
bahwa orang-orang meminta dan membayar, dan mendapatkan diberikan, nama domain dan ruang
pada server. Pihak berwenang menjaga hal-hal ini, dan juga bertindak sebagai akar untuk
dereferencing tujuan. Stabilitas setup ini kelembagaan
membantu menentukan stabilitas sistem Web penamaan.

3.1.3 ontologi
Di atas RDF dan RDFS pada Gambar 3.2 duduk ontologi. Pada tradisional
konsepsi [123], ontologi berisi spesifikasi dari konsep yang
diperlukan untuk memahami sebuah domain, dan kosa kata yang diperlukan untuk
masuk ke dalam wacana tentang hal itu, dan bagaimana konsep-konsep dan kosa kata
saling berhubungan, bagaimana kelas dan contoh dan sifat mereka
didefinisikan, dijelaskan dan disebut. Sebuah ontologi dapat formal atau
informal. Keuntungan dari formalitas adalah bahwa hal itu membuat ontologi
mesin-dibaca, dan karena itu memungkinkan mesin untuk melakukan lebih dalam
penalaran atas sumber daya web. Kerugiannya adalah bahwa seperti formal
konstruksi yang dianggap sulit untuk membuat.
Data dapat dipetakan ke sebuah ontologi, menggunakannya sebagai lingua franca untuk
memfasilitasi berbagi. Ontologi karena itu dimaksudkan untuk menaruh semacam
urutan ke informasi dalam format heterogen dan representasi,
sehingga berkontribusi pada ideal melihat Web sebagai pengetahuan tunggal
sumber. Sejauh itu, ontologi adalah mirip dengan skema database,
kecuali bahwa itu akan ditulis dengan relatif kaya dan ekspresif
bahasa, informasi akan kurang terstruktur, dan menentukan
teori domain, tidak hanya struktur sebuah wadah data [96].
Jadi ontologi dipandang sebagai tambahan berarti yang penting untuk berbagi data, dan
Tujuan utama memperlakukan Web sebagai satu-satunya sumber informasi, tetapi
mereka juga memiliki penentangnya. Banyak komentator khawatir bahwa fokus
pada ontologi ketika datang ke mendalilkan formalisms untuk masa depan
Web adalah untuk membuat kesalahan klasifikasi atas-privileging ketika
datang untuk memahami bahasa manusia dan komunikasi [113]. Ini
tentu harus ditunjukkan bahwa banyak ontologi sebenarnya digunakan, untuk
Misalnya di industri, adalah taksonomi untuk klasifikasi tujuan khusus
dokumen atau halaman Web, cenderung tidak rumit, dan tidak bergantung
pada formalisms sangat ekspresif [88].
OWL memiliki akar di bahasa sebelumnya DAML + MINYAK [65] yang
termasuk deskripsi logika (DL - [42]) di antara berbagai pengaruh.
Melampaui OWL DL, yang menetapkan konsep domain dan terminologi
dengan cara terstruktur, dengan menggunakan link yang disediakan oleh RDF untuk memungkinkan
ontologi akan didistribusikan ke seluruh sistem, kompatibel dengan standar Web,
terbuka, extensible dan scalable. Ontologi dapat menjadi didistribusikan
sebagai OWL memungkinkan ontologi untuk merujuk pada ketentuan dalam ontologi lainnya. Dalam hal ini
OWL cara adalah rekayasa khusus untuk Web dan Semantic Web,
dan simbol banyak bahasa berbagi ([cf 134.]).
Sulit untuk menentukan formalisme yang akan menangkap semua pengetahuan,
tipe sewenang-wenang, dalam sebuah domain tertentu. Ontologi, tentu saja,
melayani tujuan yang berbeda, dan bisa lebih dalam (mengungkapkan ilmiah
konsensus dalam disiplin, dan Sejalan padat karya untuk membangun)
atau lebih dangkal (dengan istilah yang relatif sedikit yang mengatur besar
jumlah data - [34]). Memang, ada banyak jenis wacana
melampaui ontologi tentu saja, dan banyak logika mengekspresikan mereka, untuk
contoh sebab akibat, logika temporal dan probabilistik.
Causal logika [mis 258] dikembangkan dari logika tindakan di AI, dan
dimaksudkan untuk menangkap aspek penting dari pemahaman akal sehat
mekanisme dan sistem fisik. Temporal logika formalises yang
aturan untuk penalaran dengan proposisi diindeks untuk waktu tertentu, dalam
konteks dari Web yang berkembang pesat, prevalensi waktu-stamping
online dan risiko dari informasi yang digunakan yaitu dari tanggal menjamin
relevansi itu. Tentu saja pendekatan logika temporal telah
disarankan untuk manajemen versi ontologi [149].
logika Probabilistik adalah kalkuli yang memanipulasi konjungsi probabilitas
peristiwa individu atau negara, yang mungkin paling terkenal
adalah Bayesian, yang dapat digunakan untuk menurunkan probabilitas untuk acara-acara
didasarkan pada teori sebelumnya tentang bagaimana probabilitas didistribusikan (dan
sangat terbatas data real). penalaran Bayesian merupakan hal yang biasa dalam pencarian
mesin, dan bahkan mencari spam (cf. [117]). Di domain mana penalaran
di bawah ketidakpastian sangat penting, seperti bioinformatika, Bayesian
ontologi telah diusulkan untuk mendukung perluasan dari Web
untuk memasukkan penalaran seperti [19]. Utilitas pendekatan Bayesian dalam
sistem komputasi tidak dapat diragukan; lebih kontroversial beberapa
juga mengklaim bahwa penalaran manusia sesuai dengan pola Bayesian [118],
meskipun tubuh signifikan kerja menunjukkan manusia tidak Bayesian
estimator [162]. Meskipun, di mesin yang sangat sedikit yang secara konsisten
menyesuaikan probabilitas mereka dalam terang pengalaman akan memiliki
melengkapi peran pendukung pengambilan keputusan manusia.
Web sering salah dipahami sebagai statis, sementara itu
terus berubah. Dinamis semantik berhubungan dengan aktivitas di sekitar
isi dari Web: menciptakan konten, tindakan pengguna-dipandu,
waktu, pengguna pribadi profil dan seterusnya [104]. Fry et al, yang pendukung
proyek SW, berpendapat bahwa asumsi yang mendasari
visi SW adalah bahwa semantik adalah deklaratif - kita berurusan
dengan data pasif yang dapat diambil dari server - dan bahwa perubahan
lambat - peristiwa penerbitan lebih jarang daripada browsing atau mengklik
pada link. Di sisi lain, konteks pengambilan, seperti pengguna
profil dan apa tugas-tugas ia terlibat dalam pada waktu pengambilan, juga
suatu masalah, seperti konteks browsing (pola yang berbeda navigasi
mungkin berarti set berbeda hubungan dan konteks informasi perlu
untuk dipahami), agen dinamis komputasi metadata, atau
proses yang biasa mengedit web menciptakan edisi yang berbeda dari sebuah halaman.
Oleh karena itu ada tentu aparat logis dan konseptual yang akan
memungkinkan beragam alasan untuk diekspresikan, meskipun lebih dalam
argumen yang dibuat oleh banyak kritikus, seperti [113], bahwa banyak keterbatasan yang besar
hasil dari sifat terletak, diwujudkan dan tertanam
penalaran banyak dan konseptualisasi, tidak akan ditangani oleh proliferasi ini
dari formalisms abstrak. Tapi sama kita harus berusaha menghindari
asumsi bahwa SW dimaksudkan sebagai sistem menyeluruh tunggal,
dengan cara tunggal berinteraksi dan satu set tertentu representasi
persyaratan yang memaksa semua pengetahuan menjadi satu bentuk (cf. [158]).
Sebagaimana telah kita lihat, SW dimaksudkan terutama untuk mengeksploitasi satu
jenis data, data relasional. Jika data tersebut memiliki nilai dalam konteks, maka
SW teknologi juga harus memiliki nilai, dan memang harus menambahkan
nilai sebagaimana mestinya (a) memungkinkan inferensi lebih lanjut harus dilakukan pada
data, dan (b) memungkinkan, melalui ontologi, data yang akan dihubungkan dengan potensial
luas menyimpan data di tempat lain. Klaim SW, maka, bukankah itu semua data
atau pengetahuan harus ditampilkan dalam beberapa set yang sempit formalisms,
melainkan bahwa kekuatan menghubungkan data yang memungkinkan banyak yang harus
dilakukan dengan itu. Untuk banyak tujuan, dan dalam beberapa konteks untuk paling biasa
tujuan, skema representasi ambisius yang mungkin muncul kurangnya
kaya berbagai kemungkinan ekspresif mungkin sepenuhnya memadai.
SW tidak dimaksudkan untuk menjadi sebuah sistem yang akan memenuhi segala keperluan, tetapi
itu adalah perluasan dari Web yang dimaksudkan untuk memanfaatkan potensi
yang menghubungkan kuantitas data belum pernah terjadi sebelumnya. Ontologi akan memungkinkan
pemahaman umum mengumpulkan data dari heterogen
sumber, selama bagian yang relevan mereka sesuai untuk tugas
di tangan. ambisi ini pada kisaran data yang pendekatan semacam
dapat memanfaatkan, dan nilai SW teknologi berharap dapat menambah, bukan dalam
perpanjangan dari berbagai inferensi yang bisa dicapai secara otomatis
(Meskipun memperluas jangkauan juga harus mungkin).
3.1.4 folksonomi dan struktur sosial muncul
Penggunaan ontologi menambah struktur data. Namun, struktur
dapat muncul secara organik dari manajemen individu mereka sendiri
persyaratan informasi, selama ada orang cukup.
Ada semakin banyak aplikasi didorong oleh desentralisasi
komunitas dari-bawah ke atas, yang pergi di bawah-sakit didefinisikan tetapi populer nama perangkat lunak sosial. Sebagai contoh, wiki adalah sebuah situs web
yang memungkinkan pengguna dan pembaca untuk menambah dan mengedit konten, yang memungkinkan
komunikasi, argumen dan komentar, Wikipedia (http://en.
wikipedia.org / wiki / Halaman Utama untuk versi bahasa Inggris), sebuah
ensiklopedi online yang ditulis oleh komunitas pengguna, telah menjadi sangat
handal meskipun kekhawatiran yang sedang berlangsung tentang kepercayaan entri yang
dan ketakutan dari vandalisme. Ontologi dapat dilengkapi dengan folksonomi,
yang timbul ketika sejumlah besar orang yang tertarik
dalam beberapa informasi, dan didorong untuk menggambarkan itu - atau tag itu (mereka
mungkin tag egois, untuk mengatur pengambilan sendiri isi, atau altruistically
untuk membantu navigasi orang lain '). Daripada bentuk terpusat klasifikasi,
pengguna dapat menetapkan kata kunci untuk dokumen atau informasi lain
sumber. Dan ketika tag tersebut dikumpulkan, hasilnya sangat
menarik. Contoh aplikasi yang telah berhasil memanfaatkan
dan mengeksploitasi penandaan adalah Flickr (http://www.flickr.com/ - fotografi
publikasi dan situs berbagi) dan del.icio.us (http://del.icio.us/ -
sebuah situs untuk penanda berbagi). Penjaga resmi weblog (blog) tag
mereka output. British Broadcasting Corporation (BBC) telah melihat
kesempatan di sini dengan program radio didorong oleh 'pengguna penandaan
(Via ponsel) dari lagu-lagu pop [61].
Karena jumlah tag pada peningkatan aplikasi, meningkatkan struktur
terdeteksi - tag cenderung digunakan kembali, dan diterapkan kembali untuk baru
item dengan pengguna baru, dan semua hubungan biasa subsumption,
dll, mulai muncul. Struktur kasar yang dihasilkan folksonomi
(= Taksonomi rakyat). Mereka tentu tidak logis dan istimewa, dan
berisi banyak contoh membingungkan sinonim (kata beberapa makna
hal yang sama - fiksi ilmiah, sci-fi dan SF) dan polisemi (beberapa
makna yang dicakup oleh kata yang sama - tidak SF = fiksi ilmiah atau
San Francisco), yang akan menghambat pencarian yang lebih efisien -? Dan tentu saja
tergantung pada bahasa. Tidak hanya itu, tapi membayangkan bahwa sebagai tag
struktur semakin sering digunakan untuk mengatur Web tertentu
aplikasi, para spammer akan mulai penandaan otomatis untuk meningkatkan
kemungkinan data yang diambil. Di sisi lain, tag
dihasilkan oleh interaksi dunia nyata dengan isi tag, dan
jadi jangan mengungkapkan pola asli keterlibatan antara konten
penyedia dan pengguna. Evolusi tag, lebih dari set yang sangat besar

penandaan data, dapat dilacak untuk menunjukkan pola-pola ini berkembang melalui
waktu [84].
struktur tersebut memungkinkan semantik untuk muncul dari perjanjian implisit,
sebagai lawan pembangunan ontologi yang menunjukkan eksplisit
perjanjian; bidang dinamika semiotik ini didasarkan pada gagasan
bahwa komunikasi yang disepakati atau sistem informasi organisasi sering
berkembang melalui proses desentralisasi yang sama penemuan dan negosiasi
[268]. Telah dikatakan bahwa kesepakatan implisit, dalam bentuk
terjemahan on-demand di skema informasi dapat memadai
untuk mendukung semantik interoperable untuk, dan pencarian disalurkan melalui,
Sistem P2P - meskipun apakah terjemahan implisit tersebut akan mudah
untuk menghasilkan seluruh sumber informasi yang dirancang untuk tugas-tugas yang berbeda
sangat banyak pertanyaan terbuka [2].

3.1.5 ontologi folksonomi v?
Dikatakan - meskipun saat ini argumen yang hanya penyaringan perlahan
ke dalam literatur akademik - yang folksonomi lebih disukai untuk
penggunaan dikendalikan, ontologi terpusat [mis 259]. Annotating Web
halaman menggunakan kosakata terkontrol akan meningkatkan kemungkinan seseorang
balik halaman di pencarian Web yang 'benar', namun di sisi lain
basis pengguna besar heterogen dari Web tidak mungkin mengandung
banyak orang (atau organisasi) bersedia untuk mengadopsi atau mempertahankan kompleks
ontologi. Menggunakan sebuah ontologi melibatkan membeli ke cara tertentu
ukiran Facebook dunia, dan menciptakan suatu ontologi memerlukan investasi ke
metodologi dan bahasa, sedangkan penandaan informal dan cepat.
Tag seseorang mungkin tidak membantu atau tidak akurat, dan tidak diragukan lagi ada suatu seni
untuk penandaan berhasil, tapi satu mendapatkan hasil (dan tanggapan) sebagai salah satu belajar;
ontologi, di sisi lain, memerlukan sesuatu dari suatu investasi
waktu dan sumber daya, dengan masukan yang datang lebih lambat. Dan, yang terpenting,
alat untuk menurunkan hambatan untuk masuk ke kosakata terkontrol yang
muncul jauh lebih lambat daripada yang digunakan untuk dukungan sosial
Software [61].
Tagging tentu merupakan perkembangan yang menarik dan sebuah fenomena menarik,
tetapi kita harus waspada dengan mengasumsikan bahwa tag dan ontologi
bersaing untuk ruang yang sama. Tagging memberikan sumber potensial metadata, dengan semua kekurangan informalitas dan semua keuntungan
hambatan rendah untuk masuk dan basis pengguna yang tinggi. Tapi tag hanya
bagian dari cerita tentang sumber daya Web [128].
Ontologi dan folksonomi telah karikatur sebagai berlawanan. Dalam
kenyataannya, mereka adalah dua hal yang terpisah, meskipun beberapa fungsionalitas
ontologies uncontroversially dapat diambil alih oleh folksonomi
dalam berbagai konteks. Ada dua terpisah (kelompok) poin untuk
membuat. Yang pertama harus dilakukan dengan seharusnya trade-off antara ontologi
dan folksonomi, yang kedua berkaitan dengan persepsi tentang ontologi.
Ontologi dan folksonomi ada di sana untuk melakukan hal yang berbeda, dan
menangani kasus-kasus yang berbeda. Folksonomi adalah varian pada keywordsearch yang
tema, dan merupakan upaya yang muncul di informasi menarik
pengambilan - bagaimana saya bisa mengambil dokumen (foto, katakanlah) yang relevan
dengan konsep di mana saya tertarik? Ontologi merupakan upaya untuk
mengatur bagian dari dunia data, dan untuk memungkinkan pemetaan dan interaksi
antara data dalam format yang berbeda atau lokasi, atau yang telah
telah dikumpulkan oleh organisasi yang berbeda dengan asumsi yang berbeda.
Apa yang telah ditampilkan sebagai sebuah kompetisi-off perdagangan, atau, atau bahkan
zero-sum game mungkin lebih baik diwakili sebagai dua pendekatan yang terpisah
untuk dua jenis masalah. Ini mungkin bahwa masalah set
mereka pendekatan tumpang tindih, dalam hal ini ada pada mungkin kesempatan
menjadi pilihan yang harus dibuat antara mereka, tetapi bahkan sehingga kedua ontologi
dan folksonomi memiliki kegunaan yang pasti dan sama-sama berpotensi berbuah
jalan penelitian [257].
Telah berpendapat bahwa ontologi berguna bisa menggabungkan material
dari jaringan sosial dan perangkat lunak, sebagai informasi yang sedang
dimodelkan memiliki dimensi sosial [201]. Hal ini mungkin menawarkan satu set baru
kesempatan - untuk contoh adalah perangkat lunak blogging yang secara otomatis membuat
metadata bisa menjadi cara untuk memanfaatkan bottom up software sosial
pendekatan [163]. Selain itu, seharusnya dasar dari pembedaan
antara kedua - yang folksonomi berkembang secara organik dan tanpa rasa sakit
sedangkan ontologi pemeliharaan tinggi dan overhead tinggi - adalah anyway
meragukan. Dimana ada yang dianggap perlu untuk ontologi, ringan
tapi yang kuat jangan muncul dan secara luas digunakan, seperti misalnya
dengan Friend-of-a-Friend (FOAF - [45]), dan aplikasi yang terkait
seperti Flink [200]. Hal ini sesuai pada umumnya dengan panggilan untuk ganda dan pelengkap pengembangan teknologi SW dan teknologi yang
mengeksploitasi organisasi-diri dari Web [misalnya 101].
Persepsi ontologies tergantung pada pemahaman akan perbedaan ini.
Perhatikan, misalnya, biaya ontologi. Dalam pertama
tempat, akan ada daerah di mana biaya, akan mereka pernah begitu besar, akan
mudah untuk menutup. Di daerah baik terstruktur seperti aplikasi ilmiah,
upaya untuk menciptakan spesifikasi kanonik kosakata akan sering
senilai keuntungan, dan mungkin penting, memang, Semantic Web teknik
yang mendapatkan tanah dalam konteks ilmiah dengan data yang kaya di mana
terdapat kebutuhan untuk pengolahan data dan kemauan untuk mencapai
konsensus tentang istilah. Dalam aplikasi komersial tertentu, potensi
keuntungan dari penggunaan spesifikasi baik terstruktur dan terkoordinasi
kosakata akan lebih besar daripada biaya tenggelam untuk mengembangkan atau menerapkan
ontologi, dan biaya marjinal pemeliharaan. Misalnya, memfasilitasi
pencocokan istilah dalam persediaan pengecer dengan orang-orang dari
agen pembelian akan menguntungkan kedua belah pihak.
Dan biaya ontologies berkembang mungkin berkurang pengguna
dasar dari ontologi meningkat. Jika kita menganggap bahwa biaya pembangunan
ontologi tersebar di komunitas pengguna, jumlah ontologi
insinyur yang dibutuhkan meningkat seiring dengan log ukuran komunitas pengguna,
dan jumlah waktu meningkat bangunan sebagai kuadrat dari jumlah
insinyur - asumsi yang sederhana saja tapi yang wajar untuk dasar
model - upaya yang terlibat per pengguna dalam ontologi bangunan besar
masyarakat menjadi sangat kecil sangat cepat [29]. Selain itu, karena
penggunaan menyebar ontologies, teknik untuk digunakan kembali mereka, segmentasi dan
penggabungan juga akan menjadi lebih akrab [212, 256, 10], dan memang ada
akan menjadi dasar meningkat dan semakin terkenal ontologies
ada untuk digunakan kembali.
Kedua, ada persepsi ontologies sebagai top-down dan agak
otoriter konstruksi, tidak terkait, atau hanya tenuously istimewa, untuk
orang-orang yang sebenarnya praktek, dengan berbagai tugas potensial di domain,
atau dengan operasi konteks (lih. misalnya [158]). Dalam beberapa hal, ini
persepsi mungkin berhubungan dengan gagasan pengembangan tunggal
Ontologi konsisten Segalanya, seperti misalnya dengan CYC [183].
Seperti ontologi luas dan mencakup semua mungkin memiliki
jumlah aplikasi menarik, tapi jelas tidak akan skala dan perusahaan penggunaan yang tidak bisa ditegakkan. Jika SW dilihat sebagai memerlukan buyin luas
ke titik tertentu pandang, maka dapat dimengerti bahwa yang muncul
struktur seperti folksonomi mulai tampak lebih menarik (cf. [259]).
Namun ini bukan merupakan persyaratan SW. Bahkan, sikap SW untuk
ontologi tidak lebih dari rasionalisasi data aktual-berbagi
praktek. Aplikasi dapat dan memang berinteraksi tanpa mencapai atau
mencoba untuk mencapai konsistensi global dan cakupan. Sebuah sistem yang
menyajikan barang-barang ritel untuk pelanggan akan panen informasi dari
pemasok 'database (sendiri cenderung menggunakan format heterogen)
dan peta itu ke format data yang diinginkan pengecer untuk kembali presentasi.
Otomatis pajak perangkat lunak kembali mengambil data bank, di bank pilihan
format, dan peta mereka ke formulir pajak. Tidak ada persyaratan untuk
global ontologi di sini. Bahkan tidak ada persyaratan untuk persetujuan atau
Terjemahan global antara ontologi spesifik digunakan kecuali dalam
subset dari istilah yang relevan untuk transaksi tertentu. Perjanjian
hanya perlu lokal.
Tujuan dari SW harus dilihat dalam konteks rutin
sifat jenis perjanjian. SW ini dimaksudkan untuk menciptakan dan
mengelola standar untuk membuka dan membuat perjanjian ini rutin parsial
dalam format data; standar tersebut harus memungkinkan untuk
eksploitasi data relasional pada skala global, dengan bersamaan
leverage bahwa skala yang membeli.
3.1.6 Metadata
Isu-isu yang berkaitan dengan semantik atau penafsiran Web
melampaui Semantic Web. Sebagai contoh, metadata dapat digunakan untuk
menggambarkan atau membubuhi keterangan sumber daya dalam rangka untuk membuatnya (lebih) dimengerti
untuk pengguna. Pengguna ini mungkin menjadi manusia, dalam hal metadata dapat
menjadi tidak terstruktur, atau mesin, dalam hal metadata harus
mesin-dibaca. Biasanya, metadata adalah deskriptif, termasuk misalnya
elemen dasar sebagai nama penulis, judul atau abstrak dokumen, dan
administrasi informasi seperti jenis file, hak akses, menyatakan HKI,
tanggal, nomor versi dan sebagainya. item multimedia dapat dijelaskan
dengan deskripsi tekstual konten, atau kata-kata kunci untuk membantu berbasis teks
pencarian.
Secara umum, metadata yang penting untuk pencarian yang efektif (mereka membiarkan
sumber daya yang ditemukan oleh berbagai kriteria, dan sangat membantu
dalam menambah struktur dicari sumber daya non-teks), pengorganisasian
sumber daya (misalnya, memungkinkan portal untuk berkumpul komposit
laman web secara otomatis dari sumber daya yang sesuai-beranotasi beberapa),
pengarsipan bimbingan (cf. [58]), dan informasi mengidentifikasi (seperti
nomor referensi yang unik, yang membantu memecahkan masalah satu ketika
sumber daya Web adalah 'sama' seperti yang lain). Mungkin penggunaan paling penting
untuk metadata adalah untuk mempromosikan interoperabilitas, memungkinkan kombinasi
sumber daya heterogen di seluruh platform tanpa kehilangan konten.
skema Metadata memfasilitasi pembuatan metadata dalam standar
format, untuk memaksimalkan interoperabilitas, dan ada sejumlah
seperti skema, termasuk Dublin Core (http://dublincore.org/) dan
Teks Encoding Initiative (TEI - http://www.tei-c.org/). RDF menyediakan
mekanisme untuk mengintegrasikan skema metadata tersebut.
Ada sejumlah pertanyaan menarik yang berkaitan dengan metadata.
Di tempat pertama, apa metadata perlu diterapkan untuk konten? Kedua,
bagaimana metadescription mempengaruhi inferensi? Apakah itu membuat lebih sulit?
Apa yang dapat dilakukan tentang annotating isi warisan? Banyak yang telah
tertulis tentang semua pertanyaan ini, tetapi itu sangat berharga sebuah penyimpangan kecil untuk
melihat beberapa pendekatan yang pertama.
Sehubungan dengan metadata yang diperlukan, tentu saja banyak tergantung pada
tujuan untuk sumber daya yang dijelaskan. Untuk berbagai tujuan -
misalnya, foto digital berbagi - metadata bisa menjaga diri mereka sendiri,
sebagai keberhasilan situs seperti pertunjukan Flickr. Lebih umum, menarik
kemungkinan untuk metadata termasuk waktu-stamping, asalnya, ketidakpastian
dan perizinan pembatasan.
Time-stamping adalah kepentingan karena unsur temporal konteks
adalah penting untuk memahami teks (untuk mengambil sebuah contoh nyata,
ketika membaca sebuah makalah tentang geopolitik global pada tahun 2006 adalah penting untuk mengetahui
apakah itu ditulis sebelum atau setelah peristiwa 11 September, 2001). Selanjutnya,
beberapa informasi memiliki 'menjual-menurut tanggal': setelah titik tertentu mungkin
menjadi tidak dapat diandalkan. Seringkali hal ini tidak mudah ditebak persis, tapi luas
indikasi dapat diberikan; alami banyak tergantung pada apakah informasi
sedang digunakan dalam beberapa sistem misi kritis dan bagaimana toleran
kegagalan sistem. Umum temporal informasi tentang sumber daya apat diberikan dalam tag XML dengan cara biasa. Namun, di dalam tubuh
sumber daya, yang kita tidak bisa berasumsi menjadi terstruktur, mungkin ada
kebutuhan informasi temporal juga, bagi pengguna untuk menemukan secara manual. Dalam
kasus, sulit untuk mengidentifikasi informasi temporal yang diperlukan dalam tubuh
teks tidak terstruktur, dan untuk menentukan apakah suatu cap waktu mengacu pada
perusahaan memiliki bagian atau beberapa bagian lain dari sumber daya. Mungkin
beberapa ide dapat diimpor dari organisasi temporal lebih
sumber daya terstruktur seperti database, selama over-resep
dihindari [173]. Dalam kasus apapun, adalah penting untuk mengetahui waktu penciptaan
dan asumsi tentang umur panjang kualitas informasi yang mendasari;
jika isi dari sumber daya 'dapat berubah atau penarikan tanpa
pemberitahuan, maka integritasnya dapat dikompromikan dan nilainya sebagai
catatan budaya sangat berkurang '[107].
PROVENANSI informasi sangat penting untuk menentukan
nilai dan integritas sumber daya. Banyak pengarsipan standar digital yang disetel
dengan jelas informasi apa yang diperlukan asalnya. Misalnya,
Terbuka Sistem Informasi Kearsipan model (OAIS) dari Permusyawaratan
Komite Space Data Systems tuntutan metadata tentang
sumber atau asal sumber daya, log dari perubahan yang telah diambil
tempat, dan di bawah naungan yang, dan catatan dari rantai
[57]. Eksemplar CURL ini dalam proyek Arsip Digital (Cedars) pergi
lebih lanjut, menuntut sebuah sejarah tentang asal (termasuk alasan mengapa
sumber daya diciptakan, daftar lengkap kustodian bertanggung jawab sejak
penciptaan dan alasan itu sedang diusulkan untuk pengarsipan), teknis
informasi tentang lingkungan penciptaan dokumen (termasuk
perangkat lunak dan sistem operasi), manajemen sejarah (termasuk
sejarah proses pengarsipan dan kebijakan dan tindakan diterapkan
untuk itu sejak diarsipkan), dan catatan yang berhubungan dengan HKI
dokumen [58]. Konteks teknologi seperti e-ilmu pengetahuan dan grid
komputasi telah mendorong penelitian teknologi-independen
representasi dari asalnya, informasi asalnya yang perlu
harus dikodekan, peran kunci untuk arsitektur asal-pencatatan dan
proses-item terkait seperti distribusi arsitektur dan keamanan
persyaratan (cf. [122] - ironisnya dokumen saat ini berkembang
pada saat penulisan yang mencakup account terstruktur sendiri
asalnya). Faktor kunci dalam menilai kepercayaan dokumen
adalah keandalan atau klaim disajikan di dalamnya; metadata
tentang asalnya tidak diragukan lagi akan membantu dalam penilaian seperti ini, tetapi perlu
belum tentu mengatasinya. Mewakili kepercayaan dalam keandalan memiliki
selalu sulit di logika epistemic. Dalam konteks pengetahuan
pendekatan representasi meliputi: logika subjektif, yang merupakan
pendapat sebagai (, percaya ketidakpastian keyakinan,) real-nilai triple mana
tiga item menambahkan hingga 1 [, 159 160]; grading berdasarkan penilaian kualitatif,
walaupun nilai kualitatif tersebut dapat diberikan interpretasi numerik
dan kemudian beralasan tentang matematis [110, 115]; fuzzy
logika (cf. [248]); dan probabilitas [148]. Sekali lagi kita melihat trade-off yang
yang formalisms yang paling ekspresif mungkin yang paling sulit
untuk digunakan.
Akhirnya, metadata yang berhubungan dengan pembatasan lisensi telah berkembang
dengan gerakan untuk, 'creative commons' perlindungan fleksibel berdasarkan
hak cipta yang lebih tepat untuk konteks Web dan weblike.
Daripada hanya menggunakan instrumen tumpul hukum hak cipta, kreatif
commons lisensi memungkinkan penulis untuk menyempurnakan pelaksanaan mereka
hak oleh waiving beberapa dari mereka untuk memfasilitasi penggunaan pekerjaan mereka dalam
konteks berbagai specifiable [187]. Kami membahas hak cipta lebih terinci
dalam Bagian 6.2 di bawah ini.
Pertanyaan-pertanyaan tentang kesulitan penalaran dengan metadata,
dan tugas raksasa annotating data warisan, tetap sangat terbuka. Ini
telah berpendapat bahwa annotating Web akan memerlukan skala besar otomatis
metode, dan metode tersebut pada gilirannya akan memerlukan tertentu yang kuat
pengetahuan komitmen pemodelan [170], apakah ini akan melanggar
semangat desentralisasi dari Web ini belum jelas. Banyak akan tergantung
pada pendekatan kreatif seperti annotating on the fly seperti penjelasan yang
diperlukan, atau sumber daya warisan annotating seperti database yang mendasari
Web dalam [283].
3.2 Referensi dan identitas
Semantic Web mengandalkan konvensi penamaan dengan URI, dan
Tentu saja setiap bagian dari sistem pelabelan Web yang bergantung pada beberapa konvensi
atau lainnya. Masalah dengan label di Web adalah bahwa setiap sistem desentralisasi dan dasarnya tidak diawasi, sesuai dengan
Web yang mengatur prinsip-prinsip, tetapi ini tidak sentralisasi memungkinkan
skema yang berbeda dan konvensi, dan memang kecerobohan, untuk berkembang,
yang pada gilirannya membuka kemungkinan kegagalan referensi unik.
3.2.1 Referensi: Kapan dua benda yang sama?
Desentralisasi adalah masalah dari sudut pandang logis, meskipun besar
keuntungan dari yang pencipta konten. Obyek yang sama mungkin
disebut online, sempurna benar, sebagai 'Jane Doe', 'Janey Doe', 'Jane
A. Doe ',' Doe, J.A. 'dan sebagainya. Selanjutnya, setiap atau semua istilah ini
dapat digunakan untuk merujuk ke objek yang berbeda. Dan, tentu saja, asli
Jane Doe mungkin misnamed atau salah eja: 'Jnae Doe', dll
kegagalan referensi unik relatif sepele bagi pengguna manusia untuk menguraikan,
tetapi tentu saja sangat sulit bagi mesin untuk bekerja keluar. Dan
jika kita berharap untuk mengekstrak informasi yang berguna dari repositori yang sangat besar
informasi, dimana kerajinan tangan solusi dan referensi memeriksa
oleh mata tidak layak, pengolahan mesin tidak bisa dihindari. Referensi
masalah yang sangat mungkin terjadi ketika sumber-sumber informasi
digabung, masalah di mana-mana tapi yang serius dalam konteks
dari Web Semantic. Dan desentralisasi Web menghalangi
membuat asumsi nama yang unik, dalam cara [240].
Di sisi lain, URI menyediakan Web dengan sumber daya
untuk menghindari setidaknya beberapa masalah grounding tradisional, ketika
dapat diatasi bahwa dua istilah ini menunjuk ke URI yang sama.
Jadi jika "bintang pagi" dan "bintang malam" menunjuk langsung kepada
http://ex.org/planets.owl # venus maka setiap landasan lebih lanjut super-
fluous. Di sisi lain, dua URI yang berbeda mungkin mengacu sama
objek non-jelas, dan mungkin melakukannya hanya dengan melalui beberapa operasi
di mana ia digunakan. Kadang-kadang ini akan terdeteksi melalui algoritmik
analisis sintaks (misalnya, nama domain tidak case
sensitif, jadi ini dapat digunakan untuk mendeteksi kesamaan), tetapi tidak secara umum.
Masalahnya tidak pergi dengan penggunaan URI, tetapi mereka berada di
setidaknya satu set pengidentifikasi memberikan dasar potensial bagi stabilitas di beberapa
situasi - situasi khususnya ilmiah di mana perjanjian di atas simbol-simbol
dan definisi sering diformalkan.
Sebuah metode heuristik untuk menyelesaikan bentrokan tersebut, di dunia nyata, adalah
untuk membuat penilaian cerdas berdasarkan informasi jaminan, dan
ini telah menirukan online dengan perhitungan komunitas
praktek nama, berdasarkan jaringan hubungan sekitarnya
masing-masing instansi yang disengketakan. Misalnya, jika 'Jane Doe' dan 'Doe,
JA 'memiliki keduanya punya asosiasi yang kuat dengan' Universitas Loamshire ',
satu karena dia bekerja di sana, yang lain karena dia telah bekerja pada
proyek yang UoL adalah partner, maka itu adalah bukti prima facie
bahwa dua istilah mengacu pada objek yang sama - meskipun tentu saja seperti
penghakiman akan selalu sangat yg dpt dibatalkan [11].
Secara umum, manajemen referensi, dan resolusi referensi
masalah, akan selalu sulit mengingat bahwa theWeb mencakup sejumlah besar
mengumpulkan informasi untuk sejumlah alasan yang berbeda dan untuk
memecahkan berbagai tugas, makna dan interpretasi sering shift, dan ada
mungkin pada kesempatan menjadi kesepakatan sedikit tentang referen istilah. Sebuah
isu penting untuk Web Sains justru bagaimana memahami referensi
dan representasi, dan menentukan sistem yang manajemen
dan formalisms akan memungkinkan pemahaman yang lebih besar dan pelacakan dari apa yang
Web ini dimaksudkan untuk mengatakan tentang yang objek.
3.2.2 Kapan dua halaman yang sama?
Alternatif mengambil masalah referensi adalah bahwa penentuan
ketika dua halaman web adalah halaman yang sama. Hal ini tentu saja akan menjadi sepele
dalam banyak kasus, tetapi sering kali "utama" teks yang disalin dari satu halaman ke
lain, tetapi dikelilingi oleh iklan yang berbeda, logo, header
dan footer. Banyak metrik yang tersedia yang dimaksudkan untuk menentukan
kuantitatif tingkat hubungan antara dua halaman. Kesamaan
penilaian bisa sembarangan dan pragmatis, tergantung pada konteks (misalnya
memutuskan plagiat atau kasus pelanggaran hak cipta), tetapi teknik
dari teori informasi yang ada untuk menghasilkan set nomor tujuan
untuk memberi makan ke dalam proses penilaian - misalnya, Levenshtein edit
jarak, dan varian algoritma, diberikan dengan jumlah minimum
operasi dari beberapa basis yang diperlukan untuk bisa mengubah satu string menjadi
lain (bdk. [38]).
Dasar untuk membuat penilaian kemiripan tidak perlu hanya menjadi
konten pada halaman, tetapi juga bisa menjadi struktur hyperlink dalam
halaman yang tertanam. Informasi yang mengharuskan pengguna
tidak perlu berasal dari satu halaman, tapi malah bisa dipetik dari
cluster dokumen seputar topik dasar, dan hubungan yang
struktur ada bisa sangat penting. Dan lebih jauh kemungkinan
cara kesamaan pemahaman antara pola penggunaan tertentu
halaman - dua halaman yang sering diakses pada titik-titik serupa di Web
sesi surfing [76]?
Konten berbasis kesamaan dapat didekati dengan mencocokkan kata-kata atau
subsequences dari dua halaman. Teknik yang relatif sederhana
digunakan untuk menentukan kemiripan antara dua halaman (rasio
antara ukuran persimpangan dari subsequences dan ukuran
serikat mereka), dan penahanan satu dengan yang lain (rasio
antara persimpangan dan ukuran dari himpunan yang terkandung) [48]. Linkbased
metrik berasal dari bibliometrics dan analisis kutipan, dan fokus
pada keluar link dan link dalam dua halaman memiliki kesamaan, relatif
ke ruang umum link di cluster topik. Penggunaan berbasis metrik
memanfaatkan informasi yang dikumpulkan dari server log dan sumber-sumber lain tentang
ketika halaman yang dikunjungi, pada asumsi bahwa kunjungan dari yang sama
pengguna dalam sesi yang sama di situs yang sama kemungkinan akan konseptual
terkait, dan semakin besar kesamaan antara waktu akses pengguna
untuk halaman web, semakin besar kemungkinan halaman tersebut yang entah bagaimana
terkait secara konseptual [227].
Web 3.3 rekayasa: arah Baru
pembangunan Web adalah campuran dari standar-setting, tidak terstruktur,
desentralisasi kegiatan dan inovasi, dan rekayasa yang disengaja.
Pada bagian ini kita akan fokus pada yang terakhir, dan review menonjol
teknik isu dan keharusan terbuka. Pertumbuhan Web
jelas merupakan sesuatu yg diinginkan kunci. Penyimpanan jumlah semakin besar informasi,
dalam konteks perhitungan pernah-cepat, akan sangat vital untuk
masa mendatang. Tanpa lebih cerdas pengambilan penyimpanan dan cepat untuk
media memori-lapar seperti video, maka pada akhirnya akan tumbuh terlalu theWeb
besar untuk teknologi sendiri. Sebagai contoh, PageRank membutuhkan merangkak
dan caching dari bagian signifikan dari theWeb; keberhasilan tergantung Google pada kemampuan untuk menjaga cache penurut sementara juga ukuran yang signifikan.
Greater permintaan untuk layanan personalisasi dan pencari juga akan memberikan tekanan
pada sistem. Memperluas cakupan pencarian untuk mencakup item
seperti multimedia, jasa atau komponen ontologi, juga akan memerlukan
mengejar program penelitian akademik, interface efektif dan
model bisnis yang masuk akal sebelum layanan komersial mulai beroperasi.
Yang ada dan mengembangkan pendekatan untuk memanfaatkan Web harus
diperluas ke lingkungan Web yang baru sebagaimana yang diciptakan (seperti P2P
jaringan, misalnya).
3.3.1 Web layanan
Layanan area utama di mana kami rekayasa model kebutuhan Web
untuk terlibat dan jasa extended.Web didistribusikan potongan kode
ditulis untuk memecahkan tugas-tugas tertentu, yang dapat berkomunikasi dengan layanan lain
melalui pesan. tugas yang berskala lebih luas dapat dianalisis dan secara rekursif
dipecah menjadi sub-tugas yang dengan peta keberuntungan akan ke spesifik
tugas-tugas yang dapat diatasi oleh layanan. Jika itu terjadi, dan
jika layanan ditempatkan dalam konteks Web, yang berarti bahwa pengguna dapat
memanggil layanan yang bersama-sama dan kooperatif memenuhi kebutuhan mereka.
Software abstrak jauh dari hardware dan memungkinkan kita untuk menentukan
komputasi mesin dalam hal fungsi logis, yang memfasilitasi
spesifikasi masalah dan solusi dengan cara yang relatif intuitif. The
evolusi dari Web untuk memasukkan penyediaan dan difusi layanan
membuka prospek abstraksi baru: pertanyaan sekarang adalah bagaimana kita bisa
melakukan abstraksi yang sama jauh dari perangkat lunak. Apa metode
menggambarkan layanan akan memungkinkan kita untuk berhenti khawatir tentang bagaimana mereka akan
dilakukan?
Sejumlah metode proses menentukan telah berkembang selama
beberapa tahun terakhir dan diterapkan pada domain layanan Web. Misalnya,
WS-Net adalah bahasa deskripsi arsitektural berdasarkan teori
Petri jaring berwarna (yaitu perluasan dari teori Petri sederhana bersih dengan
terhormat, token diidentifikasi - lihat Bagian 4.2.5 untuk diskusi singkat
Petri jaring), yang menggambarkan komponen layanan Web dalam hal
jasa yang memberikan untuk komponen lain, layanan yang diperlukan untuk
fungsi, dan operasi internal. Hasil akhirnya adalah model yang
mencakup baik global dan aspek-aspek lokal dari sistem pelayanan, memfasilitasi integrasi layanan Web untuk mencapai tujuan-tujuan baru, sementara juga menyediakan
sebuah formalisme untuk evaluasi integrasi [296].
Proses aljabar (lihat Bagian 4.2.5) juga telah diterapkan untuk
layanan. Sekali lagi, seperti dengan pendekatan Petri net, penggunaan formal
aljabar memungkinkan baik desain dan evaluasi untuk mengambil tempat (atau memang salah satu
atau yang lain, tergantung pada apa metode alternatif yang tersedia untuk
menghasilkan atau survei kode). Sebagai contoh, [98] menggambarkan pemetaan
antara aljabar proses ekspresif dan BPEL4WS (yang distandarisasi
Berbasis XML notasi untuk menggambarkan proses bisnis executable),
yang memungkinkan baik pembentukan jasa di BPEL4WS diikuti oleh
mereka evaluasi dan verifikasi menggunakan aljabar proses, atau generasi
kode BPEL4WS otomatis dari penggunaan aljabar
untuk menentukan layanan yang diinginkan. Secara umum, spesifikasi aljabar
pelayanan pada tingkat abstrak dan penalaran tentang mereka telah menjadi
utama bidang penelitian pada layanan [mis 75, 105, 208].
BPEL4WS adalah versi panjang dari Eksekusi Proses Bisnis
Bahasa BPEL, yang menjadi cara yang semakin penting untuk
Sun Web layanan dengan proses bisnis. BPEL ada batasnya,
tapi memungkinkan penciptaan layanan komposit dari layanan yang telah ada. The
Tahap selanjutnya adalah menyesuaikan pendekatan ini untuk lingkungan P2P, dan
kendaraan saat ini dalam pengembangan untuk itu adalah CDL, alias WS-CDL, alias
Koreografi (Web Services Choreography Description Language -
[164]), sebuah bahasa berbasis XML untuk mendefinisikan umum dan saling melengkapi
diamati perilaku dalam kolaborasi P2P. Tujuannya adalah agar
interoperable P2P kolaborasi dapat disusun dengan menggunakan Koreografi
tanpa memperhatikan spesifik seperti platform dasar yang digunakan;
bukan fokus pada tujuan umum dari kolaborator. Sedangkan
BPEL memungkinkan ada pelayanan yang akan digabungkan bersama-sama, Koreografi
pergeseran fokus ke deskripsi global kolaborasi, informasi
pertukaran, pemesanan tindakan dan sebagainya, untuk mencapai tujuan yang disepakati.
3.3.Distribusi pendekatan: komputasi Pervasif,P2P dan grid
Ada banyak lingkungan hardware yang akan Web
diharapkan untuk menembus, namun asumsi teknik mana yang berlaku untuk skala besar, lebih-atau-kurang tetap mesin komputasi khusus tidak
harus berlaku. contoh nyata termasuk komputasi mobile, di mana-mana
(Atau meresap) komputasi mana interoperabilitas menjadi masalah,
P2P sistem dan komputasi grid. komputasi Mobile membuat segala macam
tuntutan rekayasa, daya komputasi yang tersedia tidak luas dan
pengguna harus diasumsikan terus-menerus bergerak dengan variabel
bandwidth dan akses. Selain itu, menyajikan informasi kepada pengguna
memerlukan paradigma yang berbeda dari PC, misalnya untuk memungkinkan
pengguna untuk menerima informasi yang cukup pada layar kecil untuk membuat browsing
menarik [20, 193]. Akses mobile ke Web dapat menjadi
mode dominan di banyak negara, terutama yang berkembang, terima kasih
untuk harga yang relatif rendah dan keandalan koneksi nirkabel dan baterai
kekuasaan [222]. Penelitian di bidang ini penting untuk adil
distribusi sumber daya web.
Mana-mana komputasi, P2P dan berbagi banyak komputasi grid serius
penelitian masalah, terutama koordinasi perilaku dalam jumlah besar
terdistribusi skala sistem. Mana-mana komputasi membayangkan kecil, relatif
perangkat komputasi bertenaga rendah tertanam di lingkungan
pervasively berinteraksi dengan orang. Ada berbagai kemungkinan imajinatif,
seperti benang cerdas yang dapat ditenun menjadi pakaian. Tapi
tanpa menebak-nebak kecenderungan jelaslah bahwa perangkat yang lebih kecil akan
perlu koneksi nirkabel ke jaringan arsitektur yang memungkinkan otomatis
ad hoc konfigurasi, dan ada sejumlah kesulitan rekayasa
yang terkait dengan masalah (cf. [244, 176]).
Sebagai contoh, penemuan layanan dalam paradigma meresap harus mengambil
tempat tanpa manusia dalam loop. Layanan harus mampu mengiklankan
diri untuk memfasilitasi penemuan. Standar layanan penerbitan
akan diperlukan untuk menjamin keamanan dan privasi, kepercayaan dari layanan
keandalan, kompensasi untuk penyedia layanan, dan tepat bagaimana
layanan akan terdiri dengan layanan dipanggil lain untuk mencapai
beberapa tujuan atau memecahkan masalah yang dihadapi [179].
Ini hanyalah salah satu contoh saat ini berkembang lingkungan komputasi
yang kemungkinan akan semakin penting. Dalam konteks ofWeb Sains
dan mencari dan deskripsi dari invariants dari pengalaman Web,
adalah penting bahwa asumsi kita buat tentang lingkungan,
dan teknologi yang hidup di dalamnya, diminimalkan.
P2P jaringan, ditandai dengan otonomi dari server pusat,
konektivitas intermittent oportunistik dan penggunaan sumber daya [220],
lain adalah lingkungan yang menarik bagi generasi Web berikutnya. Dalam
seperti jaringan (termasuk jaringan file-sharing seperti Napster, komunikasi
jaringan seperti Skype, dan jaringan komputasi seperti
sebagai SETI @ home), komputer menjadi komponen dalam terdistribusi
sistem, dan mungkin melakukan berbagai hal: back up orang lain
file, menyimpan fragmen dienkripsi file, melakukan pengolahan berskala besar
usaha di latar belakang, dan sebagainya. Ada banyak jelas
potensi aplikasi untuk jaringan P2P terstruktur dan tidak terstruktur
dalam konteks Web. Pertanyaan bagi para ilmuwan Web adalah apa yang
fungsi penting bagi pengalaman Web dapat disimpan dalam longgar
ditambah sistem otonomi. Mengingat karakteristik yang tidak biasa P2P,
termasuk nomor yang berpotensi besar dan heterogenitas dari node P2P,
tradisional rekayasa metode seperti eksperimentasi online (yang
akan membutuhkan sejumlah besar unfeasibly pengguna untuk mendaftar ke arsitektur
dan memungkinkan transaksi mereka yang akan dimonitor) atau simulasi besar-besaran
(Skala hanya terlalu besar) akan tidak pantas. Skala
izin dari Web, yang kami akan terus melihat dalam jaringan P2P,
membuat jaringan teori model penting (lih. misalnya [249, 189]), tapi kami
harus mengharapkan eksperimentasi inovasi, radikal dan semangat wirausaha
untuk memimpin upaya dalam bidang ini.
Godaan untuk mengeksploitasi lingkungan radikal desentralisasi seperti
sebagai jaringan P2P pada generasi berikutnya dari Web adalah kuat; desentralisasi
adalah aspek kunci dari keberhasilan Web. Jadi, misalnya, orang bisa
bayangkan P2P jaringan yang digunakan untuk menemukan halaman cache untuk backup di
hal terjadi kegagalan atau kesalahan yang mengarah ke halaman yang hilang atau link menggantung.
Perlu dibentuk apakah kemampuan jaringan P2P untuk melakukan
bahwa (yang sendiri saat ini belum terbukti) akan merusak domain
nama sistem atau mendukungnya.
Sedangkan sistem distribusi P2P mengeksploitasi skala besar untuk mencapai banyak
dari ujung kecil, komputasi grid [102] sering merupakan pendekatan didistribusikan ke
masalah skala besar menggunakan daya komputasi substansial untuk menganalisis besar
jumlah data. Masalahnya adalah mengkoordinasikan perilaku
sejumlah besar komputer, pemanfaatan sumber daya yang tidak terpakai oportunis
seperti P2P; lagi seperti P2P, dan tidak seperti tradisional didistribusikan komputasi, komputasi grid ini dimaksudkan untuk menjadi netral tentang administrasi
atau platform batas. Standar terbuka Oleh karena itu diperlukan, dan
Grid membutuhkan deskripsi abstrak sumber daya komputasi.
Dengan analogi ke Web Semantic, Grid telah melahirkan Semantic
Grid, di mana informasi dan sumber daya komputasi yang dijelaskan
dengan metadata (dan sebagai dengan RDF SW adalah bahasa pilihan),
memungkinkan eksploitasi spesifikasi mesin yang dapat dibaca untuk
otomatis koordinasi sumber daya untuk memecahkan masalah besar skala tertentu
[72]. Penerapan Grid dan Grid Semantic hingga besar
masalah skala menunjukkan janji besar - memang sebagai data dari CERN
Large Hadron Collider akan mulai beroperasi pada gigabyte / detik, Grid
sangat diperlukan.
Grid dan Grid Semantik meningkatkan sejumlah pertanyaan tua di
penyamaran baru. Mengingat bahwa sumber daya komputasi seseorang diberikan ke
luar, kepercayaan dan keamanan akan membutuhkan peninjauan kembali [23]. Sosial,
issue yang menarik adalah memahami apakah akan benar-benar Grid
perubahan ilmu pengetahuan, atau hanya memungkinkan pengolahan data yang lebih dan lebih
[207].
Secara umum, semua paradigma komputasi baru meningkatkan pertanyaan
tentang bagaimana banyak individu yang relatif otonom dapat bekerja sama untuk
menghasilkan hasil yang saling menguntungkan (baik hasil yang bermanfaat untuk masing-masing
individu, atau untuk masyarakat secara keseluruhan). Koordinasi masalah seperti
ini selalu tampak besar dalam banyak disiplin, dan kita seharusnya tidak
akan terkejut menemukan mereka di pusat Web Science.
3.3.3 Personalisasi
Hal ini sering mengklaim bahwa personalisasi itu penting untuk meningkatkan
nilai dari suatu jaringan [81], dan meningkatkan konsumen lock-in [281].
Mengizinkan pengguna untuk menyesuaikan alat-alat mereka dan berarti ruang kerja yang
Web tetap lebih dari commoditised satu ukuran cocok untuk semua daerah dan
malah menjadi sebuah ruang di mana orang dapat mengukir sendiri
niche. Selain itu, mereka juga harus dapat menerima layanan yang lebih baik,
disesuaikan dengan keadaan khusus mereka sendiri dan preferensi,
untuk sama atau hanya sedikit lebih biaya [90]. sistem industri tersebut adalah
jelas aplikasi teknologi [6].
Untuk mendapatkan personalisasi yang efektif, harus ada pemanfaatan yang terintegrasi dari
informasi dari sejumlah sumber, termasuk data tentang pengguna (clickstream
data, download pola, profil online), sumber daya yang
dikirim (konten situs, struktur situs) dan pengetahuan domain, bersama-sama
dengan data teknis pertambangan yang cukup untuk menciptakan pandangan holistik dari
sumber daya yang meliputi sebanyak mungkin informasi yang dibutuhkan pengguna,
dalam representasi yang akan masuk akal bagi mereka, sementara tidak termasuk informasi
mereka tidak akan mau, dan yang bisa memperhitungkan dinamika
sifat model pengguna. Semua itu, sambil tetap mempertahankan hubungan
antara invariants dari pengalaman Web dan konteks tertentu
penggunaan seseorang yang memberdayakan dia untuk klaim sudut
dari dunia maya dan mulai menggunakannya sebagai perpanjangan dari ruang pribadi.
Mengingat bahwa, di Web, informasi yang relevan mungkin sangat
didistribusikan dan dinamis, personalisasi diharapkan dapat menjadi salah satu
besar keuntungan dari Web Semantic, yang unggul struktur yang
memungkinkan penalaran atas sumber data dan didistribusikan.
Ada banyak program teknik berjalan menyelidiki
heuristik untuk personalisasi dari informasi yang tersedia, termasuk
menggunakan mesin belajar [120], ontologi [74, 165], jaringan P2P [126],
dan menghasilkan representasi untuk memfasilitasi pengumpulan informasi pengguna
[74, 157, 223], serta menyediakan lingkungan yang memfasilitasi
personalisasi [136, 53, 194] dan link asosiatif didasarkan pada user-bukan
dari penulis-preferensi [54]. Lain benang penting dari personalisasi
rekayasa adalah pengembangan alat untuk memungkinkan neophytes relatif
untuk menciptakan atau meningkatkan pengetahuan teknik artefak kompleks, seperti
ontologi [213, 211] atau pembungkus [250].
3.3.4 Multimedia
Web adalah lingkungan multimedia, yang membuat untuk kompleks
semantik - ini tentu saja tidak masalah yang unik ke Web. Metareasoning
dan epistemologi sering menganggap media tekstual, bahkan
meskipun sebenarnya banyak penalaran dalam bentuk analog. Misalnya
ahli sering menggunakan diagram untuk mengekspresikan pengetahuan mereka [174, 263]. Ada
memiliki upaya telah menghasilkan taksonomi generatif 'bahasa-seperti'
representasi visual [190], tetapi ini tidak tampaknya telah menarik aplikasi. Beberapa peneliti telah mencoba untuk menemukan
prinsip-prinsip yang mungkin mendasari penalaran diagramatik [60]. Ada
juga telah aplikasi penting untuk decoding representasi visual
untuk [147] gangguan penglihatan dan koleksi gambar visualisasi
terhadap ontologi domain [8]. Pada akhirnya, integrasi multimodal
representasi adegan yang sama atau badan adalah masalah yang sangat keras
[224]. Secara umum, tidak diketahui bagaimana mengambil semantik dari
representasi non-tekstual andal; fenomena ini dikenal sebagai
semantik kesenjangan.
Namun demikian, generasi Web berikutnya tidak harus didasarkan pada
palsu asumsi bahwa teks adalah pencarian dominan dan kata kunci berbasis
akan mencukupi untuk semua tujuan yang wajar [127]. Memang, isu-isu
berkaitan dengan navigasi melalui repositori multimedia seperti video
arsip dan melalui theWeb tidak berhubungan: keduanya kebutuhan informasi
link untuk mendukung browsing, dan keduanya perlu untuk mendukung mesin manual
link traversal. Namun, pendekatan kata kunci mungkin goyah dalam multimedia
konteks karena kekayaan yang lebih besar dari banyak non-tekstual
Media [264]. Pendekatan gambar Google pencarian bergantung pada sekitarnya
teks untuk gambar, misalnya, yang memungkinkan pencarian yang relatif cepat,
dan sekali lagi pada umumnya pengguna seringkali mampu membuat pilihan final
memilah-milah rekomendasi yang disampaikan (gambar kata kunci berbasis
pencarian cenderung menghasilkan banyak hits lebih sedikit, yang mungkin berarti mereka
banyak kemungkinan hilang masuk akal). Kehadiran manusia dalam
loop sulit untuk menghindari saat ini: intervensi manusia dalam proses
mengintegrasikan bahasa visi dengan modalitas lain yang biasanya diperlukan
[224], meskipun ada sejumlah teknik yang menarik untuk menggunakan
struktur yang dihasilkan dari teks yang terkait dengan koleksi gambar untuk
bantuan pencarian dalam konteks terbatas [7].
Tetapi selalu mungkin untuk mengeluarkan lebih banyak sumber daya pada analisis suatu
gambar (katakanlah) untuk menghasilkan pertandingan yang lebih baik untuk pencarian kata kunci,
jika kecepatan tidak merupakan faktor utama [293]. Dalam analisis fitur tersebut, sebuah
isu yang penting adalah kepentingan relatif dari fitur tingkat rendah seperti
'Dominan warna', dan tingkat tinggi, fitur abstrak atau konsep, seperti
sebagai 'Madonna' atau 'masih hidup'. Cari pada fitur-fitur tingkat rendah mungkin cepat
dan lebih akurat, namun pengguna cenderung ingin pencarian cukup abstrak
istilah [121]. Sebagai hybrid menarik telah disarankan bahwa kesenjangan semantik
bisa diisi dengan ontologi dari visual yang mencakup istilah tingkat rendah
dan memberikan semacam pemetaan konsep-konsep abstrak ke tingkat yang lebih tinggi
disajikan dalam query dan metadata [229]. Infrastruktur tersebut telah
telah dibuat, dengan menggunakan (i) ontologi descriptor visual berdasarkan RDF
representasi dari MPEG-7 deskripsi visual, (ii) struktur multimedia
ontologi berdasarkan skema deskripsi-7 multimedia MPEG
dan (iii) pemodelan ontologi inti primitif pada akar konsep
hierarki yang dimaksudkan untuk bertindak sebagai jembatan antara ontologi,
semua ditambah dengan ontologi domain [260]. A penting yang lebih jauh
terbuka adalah isu interoperabilitas teknologi Semantic Web dengan
non-RDF berbasis metadata seperti metadata EXIF di file JPEG atau
tag gambar informal dibuat di Flickr [279]. Pekerjaan lebih lanjut diperlukan
pada hubungan antara kebutuhan manusia dan sistem temu kembali citra
kemungkinan otomatisasi [156, 206], termasuk pemahaman yang lebih dalam
dari kemampuan relatif folksonomi dan ontologi (lihat
Bagian 3.1.4-3.1.5).
Tentu saja, media di sini tergambar adalah foto dan video; terbuka
pertanyaan penelitian tetap tidak hanya tentang seberapa jauh orang bisa masuk
pencarian dengan pendekatan semacam, tetapi juga tentang berapa banyak media akan menyerah
sedemikian pendekatan dengan cara yang terintegrasikan.
3.3.5 pemrosesan bahasa Alam
Akhirnya, ada masalah substansial yang berkaitan dengan pengolahan bahasa alami
(NLP), analisis komputasi data tidak terstruktur dalam teks-teks
untuk menghasilkan pemahaman mesin (pada tingkat tertentu) dari teks yang.
NLP berhubungan dengan Web dalam beberapa cara. Di tempat pertama, alam
bahasa adalah domain yang sangat jarang, dalam kalimat yang paling diucapkan
atau tertulis hanya terjadi sekali atau sangat jarang, dan skala raksasa
Web menyediakan sebuah korpus menarik untuk penalaran NLP. Sebuah angka perkiraan baru-baru ini
untuk ukuran dari Web adalah dua ribu miliar kata, yang
71% adalah bahasa Inggris, Jepang 6,8% dan 5,1% Jerman. Banyak yang relatif
bahasa umum seperti Slovenia atau Melayu yang memegahkan diri kata 100m
online, ukuran yang sama dengan Nasional Inggris digunakan secara luas dan dihormati
Corpus. Ada argumen tentang bagaimana wakil Web adalah sebagai korpus, tapi gagasan tentang apa yang harus mewakili corpus - harus
itu termasuk pidato, menulis, bahasa latar belakang seperti bergumam atau
berbicara dalam tidur seseorang, atau kesalahan misalnya? - Sulit untuk dijabarkan dengan
presisi setiap [167].
Kedua, mengingat masalah skala Web, teknik NLP akan
menjadi penting dalam tugas-tugas seperti summarisation (lihat, misalnya,
Dokumen Memahami tahunan Konferensi - http://duc.nist.gov/
dan [69]), yang dapat memberikan dukungan yang berguna untuk bagian-bagian manusia
tugas pencarian.
Ketiga, NLP memiliki potensi besar untuk pembangunan jenis-jenis
antarmuka intuitif bahwa heterogen dan belum tentu computerliterateWeb
komunitas pengguna membutuhkan. Memang mungkin membantu menjembatani kesenjangan
antara visi SW aWeb terdiri dari data dimanipulasi secara logis,
dan visi yang lebih tradisional dari Web sebagai tempat yang berguna
dokumen diambil. Sebagai contoh, dapat digunakan teknik NLP
untuk menemukan dan mengekspresikan metadata [153]? Teks yang mengandung tidak terstruktur
data sekarang dapat dipetakan ke sumber daya yang ada seperti ontologi untuk
menyediakan markup dan penjelasan, setelah sesi pelatihan awal.
ontologi Computing seperti yang kita jumpai berbeda
dalam tujuan dan struktur dari thesaurus dan taksonomi dari
NLP dunia, meskipun ada perdebatan tentang tingkat dan sifat
dari perbedaan [125, 289]. WordNet, misalnya, bukanlah suatu ontologi
ketat, misalnya yang mengandung unsur leksikal dengan pengertian yang berbeda
di mana suatu ontologi mencoba untuk memastikan interpretasi yang unik untuk istilah
yang digunakannya. Tapi sama WordNet memang mengandung hubungan ontologis seperti diatur
inklusi dan keanggotaan di dalamnya. sumber daya NLP juga memiliki sesuatu
yang sama dengan folksonomi dan sejenisnya, serta pentingnya
perbedaan.
Dari sudut pandang Web Sains, pertanyaan terbuka yang penting
ada untuk hubungan antara NLP dan Web, adalah statistik
teknik yang digunakan dalam NLP atau sebaliknya melengkapi logis
dan semantis berdasarkan teknik interogasi data yang digunakan oleh
SW masyarakat? Atau alternatif ada divisi optimal analitis
tenaga kerja antara dua jenis pendekatan yang kita dapat memanfaatkan?
Banyak tergantung pada bagaimana kita menafsirkan pengembangan Web. Untuk
Misalnya, jika seseorang melihat tugas utama sebagai untuk membubuhi keterangan dan memberikan kaya konteks untuk konten dan struktur ('menjinakkan Web', seperti yang dijelaskan
di [196]), maka NLP akan memainkan peran penting dalam hal itu, termasuk pemetaan
drift dalam arti dari waktu ke waktu [290]. Jika kita memahami Semantic Web
sebagai berfokus pada data dan model database relasional, maka logis
syarat dan URI gigih menjadi pusat.
NLP bekerja dengan baik statistik, SW, sebaliknya, membutuhkan logika
dan belum menggunakan substansial statistik. Bahasa alami
demokratis, seperti yang diungkapkan dalam slogan 'artinya adalah menggunakan' (lihat Bagian 5.1
untuk diskusi lebih dari ini). Setara dalam SW kata-kata
bahasa alami adalah istilah-istilah logis, yang URI yang menonjol. Demikian
kita memiliki disanalogy langsung antara NLP dan SW, yang
yang URI, tidak seperti kata-kata, mempunyai pemilik, dan sehingga dapat diatur. Yang
bukan untuk mengatakan bahwa peraturan tersebut akan menjamin kekebalan dari makna
drift bahwa linguis mendeteksi, tetapi juga dapat memberikan stabilitas yang cukup selama
jangka pendek medium.

Kamis, 02 Juni 2011

The Web and its Science (Web dan Ilmunya )

Kita mungkin parafrase Web Sains sebagai ilmu dari Web. Sementara ini
kesetaraan mungkin jelas kita akan mulai dengan memecah frase
dan membuat sketsa komponen yang memungkinkan Web berfungsi sebagai
informasi yang efektif sistem yang terdesentralisasi. Kami akan meninjau dasar
prinsip-prinsip arsitektur dari Web, yang dirancang untuk mendukung pertumbuhan dan
nilai sosial perilaku berbagi informasi dan dapat dipercaya dalam
Bagian 2.1. Bagian 2.2 akan menawarkan beberapa refleksi metodologis
pada penyelidikan ilmiah dari Web.

Web 2.1 arsitektur
Arsitektur dari Web eksploitasi teknologi sederhana yang menghubungkan
efisien, untuk mengaktifkan ruang informasi yang sangat fleksibel dan bermanfaat, dan yang paling penting, skala. Web adalah sudah menjadi mengesankan platform tempat ribuan bunga telah mekar,
dan harapan itu dapat tumbuh lebih lanjut, meliputi bahasa lebih lanjut,
lebih media dan kegiatan lebih, hosting informasi lebih lanjut, serta
menyediakan alat dan metode untuk menginterogasi data yang keluar sana. Dalam bagian pembukaan kita akan meninjau secara singkat prinsip utama mendasari arsitektur Web; bagian ini adalah berhutang budi kepada [155], dan untuk detail lebih lanjut, lihat dokumen itu.
Web adalah ruang di mana sumber daya yang diidentifikasi oleh Seragam
Resource Identifier (URI - [33]). Ada protokol untuk mendukung interaksi antara agen, dan format untuk mewakili informasi
sumber daya. Ini adalah bahan dasar dari Web. Pada desain mereka tergantung utilitas dan efisiensi interaksi Web, dan desain yang
tergantung pada gilirannya pada sejumlah prinsip, beberapa di antaranya merupakan bagian dari
konsepsi asli, sementara yang lain harus belajar dari pengalaman.
Identifikasi sumber daya penting untuk dapat berbagi informasi tentang mereka, alasan tentang mereka, memodifikasi atau pertukaran mereka.
sumber daya tersebut dapat berupa apa saja yang dapat dihubungkan atau dibicarakan;
banyak sumber daya adalah murni informasi, tetapi yang lain tidak. Selanjutnya,
tidak semua sumber daya yang di Web, di bahwa mereka mungkin dapat diidentifikasi dari Web, tetapi tidak mungkin dapat diambil dari itu. Sumber daya yang pada dasarnya informasi, dan yang karenanya dapat diberikan tanpa abstraksi dan dicirikan sepenuhnya dalam pesan disebut informasi sumber daya.
Untuk penalaran dan fungsi mengacu terjadi pada global skala, sistem identifikasi diperlukan untuk menyediakan satu global standar; URI menyediakan sistem itu. Akan mungkin bagi alternatif
sistem untuk URI untuk dikembangkan, tetapi nilai tambah satu global sistem pengidentifikasi, memungkinkan menghubungkan, bookmark dan lainnya fungsi berbagai aplikasi heterogen, tinggi. Sumber Daya URI terkait dengan mereka, dan setiap URI idealnya mengidentifikasi satu
sumber daya secara konteks-independen. URI bertindak sebagai nama (dan
alamat - lihat Bagian 3.1.2 di bawah ini untuk pembahasan masalah ini), dan sebagainya
apakah mungkin untuk menebak sifat sumber daya dari perusahaan URI, yang merupakan
Hal kontingen, dalam URI umumnya lihat opaquely. Prinsip-prinsip hubungan antara URI dan sumber daya yang diinginkan tetapi tidak tegas dilaksanakan, biaya gagal mengaitkan URI dengan sumber daya adalah ketidakmampuan untuk merujuk ke sana, sedangkan biaya penempatan dua sumber
ke URI akan error, sebagai data tentang salah satu sumber daya akan diterapkan ke lainnya.
URI juga menghubungkan Web dengan dunia sosial offline, di mereka mewajibkan lembaga. Mereka berada di bawah skema didefinisikan tertentu,yang mungkin yang paling umum dipahami adalah HTTP, FTP dan mailto, skema tersebut terdaftar dengan internet Ditugaskan
Nomor Authority (IANA - http://www.iana.org/assignments/urischemes).
Skema ini harus dioperasikan pada jalur berprinsip pada Agar efektif. Jadi jika kita ambil HTTP sebagai contoh, HTTP URI dimiliki dan menyalurkan oleh orang atau organisasi, dan maka dapat dialokasikan secara bertanggung jawab atau tidak bertanggung jawab. Sebagai contoh, sebuah URI HTTP harus mengacu ke sumber tunggal, dan dialokasikan untuk pemilik tunggal. Hal ini juga diinginkan
untuk suatu URI untuk merujuk kepada sumber daya yang permanen, dan tidak mengubah
referensi dari waktu ke waktu (lihat Bagian 5.4.6 di bawah). Komunikasi melalui
Web melibatkan pertukaran pesan yang dapat berisi data atau
metadata tentang sumber daya. Salah satu tujuan umum dari komunikasi adalah
mengakses sumber daya melalui URI, atau untuk dereference URI. Jika sumber daya
telah diberi sebuah identifier, sumber daya harus dalam beberapa cara yang dapat diperoleh kembali
dari pengenal agar bisa nilai. Dereferencing biasanya
melibatkan menemukan indeks yang tepat untuk mencari pengenal. Ada
sering petunjuk dalam pengenal, atau penggunaan bantuan identifier, yang
di sini, terutama jika pihak berwenang penamaan memiliki semacam hirarki
struktur. Sebagai contoh, alamat pos memiliki struktur hirarkis yang
memungkinkan sebuah bangunan tertentu yang akan berada. Satu akan berkonsultasi dengan
indeks AZ London untuk menemukan jalan tertentu yang namanya satu
tahu dan yang satu tahu terletak di London, tapi ada lagi
tentang hal itu. Demikian pula, Domain Name System (DNS) eksploit hirarkis
struktur untuk membantu dengan dereferencing, sehingga untuk menghubungi server
"Foo.cs.bar.edu" melibatkan pengiriman pesan dari beberapa macam beberapa server
dikendalikan oleh Bar University di Amerika Serikat. Semakin banyak informasi
yang tersedia dalam nama atau identifier dari sumber daya, semakin mudah
itu adalah untuk dereference, walaupun tentu saja dalam hal sumber daya yang membatasi
nama perlu mengandung ada informasi sama sekali untuk membantu dereferencing itu
(Kadang-kadang ini adalah titik nama). Selanjutnya, identifikasi
sistem sering harus dipertahankan oleh otoritas untuk dereferencing
menjadi mungkin - jika AZ London tidak diperbarui setiap begitu sering, itu
akan menjadi mustahil untuk menggunakannya (edisi terbaru) untuk menemukan tertentu
rumah, dengan cara yang sama bahwa perubahan di server Universitas Bar program pemeliharaan dapat berarti bahwa beberapa sumber daya yang diselenggarakan pada nya
server yang unlocatable. Apa mengakses sumber informasi memerlukan bervariasi dari konteks
konteks, tapi mungkin pengalaman yang paling umum adalah menerima
representasi dari (keadaan) sumber daya pada browser. Tentu
tidak perlu kasus yang dereferencing URI otomatis mengarah ke
agen mendapatkan akses istimewa ke sumber daya. Ini mungkin bahwa tidak ada
representasi dari sumber daya tersedia, atau bahwa akses ke sumber daya
aman (misalnya kata sandi terkontrol), tetapi mungkin untuk merujuk
ke sumber daya menggunakan perusahaan URI tanpa memaparkan sumber daya yang untuk umum
tampilan. Pengembangan Web sebagai spasi, bukan yang besar
dan papan pengumuman kompleks, mengikuti dari kemampuan agen untuk menggunakan
interaksi untuk mengubah negara dari sumber daya, dan menanggung kewajiban dan
tanggung jawab. Mengambil representasi adalah contoh dari apa yang disebut
interaksi yang aman di mana perubahan tidak terjadi, sementara posting daftar adalah
interaksi yang tidak aman di mana negara-negara sumber daya 'dapat diubah. Perhatikan bahwa
sifat universal URI membantu identifikasi dan pelacakan
kewajiban yang timbul secara online melalui interaksi yang tidak aman.
Tidak semua URI dimaksudkan untuk memberikan akses ke representasi
dari sumber daya yang mereka mengidentifikasi. Misalnya, mailto ini:
skema mengidentifikasi sumber daya yang dicapai dengan menggunakan Internet mail (misalnya
mailto: romeo@example.edu mengidentifikasi kotak surat tertentu), tetapi mereka
sumber daya yang tidak dapat dipulihkan dari URI dalam cara yang sama seperti halaman web
adalah. Sebaliknya, URI digunakan untuk surat langsung ke kotak surat tertentu,
atau alternatif untuk menemukan mail dari itu.
Web mendukung berbagai format file, yang paling
terkenal adalah HTML. Beberapa format yang diperlukan, dan format perlu
fleksibel, karena sifat heterogen dari interaksi selama
Web. Konten dapat diakses melalui segala macam perangkat, paling sering PC atau perangkat mobile, dan nilai lebih dapat diekstraksi dari
Web jika penyajian konten adalah perangkat-independen sejauh mungkin
(Idealnya kompatibel dengan perangkat yang belum bermimpi). Memisahkan representasi dari isi dari keprihatinan presentasi dan interaksi adalah praktik yang baik di sini; bawah seperti konten, rezim, presentasi dan perlu interaksi menjadi direkombinasi dengan cara yang maksimal

berguna, yang umumnya dilakukan sebagian oleh server dan sebagian oleh klien, rasio yang tepat antara kedua tergantung pada konteks interaksi. Kekuatan Web berasal dari mengaitkannya memungkinkan.
sumber daya dapat berisi referensi ke sumber lain dalam bentuk
tertanam URI yang dapat digunakan untuk mengakses sumber daya kedua. Ini
Link memungkinkan navigasi asosiatif theWeb. Untuk memudahkan menghubungkan, format
harus mencakup cara untuk membuat dan mengidentifikasi link ke sumber daya lainnya,
harus memungkinkan link ke setiap sumber daya di mana saja melalui Web, dan harus
tidak membatasi penulis konten untuk menggunakan skema tertentu URI.
Sebuah tujuan penting dari Web Ilmu adalah untuk mengidentifikasi aspek-aspek penting
identifikasi, interaksi dan representasi yang membuat Web
kerja, dan untuk memungkinkan pelaksanaan sistem yang dapat mendukung
atau mempromosikan perilaku yang diinginkan. Pengalaman menghubungkan dokumen
dan, semakin, data rilis kekuatan besar, baik untuk penulis dan pengguna.
Kemungkinan kembali kebetulan konten memberdayakan penulis oleh
meningkatkan pengaruh mereka, dan pengguna dengan menyediakan akses lebih
informasi dari yang dimungkinkan dengan menggunakan teknologi lainnya.
Secara khusus, tiga fungsi identifikasi, interaksi dan
representasi harus dipisahkan. Mengubah atau menambahkan skema
untuk identifikasi, misalnya, seharusnya tidak berpengaruh pada skema untuk interaksi
atau representasi, memungkinkan independen, evolusi modular Web
arsitektur sebagai teknologi baru dan aplikasi baru mulai beroperasi
(Yang tidak berarti bahwa spesifikasi ortogonal tidak mungkin co-berevolusi
siklis dengan satu sama lain). Demikian pula, teknologi harus diperluas,
yaitu mereka harus mampu berkembang secara terpisah tanpa mengancam
mereka interoperabilitas dengan teknologi lainnya.
Akhirnya, prinsip penting arsitektur Web yang error
harus ditangani secara sederhana dan fleksibel. Kesalahan sangat penting - dalam sebuah informasi
ruang yang ukurannya dapat diukur dalam ribuan terabyte,
dan jumlah pengguna dalam ratusan juta, heterogenitas
tujuan dan kualitas beragam kepengarangan berarti bahwa akan ada
banyak sekali kesalahan desain. Keberadaan link menjuntai (link menggunakan URI
tanpa sumber daya di akhir itu), konten yang tidak baik-formed atau lainnya
kesalahan ditebak seharusnya tidak menyebabkan sistem crash, tuntutan

interoperabilitas mensyaratkan bahwa agen harus dapat pulih dari
kesalahan, tanpa, tentu saja, kompromi kesadaran pengguna bahwa kesalahan
telah terjadi.
Sebagai Web tumbuh dan berkembang untuk memenuhi situasi baru dan tujuan,
arsitektur harus berkembang. Tapi evolusi perlu
bertahap dan hati-hati (yang lambat dan selalu telaten negosiasi
standar komite adalah cara yang baik untuk menggabungkan gradualisme dengan kebugaran
untuk tujuan), dan prinsip menjaga perkembangan ortogonal
terpisah berarti bahwa evolusi di satu daerah tidak boleh mempengaruhi evolusi
tempat lain. evolusi perlu menghormati invariants penting
Web, seperti ruang URI, dan penting bahwa pengembang
setiap saat bekerja untuk melestarikan aspek-aspek Web yang perlu
diawetkan. Ini merupakan bagian dari misi dari W3C Teknis Arsitektur
Kelompok [154], meskipun standar dapat hanya pernah menjadi bagian dari
cerita. prinsip-prinsip arsitektur Web akan selalu diperdebatkan di luar
W3C, cukup baik, serta di dalamnya.

Web 2.2 sains: Metodologi
Jika penyelidikan dari Web yang akan dihitung sebagai benar ilmiah,
maka pertanyaan segera adalah bagaimana metode ilmiah harus berlaku
ini domain tertentu. Bagaimana seharusnya peneliti dan insinyur
Web pendekatan untuk memahami dan hubungannya dengan lebih luas
masyarakat, dan untuk berinovasi?
Berbagai aspek dari Web relatif baik dipahami, dan sebagai
sebuah contoh rekayasa blok bangunan yang dibuat, bukan fenomena alam.
Namun demikian, sebagai Web telah berkembang dalam kompleksitas dan
jumlah dan jenis interaksi yang terjadi telah membengkak, itu
tetap kasus yang kita tahu lebih banyak tentang beberapa fenomena alam yang kompleks
(Contoh jelas adalah genom manusia) daripada kita lakukan
yang satu ini rekayasa tertentu.
Namun itu benar-benar berkembang, ada Web Ilmu layak nama
perlu memenuhi beberapa kondisi yang jelas. Ada perlu
menjadi falsifiabilty hipotesis dan pengulangan penyelidikan. Ada
akan perlu prinsip-prinsip independen dan standar untuk menilai
ketika hipotesis telah dibentuk. Ada masalah nyata untuk

bagaimana prinsip-prinsip dan standar harus tiba di. Dan tentu saja
harus ada metode untuk bergerak dari penilaian dari Web dan
yang evolusi untuk pengembangan dan pelaksanaan inovasi.
Untuk mengambil satu contoh, ada sejumlah teknologi dan metode
untuk pemetaan Web dan menandai keluar topologi nya (lihat Bagian 4.1
bawah). Apa peta seperti kepada kita (lih. misalnya [80])? The visualisasi
seringkali sangat mengesankan, dengan interpretasi tiga-dimensi dan
warna-kode link antara node. Tapi bagaimana diverifikasi adalah peta seperti itu? Dalam
indra apa yang mereka katakan kami 'bagaimana Web adalah'? Apa keterbatasan?
Aplikasi jelas, dalam hal metodologis, peta dan
grafik struktur Web adalah untuk langsung sampling, dengan menentukan
properti yang model dan sampel dari Web seharusnya. Yang cepat
pertumbuhan Web membuat survei yang lengkap dari tahun-tahun pertanyaan
lalu, dan ilmuwan kebutuhan informasi statistik yang cepat dan tepat waktu tentang
isi sastra Web tersedia. Perwakilan sampling adalah kunci
untuk metode tersebut, tapi bagaimana seharusnya sebuah sampel dikumpulkan dalam rangka
secara tepat disebut wakil [188]? Untuk menjadi benar bermanfaat, contoh
harus acak; 'keacakan' biasanya ditetapkan untuk tertentu
domain, dan pada umumnya berarti bahwa semua individu dalam domain memiliki
kemungkinan yang sama yang dipilih sebagai sampel. Tapi untuk Web
yang memerlukan, misalnya, memahami apa yang individu, karena
Misalnya, apakah kita peduli dengan website atau halaman Web? Jika mantan,
maka orang bisa membayangkan kesulitan karena tidak ada pencacahan lengkap
mereka. Dan metode sampling berdasarkan, mengatakan, alamat IP yang rumit
oleh penduduk tentu jarang dari ruang alamat [219].
Selanjutnya, begitu murah adalah operasi di Web bahwa sejumlah kecil
operator bisa miring namun hati-hati hasil sampel adalah
dipilih. Sebuah survei melaporkan secara lebih rinci di bawah ini [99] ternyata ditemukan
bahwa 27% dari halaman dalam domain de. diubah setiap minggu, sebagai
dibandingkan dengan 3% untuk Web secara keseluruhan. Penjelasan ternyata
tidak menjadi kerajinan khas Jerman, melainkan di atas
juta URL, sebagian tetapi tidak semua pada server Jerman, yang memutuskan untuk suatu
satu alamat IP, yang secara otomatis dihasilkan dan terus berubah
situs pornografi.
Web memiliki banyak sifat yang tidak biasa yang membuat sampling rumit;
bagaimana bisa rasa hormat metode sampling apa yang tampaknya papan nama prima signifikan

sifat seperti, misalnya, persentase halaman diperbarui setiap hari,
mingguan, dll? Bagaimana kita bisa faktor dalam isu-isu seperti kemerdekaan
mendasari sumber data? Apakah kita memiliki banyak pemahaman dari distribusi
bahasa di seluruh Web (dan istilah dalam bahasa -. cf [167]),
dan bagaimana meningkatkan kepandaian dalam memberikan mempengaruhi hal-hal [138]?
Dan bahkan jika kita senang dengan metodologi sampling kami, di tengah-tengah bagaimana
semua suara bisa kita menemukan struktur menarik efisien [191]?
Selanjutnya, meskipun untuk banyak tujuan Web dapat diobati
sebagai ruang informasi statis, tentunya dinamis dan berkembang.
Jadi segala upaya untuk memahami longitudinal Web akan membutuhkan
untuk mengambil evolusi itu ke dalam account [218], dan model idealnya
memiliki pertumbuhan sistem (dalam hal penambahan konstan baru
titik dan sisi ke grafik), bersama-sama dengan struktur link yang
tidak invarian dari waktu ke waktu, dan hubungan domain hirarkis yang
selalu rentan terhadap revisi, dibangun ke dalam mereka (lih. misalnya [253]).
Analytic pemodelan dikombinasikan dengan data empiris yang dikumpulkan dengan hati-hati
dapat digunakan untuk menentukan probabilitas halaman Web yang sedang diedit
(Mengubah konten informasi mereka) atau tidak dihapus. Satu percobaan
pengawasan ratusan ribu halaman selama beberapa bulan
menghasilkan hasil yang menarik: setiap putaran satu waktu sekitar 20% dari halaman web
di bawah 11 hari tua, sedangkan 50% muncul di sebelumnya
tiga bulan. Di sisi lain, 25% lebih dari berumur tahun - usia yang
didefinisikan di sini sebagai perbedaan antara waktu modifikasi terakhir
ke halaman dan waktu download [43]. Percobaan lain
terlibat merayapi 150m halaman HTML sekali seminggu selama 11 minggu,
dan menemukan, misalnya, kuat hubungan antara tingkat-top
domain dan frekuensi perubahan (. halaman com diubah lebih sering
dari pemerintah atau.. halaman edu), dan bahwa dokumen besar (mungkin
counterintuitively) diubah lebih sering dari yang kecil.
Frekuensi perubahan terakhir adalah prediktor yang baik di masa depan
perubahan, hasil potensial penting bagi perayap Web incremental
[99]. Perkembangan metode sampling feed Web yang sangat
cepat ke dalam pengembangan pencarian lebih efisien dan akurat.
Metode untuk menemukan informasi secara online, baik logis atau heuristik,
apakah data-berpusat atau pada model sistem temu kembali informasi, memerlukan
akurat pemetaan.

Jadi salah satu aspek dari Web Ilmu adalah investigasi Web dalam
untuk tempat ancaman, peluang dan invariants untuk pengembangannya.
Lain adalah rekayasa yang baru, mungkin metode tak terduga
berurusan dengan informasi, yang menciptakan ekstensi non-konservatif
Web. teknik tersebut dapat berbasis penelitian, atau industri berbasis.
Sintesis sistem baru, bahasa, algoritma dan alat-alat adalah kunci
untuk pengembangan koheren dari Web, seperti, misalnya, dengan
studi tentang sistem kognitif, dimana banyak kemajuan beberapa tahun terakhir
tahun telah datang dengan teknik eksplorasi serta analisis dan
deskripsi (lih. misalnya [51]). Jadi, misalnya, satu-satunya cara untuk menemukan
dampak dari file sharing radikal desentralisasi adalah untuk mengembangkan peer to peer
sistem dan operasi mereka amati pada skala semakin besar. Seperti
upaya rekayasa perintis sangat penting untuk pengembangan Web, melainkan
adalah setelah semua konstruksi. Hal ini penting untuk Web secara keseluruhan yang
implementasi sistem berinteraksi dan tidak mengganggu, yang mana
badan standar memainkan peranan penting.
Oleh karena itu Web Sains adalah kombinasi dari sintesis, analisis dan pemerintahan.
Dalam sisa teks ini, kami akan mengambil tiga aspek pada gilirannya,
dimulai dengan sintesis, maka analisis, dan kemudian isu-isu sosial yang
berdampak pada pengembangan Web, sebelum berakhir dengan diskusi
masalah pemerintahan.