Pelacakan pengembangan Web, yang menentukan inovasi
baik (misalnya P2P) dan yang buruk (phishing misalnya), dan memberikan kontribusi bagi
perkembangan menguntungkan adalah kunci bertujuan Ilmu ofWeb. Pada bagian ini, kita
akan meninjau beberapa petunjuk saat pembangun Web. Kami
akan melihat Web Semantic dan beberapa isu dan kontroversi
sekitarnya yang (Bagian 3.1), masalah berkaitan dengan referensi dan identitas
(Yang penting untuk Web Semantic untuk memastikan, tetapi juga untuk setiap
jenis analisis informasi berbuah - Bagian 3.2), dan kemudian pilihan
inisiatif lebih lanjut, termasuk layanan Web, P2P, komputasi grid dan
sebagainya (Bab 3.3).
3.1 Web semantik
Web adalah arsitektur berprinsip standar, bahasa dan
formalisms yang menyediakan platform untuk aplikasi heterogen banyak.
Hasilnya bisa mudah menjadi kusut, dan keputusan yang dibuat tentang
standar yang mengatur satu formalisme dapat memiliki konsekuensi di luar,
yang dapat timbal tentu saja untuk keputusan desain yang kompleks (cf. [146]). Memang,
beberapa tuntutan di Web membuat godaan untuk model yang
semantik dengan formalisms sangat ekspresif, namun expressivity seperti
perdagangan umum off melawan kegunaan dan satu set kecil baik dipahami
prinsip-prinsip.
Namun, sering terjadi bahwa trade-off antara expressivity
dan kegunaan adalah akibat dari penyalahgunaan umum dari formalisms tersebut. Untuk
contoh - kita akan membahas contoh ini secara lebih rinci di bawah ini - menggunakan
dari mesin, diimplementasikan dan diusulkan, dari Web Semantic
[35, 17] untuk memperpanjang Web merupakan tujuan umum. Tapi desain
SW dan terkait formalisms dan alat-alat dimaksudkan untuk memperpanjang
Web untuk menutupi data terkait, tidak, seperti yang sering diasumsikan, untuk meningkatkan pencarian
atau mendapatkan kekuatan yang lebih besar dari teks beranotasi (yang lain, terpisah,
jenis ekstensi dari Web).
Ini mungkin, sebagai klaim banyak dan berharap, bahwa lokal model dan muncul
semantik merupakan bagian penting dari cara kita memahami
Web. Jika demikian, akan ada serius trade-off dengan interoperabilitas:
manfaat dari pencarian didistribusikan terstruktur dan berbagi data
besar namun memerlukan semantik interoperable. Meninggalkan semantik underdetermined
berarti memaksa pengguna (manusia) untuk melakukan pembuatan rasa, seperti untuk
Misalnya dengan sistem P2P saat ini yang, jika mereka memaksakan semantik di
semua, cenderung hanya menggunakan sangat sederhana, tingkat rendah, struktur tugas-relatif. Dalam
tertentu, asumsi bahwa aparat dari Web Semantic adalah
dirancang untuk memperpanjang teknologi yang tersedia untuk melihat dokumen
dapat menyebabkan khawatir tentang trade-off antara "mudah" semantik muncul
dan "sulit" logika yang salah, kita harus berhati-hati untuk tidak
bingung dua area aplikasi terpisah.
3.1.1 Web Semantic
Web memulai hidup sebagai upaya untuk membuat orang untuk mengubah mereka
perilaku dalam cara penting. Banyak orang membuat dokumen, namun
Web pra-asumsi bahwa dokumen adalah milik pribadi
dari penciptanya, dan keputusan untuk mempublikasikan miliknya nya atau sendirian.
Selain itu, teknologi untuk memungkinkan orang untuk menerbitkan dan menyebarkan
dokumen murah dan mudah sangat kurang. Tujuan Web adalah
untuk mengubah perilaku yang radikal dan menyediakan teknologi untuk melakukannya:
orang akan membuat dokumen mereka tersedia untuk orang lain dengan menambahkan link
untuk membuat mereka dapat diakses dengan mengikuti link. Pesatnya pertumbuhan theWeb,
dan cara di mana perubahan ini cepat diadopsi di semua sektor
masyarakat Barat mungkin mengaburkan radikalisme dari langkah ini.
Web Semantik (SW) merupakan upaya untuk memperluas potensi
Web dengan ekstensi analog perilaku orang. SW
mencoba untuk membuat orang untuk membuat data tersedia untuk orang lain, dan menambahkan
link untuk membuat mereka dapat diakses dengan mengikuti link. Jadi visi
SW adalah sebagai perluasan dari prinsip-prinsip Web dari dokumen untuk data. Ini
ekstensi, jika hal itu terjadi dan diterima, akan memenuhi lebih dari Web
potensial, dalam hal ini akan memungkinkan data yang akan dibagi secara efektif dengan yang lebih luas
masyarakat, dan untuk diproses secara otomatis oleh alat serta
manual [34]. Hal ini tentu saja menciptakan suatu persyaratan besar: seperti alat-alat harus
dapat memproses data dalam format bersama heterogen, berkumpul
menggunakan prinsip yang berbeda untuk berbagai tugas utama. The Web
kekuasaan akan yang jauh lebih besar jika data dapat didefinisikan dan terkait sehingga
bahwa mesin bisa melampaui tampilan, dan bukannya mengintegrasikan dan alasan
tentang data berbagai aplikasi (dan di seluruh organisasi atau masyarakat
batas). Saat ini, Web yang sangat tidak baik pada teks, musik dan
gambar, dan boleh juga di video dan jasa, namun data tidak dapat dengan mudah
digunakan pada skala Web [135]. Tujuan dari SW adalah untuk memfasilitasi menggunakan
data serta penemuan mereka, melampaui Google dalam hal ini.
Dalam konteks ini adalah layak disebut perbedaan antara
pengambilan informasi dan pengambilan data (alias questionanswering otomatis).
Tujuan yang pertama adalah untuk menghasilkan dokumen yang
relevan dengan query; dokumen ini tidak perlu menjadi unik, dan dua
episode berhasil pencarian informasi tetap dapat menghasilkan
hasil yang sama sekali berbeda. Tujuan yang terakhir adalah untuk menghasilkan
benar jawaban query. Ada perbedaan besar antara
dua jenis pencarian, dan kepatuhan ketat terhadap prinsip-prinsip formal
bahwa proyek terakhir membutuhkan mungkin menjadi penentu utama dari apa yang
struktur seseorang harus pilih ketika salah satu adalah menemukan skema untuk memberikan
signifikansi istilah dalam kueri seseorang. Data dalam arti yang sangat nyata
lebih fundamental dari sebuah dokumen, maka potensi kenaikan
Web kekuasaan. Ada juga banyak data di luar sana.
Masalah terbuka kedua adalah apa fungsi dapat dicapai
dengan membawa keluar hubungan antara berbagai sumber data.
Secara tradisional, di AI misalnya, basis pengetahuan atau sistem pakar,
atau bahkan database dalam sebuah organisasi, yang digunakan untuk mewakili certi-
fied informasi yang handal, dapat dipercaya, mungkin konsisten dan
sering didasarkan pada strategi akuisisi terpusat dan representasi
protokol. Di Web, tentu saja, asumsi ini tidak selalu
berlaku. Sebagai contoh, kita harus memastikan bahwa inkonsistensi (yang kita
harus berharap menemukan di Web) tidak menggelincirkan semua kesimpulan dari
kelompok tertentu sumber-sumber pengetahuan yang saling tidak konsisten. Banyak
aplikasi untuk SW belum mulai beroperasi, tetapi beberapa cara
datang untuk berdamai dengan potensi scruffiness bahkan baik terstruktur
data dari beberapa sumber adalah sebuah isu [278].
Strategi SW berikut, oleh karena itu, adalah untuk menyediakan umum
kerangka kerja untuk pembebasan data, berdasarkan Deskripsi Resource
Framework (RDF), yang mengintegrasikan berbagai aplikasi
menggunakan XML sebagai pertukaran sintaks [195]. Raw data dalam database
dibawa bersama-sama, dan terhubung ke model dunia (melalui
ontologi - lihat di bawah), yang kemudian memungkinkan agregasi dan analisa
data dengan memproduksi interpretasi konsisten di seluruh heterogen
sumber data. fokus, oleh karena itu, pada data itu sendiri. SW ini tidak
hanya masalah menandai dokumen HTML di Web, ataupun
varian pada masalah IR tradisional pengambilan dokumen. Ini adalah
berusaha untuk membawa bersama data di seluruh Web sehingga membuat luas
database melampaui komponennya, yang membuat aplikasi mungkin
yang menyimpulkan seluruh data heterogen, seperti CS AKTive Space
yang memungkinkan browsing dan kesimpulan di berbagai sumber data
kronik keadaan disiplin ilmu komputer di Amerika
Kerajaan [251].
Model data SW sangat berhubungan dengan dunia relasional
data (di mana data direpresentasikan sebagai hubungan n-ary, yang sesuai
ke sebuah meja - [62]), begitu dekat memang bahwa ada langsung
pemetaan dari database relasional untuk RDF. Sebuah database relasional adalah
tabel yang terdiri dari catatan, yang merupakan baris. Setiap record
terdiri dari ladang, yang analog dengan kolom, dan seorang individu
catatan tidak lebih dari isi dari bidangnya (isi
sel-sel dari matriks yang jatuh dalam baris). Catatan node RDF,
bidang adalah properti RDF dan bidang rekaman nilai [28].
Jadi, misalnya, seperti meja mungkin merepresentasikan data tentang mobil. Setiap
baris (record) akan terkait dengan mobil tertentu, dan setiap kolom
beberapa properti atau lapangan (warna, pemilik, nomor registrasi, jenis, baru-baru ini
mekanik sejarah dan sebagainya). Jadi beberapa properti tertentu dari mobil
diwakili dalam merekam akan diwakili dalam rekaman yang sesuai
lapangan. Tabel tersebut juga mungkin berisi informasi tambahan yang lebih sulit untuk
mengungkapkan dalam RDF atau dalam model relasional itu sendiri. Misalnya, Massachusetts
Negara mungkin memiliki database relasional mobil yang mencakup
bidang untuk pelat Massachusetts. Dalam hal ini, database mungkin
dimaksudkan untuk menjadi definitif, yaitu mobil direpresentasikan dalam database
jika dan hanya jika memiliki plat Massachusetts hukum. Itu tentu saja suatu
harta penting dari meja [28].
Semacam ini database adalah jenis sumber pengetahuan yang eksploitasi
dipahami sebagai dasar untuk SW. Jadi SW adalah perpanjangan
dari WWW dalam hal yang menjadi tahap berikutnya menghubungkan - menghubungkan
data tidak dokumen. Ini bukan satu set metode untuk secara khusus menangani
dokumen yang saat ini di Web, bukan seperangkat kesimpulan
metode berdasarkan metadata atau cara mengelompokkan halaman web saat ini,
atau cara super-pintar pencarian. Hal ini dimaksudkan untuk berfungsi dalam
konteks model relasional data.
Menghubungkan adalah kunci untuk SW tersebut. Secara khusus, meskipun penerbitan
data dan penggunaan RDF sangat penting, dalam banyak kasus praktek
telah menjadi konversi data ke RDF dan publikasi yang bercerai
dari dataflow dunia nyata dan manajemen. Bahasa, metode
dan alat-alat yang masih terguling keluar untuk lapisan SW, demi lapis, dan
mungkin mengherankan bahwa menang cepat tidak muncul dari publikasi
dari RDF sebelum alat untuk melihat, query dan memanipulasi
database telah mencapai pasar. Memang, sebagai data publikasi
sering menghapus data dari konteks organisasi, situasi baru
bagi banyak akan tampak lebih buruk dari era pra-SW: aplikasi dan
organisasi-spesifik alat untuk memanipulasi data yang telah berevolusi dengan
organisasi akan telah menyediakan banyak fungsi yang mungkin
telah hilang atau terkikis. Sementara itu, kurangnya menghubungkan antara data
potensi merusak yang lebih besar dari SW.
Lapisan berikutnya dari SW adalah Web Ontologi Bahasa OWL
[198], yang menyediakan sarana ekspresif dapat terhubung data ke dunia (seperti juga melakukan RDF RDF Schema atau-S - [44]). RDF dan OWL memungkinkan
pertukaran data dalam konteks dunia nyata, di atas inti ini akan
duduk bahasa query untuk RDF yang akan memungkinkan didistribusikan dataset untuk
di-query dengan cara yang standar dan dengan beberapa implementasi.
SPARQL memungkinkan interogasi dataset digabungkan untuk memberikan
akses ke informasi gabungan mereka [232].
Visi asli dari SW telah dirumuskan dalam bentuk terkenal
berlapis diagram ditunjukkan pada Gambar 3.1. Seperti dapat dilihat, pengembangan
Proses SW bergerak ke atas, dengan perhubungan / RDF OWL di
tengah. RDF seperti yang tercantum duduk di atas XML, dan tingkat terendah dari semua adalah
bahwa dari Uniform Resource Identifier (URI). Dalam ayat berikutnya
kita meneliti peran mendasar bahwa URI bermain di visi SW. Visi telah bergerak dengan upaya pelaksanaan, sebagai salah satu
harapkan. Setelah implementasi ontologi menggunakan OWL,
perhatian beralih ke bahasa aturan layer dan sesuai untuk
menyatakan aturan; pemikiran terkini menunjukkan bahwa Interchange Peraturan
Format (RIF) saat ini dalam pengembangan [112] harus duduk bersama
OWL sebagai perpanjangan RDF-S. Lapisan tersebut tercakup dalam
bahasa query SPARQL. Visi revisi SW stack, bersama-sama
dengan pengakuan akan kebutuhan user interface yang efektif dan aplikasi.
3.1.2 URI: Nama atau alamat? Atau keduanya?
RDF didasarkan pada identifikasi sumber daya melalui URI, dan menggambarkan
mereka dalam hal sifat dan nilai properti [195]. Membandingkan
RDF dengan XLink, bahasa menghubungkan untuk XML, yang menyediakan beberapa
informasi tentang link tetapi tidak memberikan rujukan eksternal untuk
apapun sehubungan dengan yang link relevan. Sebaliknya, RDF
memberikan URI khusus untuk hal-hal pribadi, seperti yang kita lihat di bawah ini
contoh. Ketika kami membuat grafik RDF node dan busur (Gambar 3.3),
kita dapat melihat bahwa URI bahkan digunakan untuk hubungan. Sebuah referensi URI
digunakan sebagai node dalam sebuah grafik RDF mengidentifikasi apa yang mewakili node;
URI digunakan sebagai predikat suatu mengidentifikasi hubungan antara hal-hal
diidentifikasi oleh node yang terhubung [172].
RDF <: RDF xmlns: RDF = "http://www.w3.org/1999/02/22-rdf-syntax-ns #"
xmlns: kontak = "http://www.w3.org/2000/10/swap/pim/contact #">
Secara umum, menggunakan URI untuk mengidentifikasi sumber daya merupakan faktor penting
dalam pengembangan Web [33]. Menggunakan sintaks global konvensi penamaan
(Namun sintaks qua sewenang-wenang) memberikan efek jaringan global,
dari mana manfaat dari berasal Web; URI memiliki lingkup global dan
diinterpretasikan secara konsisten di seluruh konteks. Bergaul dengan URI
sumber daya harus terjadi jika ada cukup mungkin ingin link ke sana,
lihat atau mengambil representasi itu [155].
Hubungan, diidentifikasi dengan URI, link sumber daya yang juga diidentifikasi-
fied oleh URI. Untuk mendapatkan mesin-pembacaan yang dimaksudkan SW
aman, maka mesin harus bisa mendapatkan pada hubungan,
dan karenanya harus dapat dereference URI yang mengidentifikasi
relasi dan mengambil sebuah representasi dari sumber daya diidentifikasi. Jika
informasi yang relevan tentang hubungan (misalnya, pembatasan hak kekayaan)
juga tersedia di URI, maka mesin akan dapat
membuat kesimpulan mengenai hubungan menegaskan. RDFS dan semakin kompleks
OWL memungkinkan pernyataan dari pembatasan hak kekayaan yang pada gilirannya
memungkinkan mesin untuk membuat kesimpulan dengan cara ini. Dengan cara ini, SW
ini diperkuat oleh URI, penggunaan URI memungkinkan mesin untuk proses
data secara langsung memungkinkan pergeseran penekanan dimaksudkan dari dokumen
data. Kami mencatat di atas bahwa banyak inspirasi bagi SW datang
dari database relasional, dalam rangka mencapai keuntungan yang diantisipasi dalam
fungsi sehubungan dengan database tertentu, benda-benda di
database harus diekspor sebagai objek kelas pertama ke Web, dan oleh karena itu
harus dipetakan ke dalam sistem URI. Para menghubungkan yang mendukung
SW ini tentu saja dimaksudkan untuk menyediakan infrastruktur generik
untuk konten web mesin-processable, tetapi telah berpendapat bahwa ini
infrastruktur juga membahas banyak kekhawatiran tradisional
hypermedia komunitas [278].
Melakukan fungsi ini memerlukan pergeseran mendasar dalam pemahaman kita
tentang bagaimana kita menggunakan URI. Biasanya, nama dan alamat-alamat
berbeda, nama sesuatu merujuk langsung ke sana, alamat yang mengatakan
Anda mana (jika tidak tepat bagaimana untuk mendapatkan itu). Dalam komputasi tradisional
pengidentifikasi muncul dalam bahasa pemrograman, alamat adalah
lokasi di memori. Nama yang dipakukan ke obyek, alamat ke tempat-tempat,
dan karena itu obyek harus memiliki satu nama selamanya sementara alamatnya
bisa berubah sewenang-wenang sering. Hal ini dalam beberapa hal dimasukkan ke dalam "klasik"
melihat dari Web: ada asumsi bahwa identifier (URI)
akan menjadi salah satu dari dua macam hal. Itu baik akan menjadi nama
sesuatu, dipahami secara terpisah dari lokasi - sebuah URN - atau menentukan
lokasi hal - URL. Jadi kelas URI dipartisi
ke dalam kelas guci-guci dan kelas URL (dan mungkin satu atau dua
lain, seperti Uniform Resource Citations). Skema HTTP, untuk
misalnya, dilihat sebagai skema URL.
Lapisan ini tambahan komplikasi konseptual secara bertahap terlihat
bisa berguna kurang, dan gagasan tentang URI menjadi primer. URI bisa
melakukan yang mengidentifikasi baik secara langsung atau melalui lokasi, namun ini bukan
konseptual dalam perbedaan. Oleh karena HTTP adalah skema URI, meskipun
sebuah URI HTTP mengidentifikasi objek dengan mewakili akses primer
mekanisme, dan sebagainya (informal) kita bisa bicara tentang URI HTTP yang
URL. Nama / alamat Perbedaan adalah sebuah metafora spasial yang bekerja
dengan baik dalam lingkungan komputasi standar, tapi dalam jaringan
sistem komputasi perbedaan rusak. Demikian pula, objek dapat
diganti, dan sering adalah (alasan mengapa mereka tidak boleh dibahas
dalam Bagian 5.4.6 di bawah). Jika sistem hirarki penamaan sudah diatur dan
dikelola oleh otoritas, maka nama tersebut akan berfungsi hanya selama
sebagai otoritas yang mendukung bahwa sistem hirarkis, dan pada batas
hanya selama sebagai otoritas itu sendiri tetap ada.
Jadi kita harus berhati-hati dari menekan analogi spasial
nama / sistem alamat terlalu dekat. Lokasi literal adalah titik di
ruang 3-D, dan dalam sistem komputer jaringan kita tidak harus mendapatkan
juga tetap pada apa yang kita harus memanggil nama, atau alamat, atau fisik
lokasi sel memori yang akan menyimpannya. Sebuah memori komputer
alamat sering alamat dalam ruang memori virtual yang dialokasikan
suatu benda, yang diterjemahkan digunakan oleh perangkat keras ke dalam fisik
alamat memori. alamat IP yang tidak terikat pada komputer tertentu, namun secara implisit berisi referensi ke informasi routing, sehingga komputer
sesuai dengan alamat IP yang diberikan tidak dapat dipindahkan jauh di
struktur routing. Nama domain bisa digunakan untuk merujuk ke komputer atau
apa komputer menyajikan ketika kita ingin berhak untuk memindahkan
hal yang berhubungan dengan identifikasi dari satu bagian dari Internet
lain. Jadi Domain Name System (DNS), yang independen
sistem routing, tidak membatasi alamat IP yang
dapat diberikan ke komputer dari sebuah nama domain yang diberikan. DNS memang terlihat
seperti sistem nama, sedangkan alamat IP lakukan tampaknya berfungsi seperti
alamat [26].
Namun, juga sangat diamati bahwa domain nama untuk tertentu
sumber daya melakukan perubahan, karena protokol yang digunakan untuk penamaan mereka
diubah - alasan adalah bahwa ada informasi tertanam dalam
nama. Dalam dunia offline, nama bisa bertahan kegagalan tersebut tertanam
informasi untuk tetap benar (John Stuart Mill memberikan contoh
'Dartmouth' sebagai tempat yang lokasinya mungkin atau tidak mungkin tetap di
muara Sungai Dart). Perubahan tersebut ada yang dipermasalahkan. Tapi online,
ini lebih sulit untuk memastikan.
Pertimbangkan contoh http://pegasus.cs.example.edu/disk1/
siswa / romeo / keren / terbaru / readthis.html [26]. Ada berbagai macam
alasan mengapa hal ini URI bisa berubah. 'Pegasus', 'cs', dll 'mahasiswa' mungkin
semua perubahan selama bertahun-tahun sebagai komputer yang berbeda terbiasa dengan tuan rumah
informasi, atau sebagai lulusan Romeo dan menjadi anggota fakultas.
pendapat-Nya tentang apa yang 'keren' atau apa yang 'terbaru' juga akan berevolusi
dari waktu ke waktu (satu harapan). 'Http', yang merupakan protokol yang digunakan untuk mempresentasikan
sumber daya, dan 'readthis' yang relatif bermakna adalah yang paling mungkin
bagian dari URI yang terkait dengan sumber daya tertentu untuk berubah.
Alasan informasi tersebut disertakan adalah karena nama harus
dereferenced dalam rangka untuk mencari tahu apa pun tentang apa nama
adalah penamaan. Biasanya yang melibatkan menggunakan semacam index atau set
indeks, yang mungkin resmi dan kanonik, atau informal dan tidak resmi,
untuk mencari nama. indeks tersebut sering hirarkis untuk memfasilitasi
lookup, sebagai DNS namanya. Ini mungkin untuk menghilangkan semua informasi
dari nama domain, dan memastikan identifikasi unik untuk sumber daya
(Dan memang ada maka akan ada alasan yang jelas, segala sesuatu yang
sama, mengapa identifier tidak boleh permanen juga), pada biaya
membuat sulit untuk mencari dan dereference.
Hal-hal seperti itu yang penting relatif kecil sebagai manusia selama
adalah pengguna utama dan pemeras Web - setelah semua, satu terutama
setelah sumber daya dan konten yang mengandung, dan meskipun mungkin
frustasi untuk mengikuti URI hanya untuk menemukan sumber daya tidak lagi tinggal
sana, yang adalah iritasi daripada gangguan serius dalam sistem.
Orang juga relatif fleksibel dalam temu online dan dapat mentolerir
ambiguitas. Tetapi beberapa jenis resolusi untuk nama / alamat masalah
diperlukan jika kita mengharapkan sistem formal untuk menangani dengan URI. SW ini
alat untuk melakukan hal-hal dalam ruang sosial, bukan hanya satu set aturan untuk
memanipulasi formula, jadi kita perlu tahu apa yang kita maksud, dan
bagaimana mendapatkan pada saat-referen mana yang sesuai. Hal ini diinginkan untuk sebuah e-commerce
sistem, misalnya, untuk merujuk tanpa ambiguitas ke suatu nomor
hal: dokumen seperti tagihan dan faktur, barang-barang abstrak seperti
harga, dan hal-hal konkret seperti pembeli dan barang-barang yang sebenarnya
dibeli dan dijual. Merangkum [31] dan memberikan kritik dari sejumlah besar
cara pemahaman masalah ini dalam konteks HTTP.
Penamaan, pada akhirnya, adalah satu set pengaturan kontrak sosial. Kami
seharusnya tidak membiarkan sifat virtual dunia maya membutakan kita pada fakta
bahwa orang-orang meminta dan membayar, dan mendapatkan diberikan, nama domain dan ruang
pada server. Pihak berwenang menjaga hal-hal ini, dan juga bertindak sebagai akar untuk
dereferencing tujuan. Stabilitas setup ini kelembagaan
membantu menentukan stabilitas sistem Web penamaan.
3.1.3 ontologi
Di atas RDF dan RDFS pada Gambar 3.2 duduk ontologi. Pada tradisional
konsepsi [123], ontologi berisi spesifikasi dari konsep yang
diperlukan untuk memahami sebuah domain, dan kosa kata yang diperlukan untuk
masuk ke dalam wacana tentang hal itu, dan bagaimana konsep-konsep dan kosa kata
saling berhubungan, bagaimana kelas dan contoh dan sifat mereka
didefinisikan, dijelaskan dan disebut. Sebuah ontologi dapat formal atau
informal. Keuntungan dari formalitas adalah bahwa hal itu membuat ontologi
mesin-dibaca, dan karena itu memungkinkan mesin untuk melakukan lebih dalam
penalaran atas sumber daya web. Kerugiannya adalah bahwa seperti formal
konstruksi yang dianggap sulit untuk membuat.
Data dapat dipetakan ke sebuah ontologi, menggunakannya sebagai lingua franca untuk
memfasilitasi berbagi. Ontologi karena itu dimaksudkan untuk menaruh semacam
urutan ke informasi dalam format heterogen dan representasi,
sehingga berkontribusi pada ideal melihat Web sebagai pengetahuan tunggal
sumber. Sejauh itu, ontologi adalah mirip dengan skema database,
kecuali bahwa itu akan ditulis dengan relatif kaya dan ekspresif
bahasa, informasi akan kurang terstruktur, dan menentukan
teori domain, tidak hanya struktur sebuah wadah data [96].
Jadi ontologi dipandang sebagai tambahan berarti yang penting untuk berbagi data, dan
Tujuan utama memperlakukan Web sebagai satu-satunya sumber informasi, tetapi
mereka juga memiliki penentangnya. Banyak komentator khawatir bahwa fokus
pada ontologi ketika datang ke mendalilkan formalisms untuk masa depan
Web adalah untuk membuat kesalahan klasifikasi atas-privileging ketika
datang untuk memahami bahasa manusia dan komunikasi [113]. Ini
tentu harus ditunjukkan bahwa banyak ontologi sebenarnya digunakan, untuk
Misalnya di industri, adalah taksonomi untuk klasifikasi tujuan khusus
dokumen atau halaman Web, cenderung tidak rumit, dan tidak bergantung
pada formalisms sangat ekspresif [88].
OWL memiliki akar di bahasa sebelumnya DAML + MINYAK [65] yang
termasuk deskripsi logika (DL - [42]) di antara berbagai pengaruh.
Melampaui OWL DL, yang menetapkan konsep domain dan terminologi
dengan cara terstruktur, dengan menggunakan link yang disediakan oleh RDF untuk memungkinkan
ontologi akan didistribusikan ke seluruh sistem, kompatibel dengan standar Web,
terbuka, extensible dan scalable. Ontologi dapat menjadi didistribusikan
sebagai OWL memungkinkan ontologi untuk merujuk pada ketentuan dalam ontologi lainnya. Dalam hal ini
OWL cara adalah rekayasa khusus untuk Web dan Semantic Web,
dan simbol banyak bahasa berbagi ([cf 134.]).
Sulit untuk menentukan formalisme yang akan menangkap semua pengetahuan,
tipe sewenang-wenang, dalam sebuah domain tertentu. Ontologi, tentu saja,
melayani tujuan yang berbeda, dan bisa lebih dalam (mengungkapkan ilmiah
konsensus dalam disiplin, dan Sejalan padat karya untuk membangun)
atau lebih dangkal (dengan istilah yang relatif sedikit yang mengatur besar
jumlah data - [34]). Memang, ada banyak jenis wacana
melampaui ontologi tentu saja, dan banyak logika mengekspresikan mereka, untuk
contoh sebab akibat, logika temporal dan probabilistik.
Causal logika [mis 258] dikembangkan dari logika tindakan di AI, dan
dimaksudkan untuk menangkap aspek penting dari pemahaman akal sehat
mekanisme dan sistem fisik. Temporal logika formalises yang
aturan untuk penalaran dengan proposisi diindeks untuk waktu tertentu, dalam
konteks dari Web yang berkembang pesat, prevalensi waktu-stamping
online dan risiko dari informasi yang digunakan yaitu dari tanggal menjamin
relevansi itu. Tentu saja pendekatan logika temporal telah
disarankan untuk manajemen versi ontologi [149].
logika Probabilistik adalah kalkuli yang memanipulasi konjungsi probabilitas
peristiwa individu atau negara, yang mungkin paling terkenal
adalah Bayesian, yang dapat digunakan untuk menurunkan probabilitas untuk acara-acara
didasarkan pada teori sebelumnya tentang bagaimana probabilitas didistribusikan (dan
sangat terbatas data real). penalaran Bayesian merupakan hal yang biasa dalam pencarian
mesin, dan bahkan mencari spam (cf. [117]). Di domain mana penalaran
di bawah ketidakpastian sangat penting, seperti bioinformatika, Bayesian
ontologi telah diusulkan untuk mendukung perluasan dari Web
untuk memasukkan penalaran seperti [19]. Utilitas pendekatan Bayesian dalam
sistem komputasi tidak dapat diragukan; lebih kontroversial beberapa
juga mengklaim bahwa penalaran manusia sesuai dengan pola Bayesian [118],
meskipun tubuh signifikan kerja menunjukkan manusia tidak Bayesian
estimator [162]. Meskipun, di mesin yang sangat sedikit yang secara konsisten
menyesuaikan probabilitas mereka dalam terang pengalaman akan memiliki
melengkapi peran pendukung pengambilan keputusan manusia.
Web sering salah dipahami sebagai statis, sementara itu
terus berubah. Dinamis semantik berhubungan dengan aktivitas di sekitar
isi dari Web: menciptakan konten, tindakan pengguna-dipandu,
waktu, pengguna pribadi profil dan seterusnya [104]. Fry et al, yang pendukung
proyek SW, berpendapat bahwa asumsi yang mendasari
visi SW adalah bahwa semantik adalah deklaratif - kita berurusan
dengan data pasif yang dapat diambil dari server - dan bahwa perubahan
lambat - peristiwa penerbitan lebih jarang daripada browsing atau mengklik
pada link. Di sisi lain, konteks pengambilan, seperti pengguna
profil dan apa tugas-tugas ia terlibat dalam pada waktu pengambilan, juga
suatu masalah, seperti konteks browsing (pola yang berbeda navigasi
mungkin berarti set berbeda hubungan dan konteks informasi perlu
untuk dipahami), agen dinamis komputasi metadata, atau
proses yang biasa mengedit web menciptakan edisi yang berbeda dari sebuah halaman.
Oleh karena itu ada tentu aparat logis dan konseptual yang akan
memungkinkan beragam alasan untuk diekspresikan, meskipun lebih dalam
argumen yang dibuat oleh banyak kritikus, seperti [113], bahwa banyak keterbatasan yang besar
hasil dari sifat terletak, diwujudkan dan tertanam
penalaran banyak dan konseptualisasi, tidak akan ditangani oleh proliferasi ini
dari formalisms abstrak. Tapi sama kita harus berusaha menghindari
asumsi bahwa SW dimaksudkan sebagai sistem menyeluruh tunggal,
dengan cara tunggal berinteraksi dan satu set tertentu representasi
persyaratan yang memaksa semua pengetahuan menjadi satu bentuk (cf. [158]).
Sebagaimana telah kita lihat, SW dimaksudkan terutama untuk mengeksploitasi satu
jenis data, data relasional. Jika data tersebut memiliki nilai dalam konteks, maka
SW teknologi juga harus memiliki nilai, dan memang harus menambahkan
nilai sebagaimana mestinya (a) memungkinkan inferensi lebih lanjut harus dilakukan pada
data, dan (b) memungkinkan, melalui ontologi, data yang akan dihubungkan dengan potensial
luas menyimpan data di tempat lain. Klaim SW, maka, bukankah itu semua data
atau pengetahuan harus ditampilkan dalam beberapa set yang sempit formalisms,
melainkan bahwa kekuatan menghubungkan data yang memungkinkan banyak yang harus
dilakukan dengan itu. Untuk banyak tujuan, dan dalam beberapa konteks untuk paling biasa
tujuan, skema representasi ambisius yang mungkin muncul kurangnya
kaya berbagai kemungkinan ekspresif mungkin sepenuhnya memadai.
SW tidak dimaksudkan untuk menjadi sebuah sistem yang akan memenuhi segala keperluan, tetapi
itu adalah perluasan dari Web yang dimaksudkan untuk memanfaatkan potensi
yang menghubungkan kuantitas data belum pernah terjadi sebelumnya. Ontologi akan memungkinkan
pemahaman umum mengumpulkan data dari heterogen
sumber, selama bagian yang relevan mereka sesuai untuk tugas
di tangan. ambisi ini pada kisaran data yang pendekatan semacam
dapat memanfaatkan, dan nilai SW teknologi berharap dapat menambah, bukan dalam
perpanjangan dari berbagai inferensi yang bisa dicapai secara otomatis
(Meskipun memperluas jangkauan juga harus mungkin).
3.1.4 folksonomi dan struktur sosial muncul
Penggunaan ontologi menambah struktur data. Namun, struktur
dapat muncul secara organik dari manajemen individu mereka sendiri
persyaratan informasi, selama ada orang cukup.
Ada semakin banyak aplikasi didorong oleh desentralisasi
komunitas dari-bawah ke atas, yang pergi di bawah-sakit didefinisikan tetapi populer nama perangkat lunak sosial. Sebagai contoh, wiki adalah sebuah situs web
yang memungkinkan pengguna dan pembaca untuk menambah dan mengedit konten, yang memungkinkan
komunikasi, argumen dan komentar, Wikipedia (http://en.
wikipedia.org / wiki / Halaman Utama untuk versi bahasa Inggris), sebuah
ensiklopedi online yang ditulis oleh komunitas pengguna, telah menjadi sangat
handal meskipun kekhawatiran yang sedang berlangsung tentang kepercayaan entri yang
dan ketakutan dari vandalisme. Ontologi dapat dilengkapi dengan folksonomi,
yang timbul ketika sejumlah besar orang yang tertarik
dalam beberapa informasi, dan didorong untuk menggambarkan itu - atau tag itu (mereka
mungkin tag egois, untuk mengatur pengambilan sendiri isi, atau altruistically
untuk membantu navigasi orang lain '). Daripada bentuk terpusat klasifikasi,
pengguna dapat menetapkan kata kunci untuk dokumen atau informasi lain
sumber. Dan ketika tag tersebut dikumpulkan, hasilnya sangat
menarik. Contoh aplikasi yang telah berhasil memanfaatkan
dan mengeksploitasi penandaan adalah Flickr (http://www.flickr.com/ - fotografi
publikasi dan situs berbagi) dan del.icio.us (http://del.icio.us/ -
sebuah situs untuk penanda berbagi). Penjaga resmi weblog (blog) tag
mereka output. British Broadcasting Corporation (BBC) telah melihat
kesempatan di sini dengan program radio didorong oleh 'pengguna penandaan
(Via ponsel) dari lagu-lagu pop [61].
Karena jumlah tag pada peningkatan aplikasi, meningkatkan struktur
terdeteksi - tag cenderung digunakan kembali, dan diterapkan kembali untuk baru
item dengan pengguna baru, dan semua hubungan biasa subsumption,
dll, mulai muncul. Struktur kasar yang dihasilkan folksonomi
(= Taksonomi rakyat). Mereka tentu tidak logis dan istimewa, dan
berisi banyak contoh membingungkan sinonim (kata beberapa makna
hal yang sama - fiksi ilmiah, sci-fi dan SF) dan polisemi (beberapa
makna yang dicakup oleh kata yang sama - tidak SF = fiksi ilmiah atau
San Francisco), yang akan menghambat pencarian yang lebih efisien -? Dan tentu saja
tergantung pada bahasa. Tidak hanya itu, tapi membayangkan bahwa sebagai tag
struktur semakin sering digunakan untuk mengatur Web tertentu
aplikasi, para spammer akan mulai penandaan otomatis untuk meningkatkan
kemungkinan data yang diambil. Di sisi lain, tag
dihasilkan oleh interaksi dunia nyata dengan isi tag, dan
jadi jangan mengungkapkan pola asli keterlibatan antara konten
penyedia dan pengguna. Evolusi tag, lebih dari set yang sangat besar
penandaan data, dapat dilacak untuk menunjukkan pola-pola ini berkembang melalui
waktu [84].
struktur tersebut memungkinkan semantik untuk muncul dari perjanjian implisit,
sebagai lawan pembangunan ontologi yang menunjukkan eksplisit
perjanjian; bidang dinamika semiotik ini didasarkan pada gagasan
bahwa komunikasi yang disepakati atau sistem informasi organisasi sering
berkembang melalui proses desentralisasi yang sama penemuan dan negosiasi
[268]. Telah dikatakan bahwa kesepakatan implisit, dalam bentuk
terjemahan on-demand di skema informasi dapat memadai
untuk mendukung semantik interoperable untuk, dan pencarian disalurkan melalui,
Sistem P2P - meskipun apakah terjemahan implisit tersebut akan mudah
untuk menghasilkan seluruh sumber informasi yang dirancang untuk tugas-tugas yang berbeda
sangat banyak pertanyaan terbuka [2].
3.1.5 ontologi folksonomi v?
Dikatakan - meskipun saat ini argumen yang hanya penyaringan perlahan
ke dalam literatur akademik - yang folksonomi lebih disukai untuk
penggunaan dikendalikan, ontologi terpusat [mis 259]. Annotating Web
halaman menggunakan kosakata terkontrol akan meningkatkan kemungkinan seseorang
balik halaman di pencarian Web yang 'benar', namun di sisi lain
basis pengguna besar heterogen dari Web tidak mungkin mengandung
banyak orang (atau organisasi) bersedia untuk mengadopsi atau mempertahankan kompleks
ontologi. Menggunakan sebuah ontologi melibatkan membeli ke cara tertentu
ukiran Facebook dunia, dan menciptakan suatu ontologi memerlukan investasi ke
metodologi dan bahasa, sedangkan penandaan informal dan cepat.
Tag seseorang mungkin tidak membantu atau tidak akurat, dan tidak diragukan lagi ada suatu seni
untuk penandaan berhasil, tapi satu mendapatkan hasil (dan tanggapan) sebagai salah satu belajar;
ontologi, di sisi lain, memerlukan sesuatu dari suatu investasi
waktu dan sumber daya, dengan masukan yang datang lebih lambat. Dan, yang terpenting,
alat untuk menurunkan hambatan untuk masuk ke kosakata terkontrol yang
muncul jauh lebih lambat daripada yang digunakan untuk dukungan sosial
Software [61].
Tagging tentu merupakan perkembangan yang menarik dan sebuah fenomena menarik,
tetapi kita harus waspada dengan mengasumsikan bahwa tag dan ontologi
bersaing untuk ruang yang sama. Tagging memberikan sumber potensial metadata, dengan semua kekurangan informalitas dan semua keuntungan
hambatan rendah untuk masuk dan basis pengguna yang tinggi. Tapi tag hanya
bagian dari cerita tentang sumber daya Web [128].
Ontologi dan folksonomi telah karikatur sebagai berlawanan. Dalam
kenyataannya, mereka adalah dua hal yang terpisah, meskipun beberapa fungsionalitas
ontologies uncontroversially dapat diambil alih oleh folksonomi
dalam berbagai konteks. Ada dua terpisah (kelompok) poin untuk
membuat. Yang pertama harus dilakukan dengan seharusnya trade-off antara ontologi
dan folksonomi, yang kedua berkaitan dengan persepsi tentang ontologi.
Ontologi dan folksonomi ada di sana untuk melakukan hal yang berbeda, dan
menangani kasus-kasus yang berbeda. Folksonomi adalah varian pada keywordsearch yang
tema, dan merupakan upaya yang muncul di informasi menarik
pengambilan - bagaimana saya bisa mengambil dokumen (foto, katakanlah) yang relevan
dengan konsep di mana saya tertarik? Ontologi merupakan upaya untuk
mengatur bagian dari dunia data, dan untuk memungkinkan pemetaan dan interaksi
antara data dalam format yang berbeda atau lokasi, atau yang telah
telah dikumpulkan oleh organisasi yang berbeda dengan asumsi yang berbeda.
Apa yang telah ditampilkan sebagai sebuah kompetisi-off perdagangan, atau, atau bahkan
zero-sum game mungkin lebih baik diwakili sebagai dua pendekatan yang terpisah
untuk dua jenis masalah. Ini mungkin bahwa masalah set
mereka pendekatan tumpang tindih, dalam hal ini ada pada mungkin kesempatan
menjadi pilihan yang harus dibuat antara mereka, tetapi bahkan sehingga kedua ontologi
dan folksonomi memiliki kegunaan yang pasti dan sama-sama berpotensi berbuah
jalan penelitian [257].
Telah berpendapat bahwa ontologi berguna bisa menggabungkan material
dari jaringan sosial dan perangkat lunak, sebagai informasi yang sedang
dimodelkan memiliki dimensi sosial [201]. Hal ini mungkin menawarkan satu set baru
kesempatan - untuk contoh adalah perangkat lunak blogging yang secara otomatis membuat
metadata bisa menjadi cara untuk memanfaatkan bottom up software sosial
pendekatan [163]. Selain itu, seharusnya dasar dari pembedaan
antara kedua - yang folksonomi berkembang secara organik dan tanpa rasa sakit
sedangkan ontologi pemeliharaan tinggi dan overhead tinggi - adalah anyway
meragukan. Dimana ada yang dianggap perlu untuk ontologi, ringan
tapi yang kuat jangan muncul dan secara luas digunakan, seperti misalnya
dengan Friend-of-a-Friend (FOAF - [45]), dan aplikasi yang terkait
seperti Flink [200]. Hal ini sesuai pada umumnya dengan panggilan untuk ganda dan pelengkap pengembangan teknologi SW dan teknologi yang
mengeksploitasi organisasi-diri dari Web [misalnya 101].
Persepsi ontologies tergantung pada pemahaman akan perbedaan ini.
Perhatikan, misalnya, biaya ontologi. Dalam pertama
tempat, akan ada daerah di mana biaya, akan mereka pernah begitu besar, akan
mudah untuk menutup. Di daerah baik terstruktur seperti aplikasi ilmiah,
upaya untuk menciptakan spesifikasi kanonik kosakata akan sering
senilai keuntungan, dan mungkin penting, memang, Semantic Web teknik
yang mendapatkan tanah dalam konteks ilmiah dengan data yang kaya di mana
terdapat kebutuhan untuk pengolahan data dan kemauan untuk mencapai
konsensus tentang istilah. Dalam aplikasi komersial tertentu, potensi
keuntungan dari penggunaan spesifikasi baik terstruktur dan terkoordinasi
kosakata akan lebih besar daripada biaya tenggelam untuk mengembangkan atau menerapkan
ontologi, dan biaya marjinal pemeliharaan. Misalnya, memfasilitasi
pencocokan istilah dalam persediaan pengecer dengan orang-orang dari
agen pembelian akan menguntungkan kedua belah pihak.
Dan biaya ontologies berkembang mungkin berkurang pengguna
dasar dari ontologi meningkat. Jika kita menganggap bahwa biaya pembangunan
ontologi tersebar di komunitas pengguna, jumlah ontologi
insinyur yang dibutuhkan meningkat seiring dengan log ukuran komunitas pengguna,
dan jumlah waktu meningkat bangunan sebagai kuadrat dari jumlah
insinyur - asumsi yang sederhana saja tapi yang wajar untuk dasar
model - upaya yang terlibat per pengguna dalam ontologi bangunan besar
masyarakat menjadi sangat kecil sangat cepat [29]. Selain itu, karena
penggunaan menyebar ontologies, teknik untuk digunakan kembali mereka, segmentasi dan
penggabungan juga akan menjadi lebih akrab [212, 256, 10], dan memang ada
akan menjadi dasar meningkat dan semakin terkenal ontologies
ada untuk digunakan kembali.
Kedua, ada persepsi ontologies sebagai top-down dan agak
otoriter konstruksi, tidak terkait, atau hanya tenuously istimewa, untuk
orang-orang yang sebenarnya praktek, dengan berbagai tugas potensial di domain,
atau dengan operasi konteks (lih. misalnya [158]). Dalam beberapa hal, ini
persepsi mungkin berhubungan dengan gagasan pengembangan tunggal
Ontologi konsisten Segalanya, seperti misalnya dengan CYC [183].
Seperti ontologi luas dan mencakup semua mungkin memiliki
jumlah aplikasi menarik, tapi jelas tidak akan skala dan perusahaan penggunaan yang tidak bisa ditegakkan. Jika SW dilihat sebagai memerlukan buyin luas
ke titik tertentu pandang, maka dapat dimengerti bahwa yang muncul
struktur seperti folksonomi mulai tampak lebih menarik (cf. [259]).
Namun ini bukan merupakan persyaratan SW. Bahkan, sikap SW untuk
ontologi tidak lebih dari rasionalisasi data aktual-berbagi
praktek. Aplikasi dapat dan memang berinteraksi tanpa mencapai atau
mencoba untuk mencapai konsistensi global dan cakupan. Sebuah sistem yang
menyajikan barang-barang ritel untuk pelanggan akan panen informasi dari
pemasok 'database (sendiri cenderung menggunakan format heterogen)
dan peta itu ke format data yang diinginkan pengecer untuk kembali presentasi.
Otomatis pajak perangkat lunak kembali mengambil data bank, di bank pilihan
format, dan peta mereka ke formulir pajak. Tidak ada persyaratan untuk
global ontologi di sini. Bahkan tidak ada persyaratan untuk persetujuan atau
Terjemahan global antara ontologi spesifik digunakan kecuali dalam
subset dari istilah yang relevan untuk transaksi tertentu. Perjanjian
hanya perlu lokal.
Tujuan dari SW harus dilihat dalam konteks rutin
sifat jenis perjanjian. SW ini dimaksudkan untuk menciptakan dan
mengelola standar untuk membuka dan membuat perjanjian ini rutin parsial
dalam format data; standar tersebut harus memungkinkan untuk
eksploitasi data relasional pada skala global, dengan bersamaan
leverage bahwa skala yang membeli.
3.1.6 Metadata
Isu-isu yang berkaitan dengan semantik atau penafsiran Web
melampaui Semantic Web. Sebagai contoh, metadata dapat digunakan untuk
menggambarkan atau membubuhi keterangan sumber daya dalam rangka untuk membuatnya (lebih) dimengerti
untuk pengguna. Pengguna ini mungkin menjadi manusia, dalam hal metadata dapat
menjadi tidak terstruktur, atau mesin, dalam hal metadata harus
mesin-dibaca. Biasanya, metadata adalah deskriptif, termasuk misalnya
elemen dasar sebagai nama penulis, judul atau abstrak dokumen, dan
administrasi informasi seperti jenis file, hak akses, menyatakan HKI,
tanggal, nomor versi dan sebagainya. item multimedia dapat dijelaskan
dengan deskripsi tekstual konten, atau kata-kata kunci untuk membantu berbasis teks
pencarian.
Secara umum, metadata yang penting untuk pencarian yang efektif (mereka membiarkan
sumber daya yang ditemukan oleh berbagai kriteria, dan sangat membantu
dalam menambah struktur dicari sumber daya non-teks), pengorganisasian
sumber daya (misalnya, memungkinkan portal untuk berkumpul komposit
laman web secara otomatis dari sumber daya yang sesuai-beranotasi beberapa),
pengarsipan bimbingan (cf. [58]), dan informasi mengidentifikasi (seperti
nomor referensi yang unik, yang membantu memecahkan masalah satu ketika
sumber daya Web adalah 'sama' seperti yang lain). Mungkin penggunaan paling penting
untuk metadata adalah untuk mempromosikan interoperabilitas, memungkinkan kombinasi
sumber daya heterogen di seluruh platform tanpa kehilangan konten.
skema Metadata memfasilitasi pembuatan metadata dalam standar
format, untuk memaksimalkan interoperabilitas, dan ada sejumlah
seperti skema, termasuk Dublin Core (http://dublincore.org/) dan
Teks Encoding Initiative (TEI - http://www.tei-c.org/). RDF menyediakan
mekanisme untuk mengintegrasikan skema metadata tersebut.
Ada sejumlah pertanyaan menarik yang berkaitan dengan metadata.
Di tempat pertama, apa metadata perlu diterapkan untuk konten? Kedua,
bagaimana metadescription mempengaruhi inferensi? Apakah itu membuat lebih sulit?
Apa yang dapat dilakukan tentang annotating isi warisan? Banyak yang telah
tertulis tentang semua pertanyaan ini, tetapi itu sangat berharga sebuah penyimpangan kecil untuk
melihat beberapa pendekatan yang pertama.
Sehubungan dengan metadata yang diperlukan, tentu saja banyak tergantung pada
tujuan untuk sumber daya yang dijelaskan. Untuk berbagai tujuan -
misalnya, foto digital berbagi - metadata bisa menjaga diri mereka sendiri,
sebagai keberhasilan situs seperti pertunjukan Flickr. Lebih umum, menarik
kemungkinan untuk metadata termasuk waktu-stamping, asalnya, ketidakpastian
dan perizinan pembatasan.
Time-stamping adalah kepentingan karena unsur temporal konteks
adalah penting untuk memahami teks (untuk mengambil sebuah contoh nyata,
ketika membaca sebuah makalah tentang geopolitik global pada tahun 2006 adalah penting untuk mengetahui
apakah itu ditulis sebelum atau setelah peristiwa 11 September, 2001). Selanjutnya,
beberapa informasi memiliki 'menjual-menurut tanggal': setelah titik tertentu mungkin
menjadi tidak dapat diandalkan. Seringkali hal ini tidak mudah ditebak persis, tapi luas
indikasi dapat diberikan; alami banyak tergantung pada apakah informasi
sedang digunakan dalam beberapa sistem misi kritis dan bagaimana toleran
kegagalan sistem. Umum temporal informasi tentang sumber daya apat diberikan dalam tag XML dengan cara biasa. Namun, di dalam tubuh
sumber daya, yang kita tidak bisa berasumsi menjadi terstruktur, mungkin ada
kebutuhan informasi temporal juga, bagi pengguna untuk menemukan secara manual. Dalam
kasus, sulit untuk mengidentifikasi informasi temporal yang diperlukan dalam tubuh
teks tidak terstruktur, dan untuk menentukan apakah suatu cap waktu mengacu pada
perusahaan memiliki bagian atau beberapa bagian lain dari sumber daya. Mungkin
beberapa ide dapat diimpor dari organisasi temporal lebih
sumber daya terstruktur seperti database, selama over-resep
dihindari [173]. Dalam kasus apapun, adalah penting untuk mengetahui waktu penciptaan
dan asumsi tentang umur panjang kualitas informasi yang mendasari;
jika isi dari sumber daya 'dapat berubah atau penarikan tanpa
pemberitahuan, maka integritasnya dapat dikompromikan dan nilainya sebagai
catatan budaya sangat berkurang '[107].
PROVENANSI informasi sangat penting untuk menentukan
nilai dan integritas sumber daya. Banyak pengarsipan standar digital yang disetel
dengan jelas informasi apa yang diperlukan asalnya. Misalnya,
Terbuka Sistem Informasi Kearsipan model (OAIS) dari Permusyawaratan
Komite Space Data Systems tuntutan metadata tentang
sumber atau asal sumber daya, log dari perubahan yang telah diambil
tempat, dan di bawah naungan yang, dan catatan dari rantai
[57]. Eksemplar CURL ini dalam proyek Arsip Digital (Cedars) pergi
lebih lanjut, menuntut sebuah sejarah tentang asal (termasuk alasan mengapa
sumber daya diciptakan, daftar lengkap kustodian bertanggung jawab sejak
penciptaan dan alasan itu sedang diusulkan untuk pengarsipan), teknis
informasi tentang lingkungan penciptaan dokumen (termasuk
perangkat lunak dan sistem operasi), manajemen sejarah (termasuk
sejarah proses pengarsipan dan kebijakan dan tindakan diterapkan
untuk itu sejak diarsipkan), dan catatan yang berhubungan dengan HKI
dokumen [58]. Konteks teknologi seperti e-ilmu pengetahuan dan grid
komputasi telah mendorong penelitian teknologi-independen
representasi dari asalnya, informasi asalnya yang perlu
harus dikodekan, peran kunci untuk arsitektur asal-pencatatan dan
proses-item terkait seperti distribusi arsitektur dan keamanan
persyaratan (cf. [122] - ironisnya dokumen saat ini berkembang
pada saat penulisan yang mencakup account terstruktur sendiri
asalnya). Faktor kunci dalam menilai kepercayaan dokumen
adalah keandalan atau klaim disajikan di dalamnya; metadata
tentang asalnya tidak diragukan lagi akan membantu dalam penilaian seperti ini, tetapi perlu
belum tentu mengatasinya. Mewakili kepercayaan dalam keandalan memiliki
selalu sulit di logika epistemic. Dalam konteks pengetahuan
pendekatan representasi meliputi: logika subjektif, yang merupakan
pendapat sebagai (, percaya ketidakpastian keyakinan,) real-nilai triple mana
tiga item menambahkan hingga 1 [, 159 160]; grading berdasarkan penilaian kualitatif,
walaupun nilai kualitatif tersebut dapat diberikan interpretasi numerik
dan kemudian beralasan tentang matematis [110, 115]; fuzzy
logika (cf. [248]); dan probabilitas [148]. Sekali lagi kita melihat trade-off yang
yang formalisms yang paling ekspresif mungkin yang paling sulit
untuk digunakan.
Akhirnya, metadata yang berhubungan dengan pembatasan lisensi telah berkembang
dengan gerakan untuk, 'creative commons' perlindungan fleksibel berdasarkan
hak cipta yang lebih tepat untuk konteks Web dan weblike.
Daripada hanya menggunakan instrumen tumpul hukum hak cipta, kreatif
commons lisensi memungkinkan penulis untuk menyempurnakan pelaksanaan mereka
hak oleh waiving beberapa dari mereka untuk memfasilitasi penggunaan pekerjaan mereka dalam
konteks berbagai specifiable [187]. Kami membahas hak cipta lebih terinci
dalam Bagian 6.2 di bawah ini.
Pertanyaan-pertanyaan tentang kesulitan penalaran dengan metadata,
dan tugas raksasa annotating data warisan, tetap sangat terbuka. Ini
telah berpendapat bahwa annotating Web akan memerlukan skala besar otomatis
metode, dan metode tersebut pada gilirannya akan memerlukan tertentu yang kuat
pengetahuan komitmen pemodelan [170], apakah ini akan melanggar
semangat desentralisasi dari Web ini belum jelas. Banyak akan tergantung
pada pendekatan kreatif seperti annotating on the fly seperti penjelasan yang
diperlukan, atau sumber daya warisan annotating seperti database yang mendasari
Web dalam [283].
3.2 Referensi dan identitas
Semantic Web mengandalkan konvensi penamaan dengan URI, dan
Tentu saja setiap bagian dari sistem pelabelan Web yang bergantung pada beberapa konvensi
atau lainnya. Masalah dengan label di Web adalah bahwa setiap sistem desentralisasi dan dasarnya tidak diawasi, sesuai dengan
Web yang mengatur prinsip-prinsip, tetapi ini tidak sentralisasi memungkinkan
skema yang berbeda dan konvensi, dan memang kecerobohan, untuk berkembang,
yang pada gilirannya membuka kemungkinan kegagalan referensi unik.
3.2.1 Referensi: Kapan dua benda yang sama?
Desentralisasi adalah masalah dari sudut pandang logis, meskipun besar
keuntungan dari yang pencipta konten. Obyek yang sama mungkin
disebut online, sempurna benar, sebagai 'Jane Doe', 'Janey Doe', 'Jane
A. Doe ',' Doe, J.A. 'dan sebagainya. Selanjutnya, setiap atau semua istilah ini
dapat digunakan untuk merujuk ke objek yang berbeda. Dan, tentu saja, asli
Jane Doe mungkin misnamed atau salah eja: 'Jnae Doe', dll
kegagalan referensi unik relatif sepele bagi pengguna manusia untuk menguraikan,
tetapi tentu saja sangat sulit bagi mesin untuk bekerja keluar. Dan
jika kita berharap untuk mengekstrak informasi yang berguna dari repositori yang sangat besar
informasi, dimana kerajinan tangan solusi dan referensi memeriksa
oleh mata tidak layak, pengolahan mesin tidak bisa dihindari. Referensi
masalah yang sangat mungkin terjadi ketika sumber-sumber informasi
digabung, masalah di mana-mana tapi yang serius dalam konteks
dari Web Semantic. Dan desentralisasi Web menghalangi
membuat asumsi nama yang unik, dalam cara [240].
Di sisi lain, URI menyediakan Web dengan sumber daya
untuk menghindari setidaknya beberapa masalah grounding tradisional, ketika
dapat diatasi bahwa dua istilah ini menunjuk ke URI yang sama.
Jadi jika "bintang pagi" dan "bintang malam" menunjuk langsung kepada
http://ex.org/planets.owl # venus maka setiap landasan lebih lanjut super-
fluous. Di sisi lain, dua URI yang berbeda mungkin mengacu sama
objek non-jelas, dan mungkin melakukannya hanya dengan melalui beberapa operasi
di mana ia digunakan. Kadang-kadang ini akan terdeteksi melalui algoritmik
analisis sintaks (misalnya, nama domain tidak case
sensitif, jadi ini dapat digunakan untuk mendeteksi kesamaan), tetapi tidak secara umum.
Masalahnya tidak pergi dengan penggunaan URI, tetapi mereka berada di
setidaknya satu set pengidentifikasi memberikan dasar potensial bagi stabilitas di beberapa
situasi - situasi khususnya ilmiah di mana perjanjian di atas simbol-simbol
dan definisi sering diformalkan.
Sebuah metode heuristik untuk menyelesaikan bentrokan tersebut, di dunia nyata, adalah
untuk membuat penilaian cerdas berdasarkan informasi jaminan, dan
ini telah menirukan online dengan perhitungan komunitas
praktek nama, berdasarkan jaringan hubungan sekitarnya
masing-masing instansi yang disengketakan. Misalnya, jika 'Jane Doe' dan 'Doe,
JA 'memiliki keduanya punya asosiasi yang kuat dengan' Universitas Loamshire ',
satu karena dia bekerja di sana, yang lain karena dia telah bekerja pada
proyek yang UoL adalah partner, maka itu adalah bukti prima facie
bahwa dua istilah mengacu pada objek yang sama - meskipun tentu saja seperti
penghakiman akan selalu sangat yg dpt dibatalkan [11].
Secara umum, manajemen referensi, dan resolusi referensi
masalah, akan selalu sulit mengingat bahwa theWeb mencakup sejumlah besar
mengumpulkan informasi untuk sejumlah alasan yang berbeda dan untuk
memecahkan berbagai tugas, makna dan interpretasi sering shift, dan ada
mungkin pada kesempatan menjadi kesepakatan sedikit tentang referen istilah. Sebuah
isu penting untuk Web Sains justru bagaimana memahami referensi
dan representasi, dan menentukan sistem yang manajemen
dan formalisms akan memungkinkan pemahaman yang lebih besar dan pelacakan dari apa yang
Web ini dimaksudkan untuk mengatakan tentang yang objek.
3.2.2 Kapan dua halaman yang sama?
Alternatif mengambil masalah referensi adalah bahwa penentuan
ketika dua halaman web adalah halaman yang sama. Hal ini tentu saja akan menjadi sepele
dalam banyak kasus, tetapi sering kali "utama" teks yang disalin dari satu halaman ke
lain, tetapi dikelilingi oleh iklan yang berbeda, logo, header
dan footer. Banyak metrik yang tersedia yang dimaksudkan untuk menentukan
kuantitatif tingkat hubungan antara dua halaman. Kesamaan
penilaian bisa sembarangan dan pragmatis, tergantung pada konteks (misalnya
memutuskan plagiat atau kasus pelanggaran hak cipta), tetapi teknik
dari teori informasi yang ada untuk menghasilkan set nomor tujuan
untuk memberi makan ke dalam proses penilaian - misalnya, Levenshtein edit
jarak, dan varian algoritma, diberikan dengan jumlah minimum
operasi dari beberapa basis yang diperlukan untuk bisa mengubah satu string menjadi
lain (bdk. [38]).
Dasar untuk membuat penilaian kemiripan tidak perlu hanya menjadi
konten pada halaman, tetapi juga bisa menjadi struktur hyperlink dalam
halaman yang tertanam. Informasi yang mengharuskan pengguna
tidak perlu berasal dari satu halaman, tapi malah bisa dipetik dari
cluster dokumen seputar topik dasar, dan hubungan yang
struktur ada bisa sangat penting. Dan lebih jauh kemungkinan
cara kesamaan pemahaman antara pola penggunaan tertentu
halaman - dua halaman yang sering diakses pada titik-titik serupa di Web
sesi surfing [76]?
Konten berbasis kesamaan dapat didekati dengan mencocokkan kata-kata atau
subsequences dari dua halaman. Teknik yang relatif sederhana
digunakan untuk menentukan kemiripan antara dua halaman (rasio
antara ukuran persimpangan dari subsequences dan ukuran
serikat mereka), dan penahanan satu dengan yang lain (rasio
antara persimpangan dan ukuran dari himpunan yang terkandung) [48]. Linkbased
metrik berasal dari bibliometrics dan analisis kutipan, dan fokus
pada keluar link dan link dalam dua halaman memiliki kesamaan, relatif
ke ruang umum link di cluster topik. Penggunaan berbasis metrik
memanfaatkan informasi yang dikumpulkan dari server log dan sumber-sumber lain tentang
ketika halaman yang dikunjungi, pada asumsi bahwa kunjungan dari yang sama
pengguna dalam sesi yang sama di situs yang sama kemungkinan akan konseptual
terkait, dan semakin besar kesamaan antara waktu akses pengguna
untuk halaman web, semakin besar kemungkinan halaman tersebut yang entah bagaimana
terkait secara konseptual [227].
Web 3.3 rekayasa: arah Baru
pembangunan Web adalah campuran dari standar-setting, tidak terstruktur,
desentralisasi kegiatan dan inovasi, dan rekayasa yang disengaja.
Pada bagian ini kita akan fokus pada yang terakhir, dan review menonjol
teknik isu dan keharusan terbuka. Pertumbuhan Web
jelas merupakan sesuatu yg diinginkan kunci. Penyimpanan jumlah semakin besar informasi,
dalam konteks perhitungan pernah-cepat, akan sangat vital untuk
masa mendatang. Tanpa lebih cerdas pengambilan penyimpanan dan cepat untuk
media memori-lapar seperti video, maka pada akhirnya akan tumbuh terlalu theWeb
besar untuk teknologi sendiri. Sebagai contoh, PageRank membutuhkan merangkak
dan caching dari bagian signifikan dari theWeb; keberhasilan tergantung Google pada kemampuan untuk menjaga cache penurut sementara juga ukuran yang signifikan.
Greater permintaan untuk layanan personalisasi dan pencari juga akan memberikan tekanan
pada sistem. Memperluas cakupan pencarian untuk mencakup item
seperti multimedia, jasa atau komponen ontologi, juga akan memerlukan
mengejar program penelitian akademik, interface efektif dan
model bisnis yang masuk akal sebelum layanan komersial mulai beroperasi.
Yang ada dan mengembangkan pendekatan untuk memanfaatkan Web harus
diperluas ke lingkungan Web yang baru sebagaimana yang diciptakan (seperti P2P
jaringan, misalnya).
3.3.1 Web layanan
Layanan area utama di mana kami rekayasa model kebutuhan Web
untuk terlibat dan jasa extended.Web didistribusikan potongan kode
ditulis untuk memecahkan tugas-tugas tertentu, yang dapat berkomunikasi dengan layanan lain
melalui pesan. tugas yang berskala lebih luas dapat dianalisis dan secara rekursif
dipecah menjadi sub-tugas yang dengan peta keberuntungan akan ke spesifik
tugas-tugas yang dapat diatasi oleh layanan. Jika itu terjadi, dan
jika layanan ditempatkan dalam konteks Web, yang berarti bahwa pengguna dapat
memanggil layanan yang bersama-sama dan kooperatif memenuhi kebutuhan mereka.
Software abstrak jauh dari hardware dan memungkinkan kita untuk menentukan
komputasi mesin dalam hal fungsi logis, yang memfasilitasi
spesifikasi masalah dan solusi dengan cara yang relatif intuitif. The
evolusi dari Web untuk memasukkan penyediaan dan difusi layanan
membuka prospek abstraksi baru: pertanyaan sekarang adalah bagaimana kita bisa
melakukan abstraksi yang sama jauh dari perangkat lunak. Apa metode
menggambarkan layanan akan memungkinkan kita untuk berhenti khawatir tentang bagaimana mereka akan
dilakukan?
Sejumlah metode proses menentukan telah berkembang selama
beberapa tahun terakhir dan diterapkan pada domain layanan Web. Misalnya,
WS-Net adalah bahasa deskripsi arsitektural berdasarkan teori
Petri jaring berwarna (yaitu perluasan dari teori Petri sederhana bersih dengan
terhormat, token diidentifikasi - lihat Bagian 4.2.5 untuk diskusi singkat
Petri jaring), yang menggambarkan komponen layanan Web dalam hal
jasa yang memberikan untuk komponen lain, layanan yang diperlukan untuk
fungsi, dan operasi internal. Hasil akhirnya adalah model yang
mencakup baik global dan aspek-aspek lokal dari sistem pelayanan, memfasilitasi integrasi layanan Web untuk mencapai tujuan-tujuan baru, sementara juga menyediakan
sebuah formalisme untuk evaluasi integrasi [296].
Proses aljabar (lihat Bagian 4.2.5) juga telah diterapkan untuk
layanan. Sekali lagi, seperti dengan pendekatan Petri net, penggunaan formal
aljabar memungkinkan baik desain dan evaluasi untuk mengambil tempat (atau memang salah satu
atau yang lain, tergantung pada apa metode alternatif yang tersedia untuk
menghasilkan atau survei kode). Sebagai contoh, [98] menggambarkan pemetaan
antara aljabar proses ekspresif dan BPEL4WS (yang distandarisasi
Berbasis XML notasi untuk menggambarkan proses bisnis executable),
yang memungkinkan baik pembentukan jasa di BPEL4WS diikuti oleh
mereka evaluasi dan verifikasi menggunakan aljabar proses, atau generasi
kode BPEL4WS otomatis dari penggunaan aljabar
untuk menentukan layanan yang diinginkan. Secara umum, spesifikasi aljabar
pelayanan pada tingkat abstrak dan penalaran tentang mereka telah menjadi
utama bidang penelitian pada layanan [mis 75, 105, 208].
BPEL4WS adalah versi panjang dari Eksekusi Proses Bisnis
Bahasa BPEL, yang menjadi cara yang semakin penting untuk
Sun Web layanan dengan proses bisnis. BPEL ada batasnya,
tapi memungkinkan penciptaan layanan komposit dari layanan yang telah ada. The
Tahap selanjutnya adalah menyesuaikan pendekatan ini untuk lingkungan P2P, dan
kendaraan saat ini dalam pengembangan untuk itu adalah CDL, alias WS-CDL, alias
Koreografi (Web Services Choreography Description Language -
[164]), sebuah bahasa berbasis XML untuk mendefinisikan umum dan saling melengkapi
diamati perilaku dalam kolaborasi P2P. Tujuannya adalah agar
interoperable P2P kolaborasi dapat disusun dengan menggunakan Koreografi
tanpa memperhatikan spesifik seperti platform dasar yang digunakan;
bukan fokus pada tujuan umum dari kolaborator. Sedangkan
BPEL memungkinkan ada pelayanan yang akan digabungkan bersama-sama, Koreografi
pergeseran fokus ke deskripsi global kolaborasi, informasi
pertukaran, pemesanan tindakan dan sebagainya, untuk mencapai tujuan yang disepakati.
3.3.Distribusi pendekatan: komputasi Pervasif,P2P dan grid
Ada banyak lingkungan hardware yang akan Web
diharapkan untuk menembus, namun asumsi teknik mana yang berlaku untuk skala besar, lebih-atau-kurang tetap mesin komputasi khusus tidak
harus berlaku. contoh nyata termasuk komputasi mobile, di mana-mana
(Atau meresap) komputasi mana interoperabilitas menjadi masalah,
P2P sistem dan komputasi grid. komputasi Mobile membuat segala macam
tuntutan rekayasa, daya komputasi yang tersedia tidak luas dan
pengguna harus diasumsikan terus-menerus bergerak dengan variabel
bandwidth dan akses. Selain itu, menyajikan informasi kepada pengguna
memerlukan paradigma yang berbeda dari PC, misalnya untuk memungkinkan
pengguna untuk menerima informasi yang cukup pada layar kecil untuk membuat browsing
menarik [20, 193]. Akses mobile ke Web dapat menjadi
mode dominan di banyak negara, terutama yang berkembang, terima kasih
untuk harga yang relatif rendah dan keandalan koneksi nirkabel dan baterai
kekuasaan [222]. Penelitian di bidang ini penting untuk adil
distribusi sumber daya web.
Mana-mana komputasi, P2P dan berbagi banyak komputasi grid serius
penelitian masalah, terutama koordinasi perilaku dalam jumlah besar
terdistribusi skala sistem. Mana-mana komputasi membayangkan kecil, relatif
perangkat komputasi bertenaga rendah tertanam di lingkungan
pervasively berinteraksi dengan orang. Ada berbagai kemungkinan imajinatif,
seperti benang cerdas yang dapat ditenun menjadi pakaian. Tapi
tanpa menebak-nebak kecenderungan jelaslah bahwa perangkat yang lebih kecil akan
perlu koneksi nirkabel ke jaringan arsitektur yang memungkinkan otomatis
ad hoc konfigurasi, dan ada sejumlah kesulitan rekayasa
yang terkait dengan masalah (cf. [244, 176]).
Sebagai contoh, penemuan layanan dalam paradigma meresap harus mengambil
tempat tanpa manusia dalam loop. Layanan harus mampu mengiklankan
diri untuk memfasilitasi penemuan. Standar layanan penerbitan
akan diperlukan untuk menjamin keamanan dan privasi, kepercayaan dari layanan
keandalan, kompensasi untuk penyedia layanan, dan tepat bagaimana
layanan akan terdiri dengan layanan dipanggil lain untuk mencapai
beberapa tujuan atau memecahkan masalah yang dihadapi [179].
Ini hanyalah salah satu contoh saat ini berkembang lingkungan komputasi
yang kemungkinan akan semakin penting. Dalam konteks ofWeb Sains
dan mencari dan deskripsi dari invariants dari pengalaman Web,
adalah penting bahwa asumsi kita buat tentang lingkungan,
dan teknologi yang hidup di dalamnya, diminimalkan.
P2P jaringan, ditandai dengan otonomi dari server pusat,
konektivitas intermittent oportunistik dan penggunaan sumber daya [220],
lain adalah lingkungan yang menarik bagi generasi Web berikutnya. Dalam
seperti jaringan (termasuk jaringan file-sharing seperti Napster, komunikasi
jaringan seperti Skype, dan jaringan komputasi seperti
sebagai SETI @ home), komputer menjadi komponen dalam terdistribusi
sistem, dan mungkin melakukan berbagai hal: back up orang lain
file, menyimpan fragmen dienkripsi file, melakukan pengolahan berskala besar
usaha di latar belakang, dan sebagainya. Ada banyak jelas
potensi aplikasi untuk jaringan P2P terstruktur dan tidak terstruktur
dalam konteks Web. Pertanyaan bagi para ilmuwan Web adalah apa yang
fungsi penting bagi pengalaman Web dapat disimpan dalam longgar
ditambah sistem otonomi. Mengingat karakteristik yang tidak biasa P2P,
termasuk nomor yang berpotensi besar dan heterogenitas dari node P2P,
tradisional rekayasa metode seperti eksperimentasi online (yang
akan membutuhkan sejumlah besar unfeasibly pengguna untuk mendaftar ke arsitektur
dan memungkinkan transaksi mereka yang akan dimonitor) atau simulasi besar-besaran
(Skala hanya terlalu besar) akan tidak pantas. Skala
izin dari Web, yang kami akan terus melihat dalam jaringan P2P,
membuat jaringan teori model penting (lih. misalnya [249, 189]), tapi kami
harus mengharapkan eksperimentasi inovasi, radikal dan semangat wirausaha
untuk memimpin upaya dalam bidang ini.
Godaan untuk mengeksploitasi lingkungan radikal desentralisasi seperti
sebagai jaringan P2P pada generasi berikutnya dari Web adalah kuat; desentralisasi
adalah aspek kunci dari keberhasilan Web. Jadi, misalnya, orang bisa
bayangkan P2P jaringan yang digunakan untuk menemukan halaman cache untuk backup di
hal terjadi kegagalan atau kesalahan yang mengarah ke halaman yang hilang atau link menggantung.
Perlu dibentuk apakah kemampuan jaringan P2P untuk melakukan
bahwa (yang sendiri saat ini belum terbukti) akan merusak domain
nama sistem atau mendukungnya.
Sedangkan sistem distribusi P2P mengeksploitasi skala besar untuk mencapai banyak
dari ujung kecil, komputasi grid [102] sering merupakan pendekatan didistribusikan ke
masalah skala besar menggunakan daya komputasi substansial untuk menganalisis besar
jumlah data. Masalahnya adalah mengkoordinasikan perilaku
sejumlah besar komputer, pemanfaatan sumber daya yang tidak terpakai oportunis
seperti P2P; lagi seperti P2P, dan tidak seperti tradisional didistribusikan komputasi, komputasi grid ini dimaksudkan untuk menjadi netral tentang administrasi
atau platform batas. Standar terbuka Oleh karena itu diperlukan, dan
Grid membutuhkan deskripsi abstrak sumber daya komputasi.
Dengan analogi ke Web Semantic, Grid telah melahirkan Semantic
Grid, di mana informasi dan sumber daya komputasi yang dijelaskan
dengan metadata (dan sebagai dengan RDF SW adalah bahasa pilihan),
memungkinkan eksploitasi spesifikasi mesin yang dapat dibaca untuk
otomatis koordinasi sumber daya untuk memecahkan masalah besar skala tertentu
[72]. Penerapan Grid dan Grid Semantic hingga besar
masalah skala menunjukkan janji besar - memang sebagai data dari CERN
Large Hadron Collider akan mulai beroperasi pada gigabyte / detik, Grid
sangat diperlukan.
Grid dan Grid Semantik meningkatkan sejumlah pertanyaan tua di
penyamaran baru. Mengingat bahwa sumber daya komputasi seseorang diberikan ke
luar, kepercayaan dan keamanan akan membutuhkan peninjauan kembali [23]. Sosial,
issue yang menarik adalah memahami apakah akan benar-benar Grid
perubahan ilmu pengetahuan, atau hanya memungkinkan pengolahan data yang lebih dan lebih
[207].
Secara umum, semua paradigma komputasi baru meningkatkan pertanyaan
tentang bagaimana banyak individu yang relatif otonom dapat bekerja sama untuk
menghasilkan hasil yang saling menguntungkan (baik hasil yang bermanfaat untuk masing-masing
individu, atau untuk masyarakat secara keseluruhan). Koordinasi masalah seperti
ini selalu tampak besar dalam banyak disiplin, dan kita seharusnya tidak
akan terkejut menemukan mereka di pusat Web Science.
3.3.3 Personalisasi
Hal ini sering mengklaim bahwa personalisasi itu penting untuk meningkatkan
nilai dari suatu jaringan [81], dan meningkatkan konsumen lock-in [281].
Mengizinkan pengguna untuk menyesuaikan alat-alat mereka dan berarti ruang kerja yang
Web tetap lebih dari commoditised satu ukuran cocok untuk semua daerah dan
malah menjadi sebuah ruang di mana orang dapat mengukir sendiri
niche. Selain itu, mereka juga harus dapat menerima layanan yang lebih baik,
disesuaikan dengan keadaan khusus mereka sendiri dan preferensi,
untuk sama atau hanya sedikit lebih biaya [90]. sistem industri tersebut adalah
jelas aplikasi teknologi [6].
Untuk mendapatkan personalisasi yang efektif, harus ada pemanfaatan yang terintegrasi dari
informasi dari sejumlah sumber, termasuk data tentang pengguna (clickstream
data, download pola, profil online), sumber daya yang
dikirim (konten situs, struktur situs) dan pengetahuan domain, bersama-sama
dengan data teknis pertambangan yang cukup untuk menciptakan pandangan holistik dari
sumber daya yang meliputi sebanyak mungkin informasi yang dibutuhkan pengguna,
dalam representasi yang akan masuk akal bagi mereka, sementara tidak termasuk informasi
mereka tidak akan mau, dan yang bisa memperhitungkan dinamika
sifat model pengguna. Semua itu, sambil tetap mempertahankan hubungan
antara invariants dari pengalaman Web dan konteks tertentu
penggunaan seseorang yang memberdayakan dia untuk klaim sudut
dari dunia maya dan mulai menggunakannya sebagai perpanjangan dari ruang pribadi.
Mengingat bahwa, di Web, informasi yang relevan mungkin sangat
didistribusikan dan dinamis, personalisasi diharapkan dapat menjadi salah satu
besar keuntungan dari Web Semantic, yang unggul struktur yang
memungkinkan penalaran atas sumber data dan didistribusikan.
Ada banyak program teknik berjalan menyelidiki
heuristik untuk personalisasi dari informasi yang tersedia, termasuk
menggunakan mesin belajar [120], ontologi [74, 165], jaringan P2P [126],
dan menghasilkan representasi untuk memfasilitasi pengumpulan informasi pengguna
[74, 157, 223], serta menyediakan lingkungan yang memfasilitasi
personalisasi [136, 53, 194] dan link asosiatif didasarkan pada user-bukan
dari penulis-preferensi [54]. Lain benang penting dari personalisasi
rekayasa adalah pengembangan alat untuk memungkinkan neophytes relatif
untuk menciptakan atau meningkatkan pengetahuan teknik artefak kompleks, seperti
ontologi [213, 211] atau pembungkus [250].
3.3.4 Multimedia
Web adalah lingkungan multimedia, yang membuat untuk kompleks
semantik - ini tentu saja tidak masalah yang unik ke Web. Metareasoning
dan epistemologi sering menganggap media tekstual, bahkan
meskipun sebenarnya banyak penalaran dalam bentuk analog. Misalnya
ahli sering menggunakan diagram untuk mengekspresikan pengetahuan mereka [174, 263]. Ada
memiliki upaya telah menghasilkan taksonomi generatif 'bahasa-seperti'
representasi visual [190], tetapi ini tidak tampaknya telah menarik aplikasi. Beberapa peneliti telah mencoba untuk menemukan
prinsip-prinsip yang mungkin mendasari penalaran diagramatik [60]. Ada
juga telah aplikasi penting untuk decoding representasi visual
untuk [147] gangguan penglihatan dan koleksi gambar visualisasi
terhadap ontologi domain [8]. Pada akhirnya, integrasi multimodal
representasi adegan yang sama atau badan adalah masalah yang sangat keras
[224]. Secara umum, tidak diketahui bagaimana mengambil semantik dari
representasi non-tekstual andal; fenomena ini dikenal sebagai
semantik kesenjangan.
Namun demikian, generasi Web berikutnya tidak harus didasarkan pada
palsu asumsi bahwa teks adalah pencarian dominan dan kata kunci berbasis
akan mencukupi untuk semua tujuan yang wajar [127]. Memang, isu-isu
berkaitan dengan navigasi melalui repositori multimedia seperti video
arsip dan melalui theWeb tidak berhubungan: keduanya kebutuhan informasi
link untuk mendukung browsing, dan keduanya perlu untuk mendukung mesin manual
link traversal. Namun, pendekatan kata kunci mungkin goyah dalam multimedia
konteks karena kekayaan yang lebih besar dari banyak non-tekstual
Media [264]. Pendekatan gambar Google pencarian bergantung pada sekitarnya
teks untuk gambar, misalnya, yang memungkinkan pencarian yang relatif cepat,
dan sekali lagi pada umumnya pengguna seringkali mampu membuat pilihan final
memilah-milah rekomendasi yang disampaikan (gambar kata kunci berbasis
pencarian cenderung menghasilkan banyak hits lebih sedikit, yang mungkin berarti mereka
banyak kemungkinan hilang masuk akal). Kehadiran manusia dalam
loop sulit untuk menghindari saat ini: intervensi manusia dalam proses
mengintegrasikan bahasa visi dengan modalitas lain yang biasanya diperlukan
[224], meskipun ada sejumlah teknik yang menarik untuk menggunakan
struktur yang dihasilkan dari teks yang terkait dengan koleksi gambar untuk
bantuan pencarian dalam konteks terbatas [7].
Tetapi selalu mungkin untuk mengeluarkan lebih banyak sumber daya pada analisis suatu
gambar (katakanlah) untuk menghasilkan pertandingan yang lebih baik untuk pencarian kata kunci,
jika kecepatan tidak merupakan faktor utama [293]. Dalam analisis fitur tersebut, sebuah
isu yang penting adalah kepentingan relatif dari fitur tingkat rendah seperti
'Dominan warna', dan tingkat tinggi, fitur abstrak atau konsep, seperti
sebagai 'Madonna' atau 'masih hidup'. Cari pada fitur-fitur tingkat rendah mungkin cepat
dan lebih akurat, namun pengguna cenderung ingin pencarian cukup abstrak
istilah [121]. Sebagai hybrid menarik telah disarankan bahwa kesenjangan semantik
bisa diisi dengan ontologi dari visual yang mencakup istilah tingkat rendah
dan memberikan semacam pemetaan konsep-konsep abstrak ke tingkat yang lebih tinggi
disajikan dalam query dan metadata [229]. Infrastruktur tersebut telah
telah dibuat, dengan menggunakan (i) ontologi descriptor visual berdasarkan RDF
representasi dari MPEG-7 deskripsi visual, (ii) struktur multimedia
ontologi berdasarkan skema deskripsi-7 multimedia MPEG
dan (iii) pemodelan ontologi inti primitif pada akar konsep
hierarki yang dimaksudkan untuk bertindak sebagai jembatan antara ontologi,
semua ditambah dengan ontologi domain [260]. A penting yang lebih jauh
terbuka adalah isu interoperabilitas teknologi Semantic Web dengan
non-RDF berbasis metadata seperti metadata EXIF di file JPEG atau
tag gambar informal dibuat di Flickr [279]. Pekerjaan lebih lanjut diperlukan
pada hubungan antara kebutuhan manusia dan sistem temu kembali citra
kemungkinan otomatisasi [156, 206], termasuk pemahaman yang lebih dalam
dari kemampuan relatif folksonomi dan ontologi (lihat
Bagian 3.1.4-3.1.5).
Tentu saja, media di sini tergambar adalah foto dan video; terbuka
pertanyaan penelitian tetap tidak hanya tentang seberapa jauh orang bisa masuk
pencarian dengan pendekatan semacam, tetapi juga tentang berapa banyak media akan menyerah
sedemikian pendekatan dengan cara yang terintegrasikan.
3.3.5 pemrosesan bahasa Alam
Akhirnya, ada masalah substansial yang berkaitan dengan pengolahan bahasa alami
(NLP), analisis komputasi data tidak terstruktur dalam teks-teks
untuk menghasilkan pemahaman mesin (pada tingkat tertentu) dari teks yang.
NLP berhubungan dengan Web dalam beberapa cara. Di tempat pertama, alam
bahasa adalah domain yang sangat jarang, dalam kalimat yang paling diucapkan
atau tertulis hanya terjadi sekali atau sangat jarang, dan skala raksasa
Web menyediakan sebuah korpus menarik untuk penalaran NLP. Sebuah angka perkiraan baru-baru ini
untuk ukuran dari Web adalah dua ribu miliar kata, yang
71% adalah bahasa Inggris, Jepang 6,8% dan 5,1% Jerman. Banyak yang relatif
bahasa umum seperti Slovenia atau Melayu yang memegahkan diri kata 100m
online, ukuran yang sama dengan Nasional Inggris digunakan secara luas dan dihormati
Corpus. Ada argumen tentang bagaimana wakil Web adalah sebagai korpus, tapi gagasan tentang apa yang harus mewakili corpus - harus
itu termasuk pidato, menulis, bahasa latar belakang seperti bergumam atau
berbicara dalam tidur seseorang, atau kesalahan misalnya? - Sulit untuk dijabarkan dengan
presisi setiap [167].
Kedua, mengingat masalah skala Web, teknik NLP akan
menjadi penting dalam tugas-tugas seperti summarisation (lihat, misalnya,
Dokumen Memahami tahunan Konferensi - http://duc.nist.gov/
dan [69]), yang dapat memberikan dukungan yang berguna untuk bagian-bagian manusia
tugas pencarian.
Ketiga, NLP memiliki potensi besar untuk pembangunan jenis-jenis
antarmuka intuitif bahwa heterogen dan belum tentu computerliterateWeb
komunitas pengguna membutuhkan. Memang mungkin membantu menjembatani kesenjangan
antara visi SW aWeb terdiri dari data dimanipulasi secara logis,
dan visi yang lebih tradisional dari Web sebagai tempat yang berguna
dokumen diambil. Sebagai contoh, dapat digunakan teknik NLP
untuk menemukan dan mengekspresikan metadata [153]? Teks yang mengandung tidak terstruktur
data sekarang dapat dipetakan ke sumber daya yang ada seperti ontologi untuk
menyediakan markup dan penjelasan, setelah sesi pelatihan awal.
ontologi Computing seperti yang kita jumpai berbeda
dalam tujuan dan struktur dari thesaurus dan taksonomi dari
NLP dunia, meskipun ada perdebatan tentang tingkat dan sifat
dari perbedaan [125, 289]. WordNet, misalnya, bukanlah suatu ontologi
ketat, misalnya yang mengandung unsur leksikal dengan pengertian yang berbeda
di mana suatu ontologi mencoba untuk memastikan interpretasi yang unik untuk istilah
yang digunakannya. Tapi sama WordNet memang mengandung hubungan ontologis seperti diatur
inklusi dan keanggotaan di dalamnya. sumber daya NLP juga memiliki sesuatu
yang sama dengan folksonomi dan sejenisnya, serta pentingnya
perbedaan.
Dari sudut pandang Web Sains, pertanyaan terbuka yang penting
ada untuk hubungan antara NLP dan Web, adalah statistik
teknik yang digunakan dalam NLP atau sebaliknya melengkapi logis
dan semantis berdasarkan teknik interogasi data yang digunakan oleh
SW masyarakat? Atau alternatif ada divisi optimal analitis
tenaga kerja antara dua jenis pendekatan yang kita dapat memanfaatkan?
Banyak tergantung pada bagaimana kita menafsirkan pengembangan Web. Untuk
Misalnya, jika seseorang melihat tugas utama sebagai untuk membubuhi keterangan dan memberikan kaya konteks untuk konten dan struktur ('menjinakkan Web', seperti yang dijelaskan
di [196]), maka NLP akan memainkan peran penting dalam hal itu, termasuk pemetaan
drift dalam arti dari waktu ke waktu [290]. Jika kita memahami Semantic Web
sebagai berfokus pada data dan model database relasional, maka logis
syarat dan URI gigih menjadi pusat.
NLP bekerja dengan baik statistik, SW, sebaliknya, membutuhkan logika
dan belum menggunakan substansial statistik. Bahasa alami
demokratis, seperti yang diungkapkan dalam slogan 'artinya adalah menggunakan' (lihat Bagian 5.1
untuk diskusi lebih dari ini). Setara dalam SW kata-kata
bahasa alami adalah istilah-istilah logis, yang URI yang menonjol. Demikian
kita memiliki disanalogy langsung antara NLP dan SW, yang
yang URI, tidak seperti kata-kata, mempunyai pemilik, dan sehingga dapat diatur. Yang
bukan untuk mengatakan bahwa peraturan tersebut akan menjamin kekebalan dari makna
drift bahwa linguis mendeteksi, tetapi juga dapat memberikan stabilitas yang cukup selama
jangka pendek medium.
Tidak ada komentar:
Posting Komentar