萬維網(wǎng)時(shí)代的規(guī)范控制
作者:劉煒張春景夏翠娟
中國圖書館學(xué)報(bào) 2015年08期
1 傳統(tǒng)規(guī)范控制的困境
規(guī)范控制是因圖書館編目而發(fā)展起來的一項(xiàng)工作,是圖書館“書目控制”思想的具體實(shí)踐和重要內(nèi)容,有時(shí)也與“書目控制”概念混用,旨在保障書目系統(tǒng)中重要屬性描述的一致性,滿足準(zhǔn)確查找、辨識(shí)、歸類和判定的要求。規(guī)范控制所涉及的書目屬性通常有:人名、機(jī)構(gòu)名、會(huì)議名、連續(xù)出版物名、圖書題名以及主題詞等[1]。圖書館在長期的編目實(shí)踐中對(duì)規(guī)范控制逐漸形成了一整套規(guī)則和做法,并規(guī)定了用來提供規(guī)范控制依據(jù)的特殊的MARC數(shù)據(jù),稱為規(guī)范記錄,大量的規(guī)范記錄匯集在一起,稱為規(guī)范檔。高質(zhì)量的規(guī)范控制通過對(duì)同名異形進(jìn)行歸一,對(duì)異名同形進(jìn)行區(qū)分,并對(duì)詞間關(guān)系進(jìn)行導(dǎo)引指示,為高質(zhì)量的書目系統(tǒng)提供了必要的保障。規(guī)范控制可以說是圖書館學(xué)對(duì)知識(shí)組織最為獨(dú)特的貢獻(xiàn)。
然而,長期以來,圖書館界對(duì)規(guī)范控制的認(rèn)識(shí)基本上是工具、現(xiàn)象層面的,這種認(rèn)識(shí)上的缺陷,正在成為規(guī)范控制利用最新信息技術(shù),并應(yīng)用到更廣泛相關(guān)領(lǐng)域的障礙。從業(yè)界對(duì)規(guī)范控制的定義中我們就可以感受到這種局限,例如以下定義。
規(guī)范控制是指圖書館編目或書目記錄中所使用的保持標(biāo)目(個(gè)人或團(tuán)體名稱、文獻(xiàn)或叢編題名和主題)一致性的程序。該程序?qū)⒁?guī)范文檔應(yīng)用于新增文獻(xiàn)并將其加入館藏[2]。
權(quán)威控制是通過使用權(quán)威詞表(稱為權(quán)威檔),對(duì)圖書館目錄中或書目記錄文件中標(biāo)目的一致性(包括名稱、統(tǒng)一題名、連續(xù)出版物名和主題)進(jìn)行維護(hù),應(yīng)用于新記錄加入館藏的過程[3]。
規(guī)范控制是為確保標(biāo)目在檢索款目及書目系統(tǒng)中的唯一性和穩(wěn)定性而建立、維護(hù)、使用規(guī)范款目和規(guī)范文檔的工作過程[4]。
這些定義是圖書館界非常典型的認(rèn)識(shí),所描述的都是為達(dá)到檢索一致性的目的,在一定歷史條件和技術(shù)條件下,通過長期實(shí)踐總結(jié)出來的方法和手段,其中還沿用了MARC所代表的磁帶數(shù)據(jù)文件時(shí)代甚至卡片目錄時(shí)代的許多概念。這樣雖然也確實(shí)解釋了規(guī)范控制,但與具體的技術(shù)緊密結(jié)合起來,用具體做法代替了定義,沒有說明為什么,沒有抽象出規(guī)范控制的實(shí)質(zhì)。
如果僅僅根據(jù)上述定義來認(rèn)識(shí)規(guī)范控制,則規(guī)范控制就深深打上了MARC時(shí)代的烙印,越來越陷入人工處理高成本的泥潭中無法自拔。另外,在規(guī)范控制的效率、一致性效果以及影響面和影響范圍等方面不僅無法突圍,甚至難達(dá)初衷。尤其是,規(guī)范控制無法利用技術(shù)進(jìn)步帶來的全面網(wǎng)絡(luò)化、智能化、社群化的優(yōu)勢,更無法應(yīng)用到圖書情報(bào)之外的廣闊天地。傳統(tǒng)的規(guī)范控制不能隨當(dāng)前信息技術(shù)進(jìn)步取得相應(yīng)進(jìn)展,是規(guī)范控制面臨的最大困境。
那么,規(guī)范控制的本質(zhì)是什么?如何在各種技術(shù)條件下(尤其是萬維網(wǎng)環(huán)境下)達(dá)到一定程度的一致性?規(guī)范控制的功能需求是什么?萬維網(wǎng)環(huán)境下是否還有可能進(jìn)行規(guī)范控制?是否應(yīng)該有一個(gè)“度”?這是本文將要探討的內(nèi)容。
2 規(guī)范控制的本質(zhì)
規(guī)范控制的本質(zhì)是實(shí)現(xiàn)基于概念的描述和匹配。解釋這個(gè)問題首先要從傳統(tǒng)目錄發(fā)揮功能的機(jī)制說起。
圖書館目錄是館藏的縮影和指代物,是讀者與館藏資源之間的橋梁。圖書館對(duì)館藏的有序組織主要體現(xiàn)在其目錄體系中。傳統(tǒng)圖書館把卡片目錄的功能發(fā)揮到極致,創(chuàng)造性地采用“標(biāo)目”方式(即將該屬性置于端首)組織目錄體系(排序),這樣一套館藏可以有多套目錄與其對(duì)應(yīng),從而提供了針對(duì)不同屬性(著者、題名、主題、分類、機(jī)構(gòu)、會(huì)議名、期刊名等)的不同檢索途徑,只需將這個(gè)屬性作為標(biāo)目即可。清賬造冊是大多數(shù)涉及倉儲(chǔ)管理的行業(yè)都有的技術(shù),然而只有圖書館的卡片目錄,以上述這種方式,突破了財(cái)產(chǎn)清單或查檢式目錄在排序、互見、多對(duì)多對(duì)應(yīng)方面的局限,非常靈活,這成為圖書館行業(yè)獨(dú)有的創(chuàng)造。
所有的書目記錄都包含三個(gè)要素:標(biāo)目(即檢索點(diǎn))、書目描述和位置信息。檢索點(diǎn)引導(dǎo)讀者找到其所需要的書目記錄,書目描述信息讓讀者判斷是否是其所需要的資源,如果需要?jiǎng)t位置信息提供了獲取方式。這是編目工作所需滿足的基本功能需求。
由此可見,“標(biāo)目”是編目工作中最為重要的一項(xiàng)工作,直接關(guān)系到能否充分、準(zhǔn)確揭示館藏,能否建立起不同館藏屬性標(biāo)目之間的關(guān)聯(lián)關(guān)系等,也即關(guān)系到目錄系統(tǒng)的質(zhì)量,是一項(xiàng)“技術(shù)活”。規(guī)范控制即是對(duì)標(biāo)目的一致性進(jìn)行規(guī)范工作的總稱,主要有兩方面的工作。①規(guī)范記錄(規(guī)范檔)的編制和維護(hù)工作。其中要詳細(xì)記錄異名同義、同形異義或概念名稱之間的關(guān)系等需要規(guī)范的信息,最好能與編目系統(tǒng)以及讀者查詢系統(tǒng)建立連接,才能更好地發(fā)揮規(guī)范數(shù)據(jù)在編目和查詢方面的功能。②編目人員應(yīng)用規(guī)范檔確定正確標(biāo)目形式的工作。原則上,理想狀態(tài)下,這樣做之后,應(yīng)該能夠在圖書館的目錄體系中,或讀者檢索時(shí),將同一個(gè)作者的作品歸并,將同一個(gè)作品的不同版本歸并,將同名的不同作者的作品區(qū)分開,將同一主題及其上下位主題歸并在一起,等等,其他屬性也以此類推,從而實(shí)現(xiàn)規(guī)范控制的“匯集、區(qū)分、導(dǎo)引”的基本功能。
情報(bào)檢索理論中有一個(gè)基本假設(shè),就是任何語詞都是概念的表征。當(dāng)人們看到狗這種動(dòng)物時(shí),在大腦中就建立起狗這個(gè)概念,然后通過“狗”這一文字符號(hào)進(jìn)行表征,這時(shí)“狗”就成了概念的文字標(biāo)簽,即規(guī)范詞,表示的是概念本身,而不再是一個(gè)自由詞。這樣就用規(guī)范的語詞或符號(hào)構(gòu)造了一個(gè)概念空間,在其中所有的檢索都可以認(rèn)為是概念檢索,即知識(shí)檢索。
規(guī)范控制實(shí)際上就是這個(gè)理論的一個(gè)應(yīng)用。通過編目人員所編制的規(guī)范檔(記載了概念與概念表達(dá)——即語詞或符號(hào)——之間的關(guān)系)來建立規(guī)范的概念空間:相同的概念有相同的表達(dá),不同的概念有不同的表達(dá),關(guān)系密切的概念應(yīng)該能夠用一定的表達(dá)明確地描述出它們的相關(guān)關(guān)系。傳統(tǒng)的規(guī)范控制方法希望通過一整套規(guī)則、方法和規(guī)范檔,建立一種人為的規(guī)范控制機(jī)制,應(yīng)用于編目和檢索系統(tǒng)中。如圖1所示,當(dāng)編目人員建立了人名規(guī)范檔之后,書目系統(tǒng)就會(huì)自動(dòng)將魯迅、茅盾、巴金與他們的本名和其他眾多筆名聯(lián)系起來,這樣就能使讀者更準(zhǔn)確、全面地檢索到想要的文獻(xiàn)。
圖1 規(guī)范控制的作用機(jī)制
3 傳統(tǒng)的規(guī)范控制為什么不可能成功?
圖書館幾乎自誕生之日起就以“搜羅并整序人類所有知識(shí)”為己任,這可以追溯到亞歷山大圖書館。圖書館人經(jīng)過長期的努力發(fā)現(xiàn),可以通過編制全球統(tǒng)一書目而達(dá)到掌握人類所有知識(shí)的目的。雖然只是目錄,但未必不能觀照某一歷史時(shí)期的全球知識(shí),這是一個(gè)可行的權(quán)宜之計(jì)。這就是圖書館書目控制的理想。1950年,聯(lián)合國教科文組織和美國國會(huì)圖書館對(duì)書目控制的定義是:從書目的目的出發(fā),控制人類已出版的全部文獻(xiàn)[5]。
從各類編目規(guī)則對(duì)于編目對(duì)象“文獻(xiàn)類型”(GMD)的定義可以看出這個(gè)雄心:在以印刷資料為主要知識(shí)載體的工業(yè)化社會(huì),圖書館的編目對(duì)象幾乎是所有的知識(shí)產(chǎn)品。GMD包括的內(nèi)容如表1所示。
書目控制有兩個(gè)層次的基本職能:了解世界上總共有多少知識(shí)產(chǎn)品;了解某個(gè)圖書館具體有哪些館藏,以及如何獲得這些館藏。前者是宏觀上的需求,圖書館的國際性聯(lián)盟組織(如國際圖聯(lián))長期致力于此,通過各種“書目控制”的行業(yè)規(guī)定和技術(shù)手段力圖實(shí)現(xiàn)這個(gè)目的;后者是微觀上的要求,各國國家圖書館或地區(qū)、行業(yè)、專業(yè)性的大型圖書館,對(duì)本國、本地區(qū)或本領(lǐng)域的圖書館負(fù)有責(zé)任,這是圖書館保存性職能的體現(xiàn),也是圖書館職業(yè)的基本要求。要實(shí)現(xiàn)書目控制,前提是要有統(tǒng)一的編目規(guī)則和數(shù)據(jù)格式(卡片也可以作為一種記錄格式),同時(shí)要有一套操作規(guī)程,規(guī)范控制就是實(shí)現(xiàn)書目控制的必要手段和方法的總稱,有時(shí)也被當(dāng)做書目控制的同義詞。要實(shí)現(xiàn)規(guī)范控制,規(guī)則和規(guī)范檔是兩個(gè)必不可少的要素。長期以來,各級(jí)各類圖書機(jī)構(gòu)對(duì)書目控制進(jìn)行了大量的研究和實(shí)踐,嘗試了很多技術(shù),制訂和維護(hù)了大量的原則標(biāo)準(zhǔn)和規(guī)則規(guī)范。
國際圖聯(lián)等各類國際組織和各國的國家圖書館數(shù)十年來在規(guī)范控制方面做出很大努力,投入了巨大的人力成本,數(shù)百萬條規(guī)范名稱和大量規(guī)范詞表對(duì)于書目信息的有序組織起到了重要作用,使得經(jīng)過圖書館編目的數(shù)據(jù)明顯比其他來源的數(shù)據(jù)更具可信度。
然而規(guī)范控制的美好理想,從來沒有不折不扣地實(shí)現(xiàn)過,人工進(jìn)行規(guī)范控制的這種業(yè)務(wù)模式在信息社會(huì)已顯得不合時(shí)宜。這主要表現(xiàn)在世界范圍內(nèi)規(guī)范控制的標(biāo)準(zhǔn)遠(yuǎn)未統(tǒng)一且各國參差不齊,規(guī)范控制的標(biāo)目字段并未實(shí)現(xiàn)全覆蓋,規(guī)范數(shù)據(jù)的數(shù)量極其有限,質(zhì)量差強(qiáng)人意,等等,規(guī)范控制應(yīng)用的一致性程度和深度都沒有達(dá)到人們所期望的規(guī)模和水平。隨著信息爆炸和知識(shí)載體類型的復(fù)雜化,規(guī)范控制的成本越來越高,效果得不到體現(xiàn),性價(jià)比不高,全面實(shí)現(xiàn)規(guī)范控制的可能性越來越渺茫[7]。以至于美國國會(huì)圖書館在2007年末發(fā)布的《書目控制未來報(bào)告》中幾乎宣布要放棄承擔(dān)書目控制的責(zé)任[8]。
相對(duì)于圖書館的宏大夢想,圖書館所能支配和掌握的資源及武器少得可憐。這種反差一直伴隨圖書館成百上千年的歷史,直到今天。起源于卡片目錄時(shí)代的規(guī)范控制思想,大大超前于卡片目錄所能提供的技術(shù)手段,因?yàn)榻⒁?guī)范檔以及將其應(yīng)用于編目和檢索的復(fù)雜過程,大都需要人工完成,而人是最不可靠的。由人來制訂規(guī)則、執(zhí)行流程、操控機(jī)器,不僅效率極低、成本巨大,而且根本無法保證一致性。在計(jì)算機(jī)技術(shù)突飛猛進(jìn)發(fā)展的時(shí)代,規(guī)范控制方法還一味地模仿卡片目錄時(shí)代的做法,也成為其最大的桎梏。
可以總結(jié)的原因還有很多,如人們在當(dāng)時(shí)的認(rèn)識(shí)存在局限,編目原則和編目規(guī)則本身有瑕疵,各國由于語言和文化的差異造成編目實(shí)踐的特異,以及執(zhí)行中存在的大量細(xì)節(jié)無法詳細(xì)規(guī)定等。從總體上看,真正的原因其實(shí)只有一個(gè):思想太超前,而技術(shù)尚不成熟,又低估了人為執(zhí)行規(guī)則并保證其一致性的難度。正是這個(gè)原因造成規(guī)范控制在MARC時(shí)代成為“不可能的任務(wù)”。卡片目錄時(shí)代,圖書館對(duì)于知識(shí)組織的領(lǐng)先優(yōu)勢,已經(jīng)成為其后來跟不上技術(shù)進(jìn)步潮流的包袱和阻力。
總之,書目控制理論所提出的目標(biāo)過于龐大和理想,以卡片目錄的管理為核心思想而發(fā)展起來的一整套信息描述和知識(shí)組織技術(shù)以及工作流程,遠(yuǎn)不足以支撐規(guī)范控制理想的烏托邦。
4 新技術(shù)帶來新希望
根據(jù)摩爾定律,我們知道近半個(gè)多世紀(jì)以來,成本不變的情況下,計(jì)算機(jī)芯片的集成度一直呈指數(shù)增長,帶來計(jì)算速度、存儲(chǔ)能力和網(wǎng)絡(luò)帶寬的飛速發(fā)展,使我們正來到一個(gè)萬物互聯(lián)、“智慧”無所不在的嶄新時(shí)代的入口。這個(gè)時(shí)代帶給圖書館的,將是重新審視如何完成歷史賦予的各項(xiàng)職能。例如,當(dāng)知識(shí)以脫離載體的多媒體形態(tài)四處游蕩時(shí),圖書館該如何捕獲、處理、保存、組織和提供它,并傳之后代?
如同產(chǎn)業(yè)技術(shù)革命解放了人類的體力一樣,信息技術(shù)革命正在極大地拓展人類的腦力。計(jì)算機(jī)首先解放了人腦的記憶功能,其次讓人的交流不再只依靠文字這種經(jīng)過抽象的媒介,還可以通過視頻、音頻甚至觸覺、味覺(通過各類傳感器)等更加本源的方式進(jìn)行。得益于各類手持設(shè)備、可穿戴電腦和物聯(lián)網(wǎng),將來以視頻等原始信息進(jìn)行交流的方式將越來越大行其道。對(duì)圖書館而言,最大的變化是計(jì)算機(jī)已不僅僅能夠?qū)崿F(xiàn)將圖書先掃描為圖片,圖片識(shí)別成文字,再對(duì)文字進(jìn)行處理的模式,那樣只能進(jìn)行字符匹配,實(shí)現(xiàn)全文檢索,而且可以以語義標(biāo)注的方式直接對(duì)“知識(shí)”進(jìn)行編碼,這樣就能進(jìn)行知識(shí)處理和檢索了。這就是說計(jì)算機(jī)已經(jīng)能接管以往只有人類在大腦中才能建立的概念空間,開始以知識(shí)為編碼和處理對(duì)象,并輔之以邏輯計(jì)算,進(jìn)而向真正的智慧化挺進(jìn)了。
現(xiàn)在看起來上述預(yù)測似乎還很遙遠(yuǎn),但孕育著這一切的技術(shù)有些已經(jīng)蟄伏了近20年,對(duì)于互聯(lián)網(wǎng)技術(shù)而言,20年已經(jīng)跨代了。目前萬維網(wǎng)(World Wide Web)作為互聯(lián)網(wǎng)技術(shù)最成功的應(yīng)用,已成為人類從事信息活動(dòng)的壟斷性平臺(tái),移動(dòng)互聯(lián)網(wǎng)也是其基本協(xié)議的延伸應(yīng)用,所有的新技術(shù)、新應(yīng)用、新模式都必須“觸網(wǎng)”才可持續(xù)并被最多的人群了解。這其中包括以RDF和知識(shí)本體為代表的語義萬維網(wǎng)技術(shù),以社會(huì)性網(wǎng)絡(luò)、群眾智能為代表的Web2.0技術(shù),以及大數(shù)據(jù)、云計(jì)算、商業(yè)智能技術(shù)等。這些技術(shù)經(jīng)過學(xué)術(shù)界和產(chǎn)業(yè)界的不斷打磨,在軟硬件和網(wǎng)絡(luò)環(huán)境的合謀之下,現(xiàn)在終于到達(dá)了一個(gè)爆發(fā)臨界點(diǎn)。在這種背景下,前述規(guī)范控制所面臨的技術(shù)短板可望得到根本性的克服,MARC時(shí)代的不可能任務(wù)有望變成可能。
圖2 規(guī)范控制模型示意
綜上所述,傳統(tǒng)編目工作中的規(guī)范控制過程可抽象為從符號(hào)體系到概念體系的映射過程(見圖2)。書目系統(tǒng)的建立過程就是應(yīng)用概念體系規(guī)范符號(hào)體系的過程,規(guī)范檔的建立則是把符號(hào)體系抽象為概念體系的過程[9],而讀者的檢索過程就是在后臺(tái)用概念體系匹配符號(hào)體系,然后把匹配結(jié)果提供給讀者的過程。只有將這一系列過程充分去除人工因素,實(shí)現(xiàn)流程化、自動(dòng)化,才能保證高效、低成本和準(zhǔn)確性,才能使規(guī)范控制可持續(xù)并得到拓展。萬維網(wǎng)協(xié)會(huì)(W3C)十多年來不斷完善語義萬維網(wǎng)架構(gòu)和眾多的標(biāo)準(zhǔn)規(guī)范,尤其是用以表達(dá)語義的RDF模式和它們的擴(kuò)展(如SKOS、OWL等),以及以RDF數(shù)據(jù)模型為基礎(chǔ)的“關(guān)聯(lián)數(shù)據(jù)”技術(shù)等,其目的正是構(gòu)建概念化的知識(shí)空間,這與規(guī)范控制的功能需求有著完美的契合,如果我們能結(jié)合當(dāng)前日漸成熟的社會(huì)性網(wǎng)絡(luò),充分利用眾包和群眾智慧提供的信息自我完善機(jī)制,并把整個(gè)知識(shí)生產(chǎn)的流程納入元數(shù)據(jù)語義獲取和模型化的過程中來,規(guī)范控制的前景將一片光明。
5 關(guān)聯(lián)數(shù)據(jù)如何滿足規(guī)范控制的功能需求?
從20世紀(jì)90年代開始,國際圖聯(lián)為順應(yīng)書目控制應(yīng)用環(huán)境的變化,對(duì)圖書館書目數(shù)據(jù)的功能需求進(jìn)行了重新審視,采用計(jì)算機(jī)領(lǐng)域流行的實(shí)體—屬性分析方法,提出了一個(gè)顛覆以往的概念模型,并先后推出了三個(gè)功能需求報(bào)告,分別是書目記錄的功能需求(FRBR)、規(guī)范數(shù)據(jù)的功能需求(FRAD)和主題規(guī)范數(shù)據(jù)的功能需求(FRSAD),后兩個(gè)報(bào)告直接針對(duì)規(guī)范控制。
實(shí)體—關(guān)系分析是構(gòu)造模型的常用方法。計(jì)算機(jī)模擬現(xiàn)實(shí)世界必須首先建立模型,對(duì)同一事物,基于不同目的,可以用不同的觀察角度和方法得到不同的模型,也就能解釋不同的現(xiàn)象和因果關(guān)系。國際圖聯(lián)的這三個(gè)功能需求報(bào)告,都是圍繞著第一個(gè)FRBR報(bào)告中提出的書目數(shù)據(jù)模型展開的,該模型將與書目數(shù)據(jù)相關(guān)的實(shí)體分為三類,詳細(xì)分析了這些實(shí)體的相關(guān)屬性和關(guān)系。這三類實(shí)體分別是:第一類書目實(shí)體,有作品、內(nèi)容表達(dá)、載體表現(xiàn)和單件(WEMI)四種類型,第二類代理(agent)實(shí)體,有個(gè)人、家庭和團(tuán)體三種,第三類為主題實(shí)體,包括概念、實(shí)物、事件、地點(diǎn)四個(gè)方面。報(bào)告提出書目記錄的功能需求(用戶任務(wù))為查找(find)、辨識(shí)(identify)、選擇(select)和獲取(obtain),規(guī)范數(shù)據(jù)(authority data)的功能需求是查找(find)、辨識(shí)(identify)、提供情境(contextualize)和證明(justify),而主題規(guī)范記錄(subject authority data)的功能需求是查找(find)、辨識(shí)(identify)、選擇(select)和探索(explore)[10]。
國際圖聯(lián)的系列報(bào)告把圖書館書目控制帶入了一個(gè)新時(shí)代,從此人們看待目錄的方式與以往有了很大不同。FRBR在屬性揭示的基礎(chǔ)上納入立體化的實(shí)體—關(guān)系分析,厘清了許多書目屬性的隸屬關(guān)系,更接近真實(shí)世界,同時(shí)更易于采用最新的計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)進(jìn)行模擬。這些功能需求報(bào)告所提出的理論很快被業(yè)界接受和采用,體現(xiàn)在許多標(biāo)準(zhǔn)規(guī)范中,如作為編目規(guī)則的RDA和作為MARC數(shù)據(jù)格式替代者的BIBFRAME(書目框架)等。雖然,能否借此成功將圖書館書目數(shù)據(jù)帶入網(wǎng)絡(luò)世界尚未可知,但已經(jīng)有了很多有益的嘗試,OCLC已經(jīng)將其WorldCat書目數(shù)據(jù)FRBR化,并開發(fā)了支持關(guān)聯(lián)數(shù)據(jù)服務(wù)的VIAF規(guī)范檔系統(tǒng)[11],美國國會(huì)圖書館也宣布將停用MARC并啟用BIBFRAME,并已把大量的規(guī)范詞表以關(guān)聯(lián)數(shù)據(jù)形式發(fā)布到網(wǎng)上[12]。
不論上述系列報(bào)告中所提出的具體功能需求是否精當(dāng),或者是否還應(yīng)該包括更多的需求,其滿足需求的程度直接取決于規(guī)范控制的質(zhì)量,具體來說,即檢索點(diǎn)選擇、名稱控制、規(guī)范記錄的豐富性以及參照引用是否充分及方便快捷等,而這些方面關(guān)聯(lián)數(shù)據(jù)技術(shù)提供了天然的解決方案,主要表現(xiàn)在四個(gè)方面。
(1)關(guān)聯(lián)數(shù)據(jù)技術(shù)提供了概念獨(dú)立于其表示形式的表達(dá)模型?梢訳RI標(biāo)識(shí)概念,以標(biāo)簽或名稱屬性表示各種語言或符號(hào)的表達(dá),從而使“標(biāo)目”問題得到完美解決,即不需要選擇任何一種優(yōu)先形式(如魯迅)作為標(biāo)目,標(biāo)目就是代表概念的URI,任何同義詞符號(hào)都可以作為顯示標(biāo)簽而被檢索到,系統(tǒng)后臺(tái)直接進(jìn)行同一性處理。當(dāng)然,為了與傳統(tǒng)的規(guī)范記錄在格式上兼容,也可以保留首選詞(preferred name)。
(2)任何屬性都可以作為“檢索點(diǎn)”,也都可以進(jìn)行規(guī)范控制。書目信息中的所有屬性特征,只要有需求,都可以作為“標(biāo)目”或檢索點(diǎn),提供規(guī)范的、基于概念的檢索。當(dāng)然也可以不進(jìn)行詞匯控制,采用一般的全文檢索、字符匹配的方式。
(3)規(guī)范記錄(規(guī)范檔)不再是含混不清的MARC格式,而是可以用清晰記錄語義關(guān)系的RDFS及其擴(kuò)展(如SKOS、OWL)等編碼模式(schema)。例如,美國國會(huì)圖書館推出BIBFRAME,專設(shè)一種“規(guī)范數(shù)據(jù)”格式,就是以RDFS形式表達(dá)規(guī)范數(shù)據(jù),所涉及的概念術(shù)語及各種屬性關(guān)系、約束關(guān)系及取值范圍等,均能以機(jī)器可讀的方式代碼化,包括各類功能需求模型(如FRBR/FRAD/FRSAD等)所規(guī)定的'各種關(guān)系。
(4)萬維網(wǎng)的全球一體化環(huán)境為分布式規(guī)范控制的自動(dòng)更新和同步機(jī)制提供了很好的平臺(tái)。通過Web服務(wù),各類參照關(guān)系可以跨域整合和自動(dòng)服務(wù),實(shí)現(xiàn)包括編目和檢索過程的各類功能需求。國際組織和各國的國家圖書館通力協(xié)作,還可以引入社會(huì)化眾包模式進(jìn)行規(guī)范檔的更新糾錯(cuò)維護(hù),利用大數(shù)據(jù)分析進(jìn)行自動(dòng)的規(guī)范術(shù)語獲取和推薦等。這些都是MARC時(shí)代根本無法做到的。
只有這種依靠最新計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)自動(dòng)化的管理,才能將各類編目原則和具體規(guī)則(如RDA/AACR2等)代碼化、語義化,應(yīng)用并融合到規(guī)范控制的整個(gè)過程中去,才有可能克服人工流程的各種不一致情況,實(shí)現(xiàn)規(guī)范控制的最大訴求。
6 萬維網(wǎng)規(guī)范控制
萬維網(wǎng)時(shí)代是一個(gè)信息嚴(yán)重過剩,而知識(shí)十分稀缺的時(shí)代,掌控人類所有知識(shí)的書目控制理想雖然越來越遙不可及,但也絕非應(yīng)該被拋棄,反而更加彰顯價(jià)值,在科研、教育、生產(chǎn)等領(lǐng)域更應(yīng)得到重視。
對(duì)于歷史上已經(jīng)出版的文獻(xiàn),已有OCLC這類國際機(jī)構(gòu)以及世界各國的國家圖書館實(shí)現(xiàn)了基本的書目控制。當(dāng)前最大的任務(wù),是將這些書目信息向萬維網(wǎng)遷移,使之成為人們隨時(shí)可用的參考,這就需要為書目數(shù)據(jù)制訂新的、適應(yīng)互聯(lián)網(wǎng)時(shí)代的格式和交換標(biāo)準(zhǔn)。目前,OCLC針對(duì)WorldCat這一全球聯(lián)合的書目數(shù)據(jù)庫研發(fā)出符合Schema.org規(guī)范的書目數(shù)據(jù)擴(kuò)展格式,能夠?qū)啃畔⒁訰DF形式嵌入到網(wǎng)頁中,從而能被搜索引擎所收割和識(shí)別。OCLC還聯(lián)合美國國會(huì)圖書館等機(jī)構(gòu),研發(fā)了規(guī)范檔的關(guān)聯(lián)數(shù)據(jù)服務(wù)虛擬國際規(guī)范檔(Virtual International Authority File,VIAF)。另外,美國國會(huì)圖書館也開發(fā)了符合關(guān)聯(lián)數(shù)據(jù)規(guī)范的BIBFRAME書目數(shù)據(jù)格式,其中規(guī)范數(shù)據(jù)是其四種數(shù)據(jù)類型之一。此外,還有大英圖書館、德國國家圖書館等一大批國家圖書館都將自己的國家書目發(fā)布成了關(guān)聯(lián)數(shù)據(jù)。這些新的數(shù)據(jù)規(guī)范一方面充分考慮與過去的MARC數(shù)據(jù)兼容,保證書目數(shù)據(jù)的語義內(nèi)容能夠遷移到新的系統(tǒng)中,另一方面也為未來的書目控制探索了可行的技術(shù)方案。
對(duì)于萬維網(wǎng)時(shí)代“原生”的“文獻(xiàn)”如何進(jìn)行“書目控制”,除了國際圖聯(lián)的一些報(bào)告,或?qū)W者的論文之外,并無系統(tǒng)的研究。萬維網(wǎng)時(shí)代“文獻(xiàn)”的概念已發(fā)生了巨大變化,按照“文獻(xiàn)是記錄有知識(shí)的一切載體”[13]的經(jīng)典定義,它在數(shù)字時(shí)代可以以任何形式和媒體形態(tài)呈現(xiàn),其負(fù)載的內(nèi)容和載體可以完全分離,甚至“碎片”化、“數(shù)據(jù)”化了,它還可以同時(shí)呈現(xiàn)于用戶的任何終端設(shè)備上!皶俊钡暮x也隨之發(fā)生改變,可以是對(duì)任何知識(shí)單元的描述,并且不局限于圖書館行業(yè),至少包括博物館、美術(shù)館、檔案館等在內(nèi)的所有“記憶機(jī)構(gòu)”都有類似的“書目控制”需求。
這些變化一方面使得“書目控制”的數(shù)量有了很大增長,內(nèi)容類型也大大超出以前的范圍;另一方面值得進(jìn)行書目控制的內(nèi)容在知識(shí)總產(chǎn)出中所占的比重將會(huì)越來越小,大量的知識(shí)產(chǎn)出由于各種原因不需要或無法進(jìn)行“控制”,圖書館的書目控制距離涵蓋所有知識(shí)載體類型的夢想將會(huì)越來越遠(yuǎn)。不嚴(yán)格地說,搜索引擎才是目前互聯(lián)網(wǎng)信息的最大“控制”者,雖然目前它只具備少量的規(guī)范控制功能,但語義萬維網(wǎng)技術(shù)正在使搜索引擎能夠索引知識(shí),谷歌的知識(shí)圖譜(Knowledge Graph)、Wolfram Alpha[14]等就預(yù)示著這個(gè)發(fā)展方向。
因此,未來的書目控制將只能存在于某些特定的、有規(guī)范控制需求的領(lǐng)域,例如科學(xué)研究、工程管理、社會(huì)運(yùn)行、產(chǎn)業(yè)經(jīng)濟(jì)、教育媒體等,這些領(lǐng)域需要通過付出額外的人力和其他成本來獲取一定的有序性,要求越高,成本越大。類似化學(xué)文摘社(CAS)這樣的基于知識(shí)的規(guī)范控制,永遠(yuǎn)是有需要的,只是它主要由人工來完成標(biāo)引加工的業(yè)務(wù)模式會(huì)發(fā)生變化。將來大多數(shù)的元數(shù)據(jù)加工和規(guī)范控制工作應(yīng)該無需專門的編目人員去做,規(guī)范信息將越來越多地能夠伴隨知識(shí)的生產(chǎn)、流轉(zhuǎn)等生命周期過程中,由軟件或系統(tǒng)自動(dòng)生成和附加。
語義萬維網(wǎng)技術(shù)為萬維網(wǎng)時(shí)代的規(guī)范控制提供了原生的解決方案,但如何做卻主要不是技術(shù)問題,而是一個(gè)管理和決策問題,不同的應(yīng)用領(lǐng)域有不同的需求,資源情況和業(yè)務(wù)流程也不一樣,因此也決定了不同的實(shí)施成本,這就帶來一個(gè)規(guī)范控制的“度”的問題,不是說越嚴(yán)格的規(guī)范控制就越好,科研成果和文學(xué)作品的要求肯定是不一樣的,雖然雙方都很關(guān)注責(zé)任者的標(biāo)注,但在內(nèi)容揭示方面,對(duì)于前者顯然希望更準(zhǔn)確地揭示(如前面列舉的化學(xué)文摘的例子),而對(duì)于后者,如果我們希望把文學(xué)作品里的雙關(guān)、反諷、隱喻、幽默以及話里有話也標(biāo)注出來的話,顯然失去了欣賞的意義。
從技術(shù)的角度,Burners-Lee提出的關(guān)聯(lián)數(shù)據(jù)四原則和五星級(jí)標(biāo)準(zhǔn)[15]提供了規(guī)范控制嚴(yán)格程度的參考;從書目控制角度,規(guī)范檔的豐富程度也決定了規(guī)范控制的“高級(jí)”程度。然而,總體上萬維網(wǎng)環(huán)境下的規(guī)范控制只能追求合適,無法追求完美。評(píng)價(jià)是否合適主要是以能否滿足需求為標(biāo)準(zhǔn),即在多大程度上滿足了規(guī)范控制在特定領(lǐng)域的功能需求,如前述國際圖聯(lián)功能需求研究報(bào)告中總結(jié)的查找、辨識(shí)、提供情境、證明、選擇和探索等,以及更多的本地需求。需要選擇哪些屬性做規(guī)范(即標(biāo)目),以及是選擇控制詞表的方式進(jìn)行嚴(yán)格規(guī)范,還是僅僅定義屬性元素的定義域和值域,以及數(shù)據(jù)類型或數(shù)據(jù)之間的關(guān)系,這些都可以由具體應(yīng)用來決定。這些其實(shí)就是MARC規(guī)范檔中所記錄的內(nèi)容,一旦決定,都可以以RDFS方式進(jìn)行形式化編碼,使機(jī)器可讀、可校驗(yàn)甚至可解析參考。
7 一些實(shí)例
把書目數(shù)據(jù)的揭示和服務(wù)遷移到互聯(lián)網(wǎng)上,是近20年來圖書館界探索得最多的主題,其中以美國國會(huì)圖書館于2012年底推出的BIBFRAME書目框架格式草案和OCLC虛擬國際規(guī)范檔的嘗試最為著名,且影響深遠(yuǎn)。然而僅多一種兼容過去的書目數(shù)據(jù)格式是沒有意義的。
(1)美國國會(huì)圖書館的BIBFRAME Authority規(guī)范數(shù)據(jù)格式
書目框架(BIBFRAME)是美國國會(huì)圖書館于2011年啟動(dòng)的一項(xiàng)研究計(jì)劃,它的目的是開發(fā)一種“適應(yīng)未來需求”的書目數(shù)據(jù)格式,即BIBFRAME,逐步取代MARC,使書目數(shù)據(jù)在萬維網(wǎng)上被方便地發(fā)布和共享。該格式應(yīng)用了關(guān)聯(lián)數(shù)據(jù)技術(shù),能夠?qū)D書館及相似機(jī)構(gòu)的各類館藏資源進(jìn)行描述和編碼,規(guī)范數(shù)據(jù)是BIBFRAME四種數(shù)據(jù)類型之一(其他三個(gè)分別是作品、實(shí)例和注釋)[16]。
書目框架定義的規(guī)范數(shù)據(jù)格式并非要取代其他的規(guī)范控制方法,而是作為一種容器,提供一個(gè)輕型的抽象層,使規(guī)范控制在萬維網(wǎng)環(huán)境下更加有效地發(fā)揮作用。它既要實(shí)現(xiàn)傳統(tǒng)規(guī)范控制對(duì)作品、實(shí)例及其相關(guān)的作者(人物及角色)、機(jī)構(gòu)、主題、事件等要素的規(guī)范功能,兼容傳統(tǒng)的MARC規(guī)范檔數(shù)據(jù),又有許多新的網(wǎng)絡(luò)化特點(diǎn),如支持向其他規(guī)范數(shù)據(jù)服務(wù)(例如VIAF或DBPedia)的外鏈、支持規(guī)范檔的編碼描述以及對(duì)數(shù)據(jù)的屬性取值提供自動(dòng)的鏈接解析校驗(yàn)等。BIBFRAME的規(guī)范控制定義了四個(gè)子類:代理(agent)、地點(diǎn)(place)、時(shí)間(temporal)和主題(topic),并對(duì)它們的編碼做出了具體規(guī)定(見圖3),MARC規(guī)范記錄中的屬性描述基本上都能轉(zhuǎn)換成書目框架的RDF陳述來表達(dá)。
圖3 BIBFRAME規(guī)范控制模型
(2)OCLC的虛擬國際規(guī)范檔(VIAF)
VIAF是美國國會(huì)圖書館(LoC)、德國國家圖書館(DNB)和OCLC于1998年發(fā)起的一個(gè)規(guī)范數(shù)據(jù)服務(wù)研究項(xiàng)目,2007年法國國家圖書館加入,2012年成為OCLC的一項(xiàng)服務(wù)。VIAF利用了關(guān)聯(lián)數(shù)據(jù)技術(shù),將各國國家圖書館的規(guī)范名稱數(shù)據(jù)集成在一起,提供全球范圍的規(guī)范數(shù)據(jù)服務(wù)。至2014年7月,其成員已發(fā)展到29個(gè)國家34個(gè)機(jī)構(gòu),包含了來自30個(gè)國家的35個(gè)圖書館的數(shù)據(jù),還在不斷接收新的成員。
雖然分布式計(jì)算并不要求數(shù)據(jù)集中存儲(chǔ),但VIAF這種將各成員館規(guī)范數(shù)據(jù)整合在一起的做法,無疑有利于項(xiàng)目實(shí)施和統(tǒng)一管理;ヂ(lián)網(wǎng)環(huán)境下非常需要規(guī)范數(shù)據(jù)的統(tǒng)一服務(wù),這對(duì)于全球圖書館的數(shù)據(jù)加工,以及圖書館數(shù)據(jù)面向整個(gè)互聯(lián)網(wǎng)的開放存取都有巨大好處。OCLC作為一個(gè)圖書館的聯(lián)合體,其自身并無能力生產(chǎn)數(shù)據(jù),但是它可以通過前瞻性的研究開發(fā),將大家的數(shù)據(jù)整合起來提供更好的服務(wù),WorldCat是這樣,VIAF也是這樣。
作為開放關(guān)聯(lián)數(shù)據(jù)的一員,VIAF已能集成其他關(guān)聯(lián)數(shù)據(jù)(如DBpedia、Wikidata等)作為規(guī)范數(shù)據(jù)(見圖4),而且其所規(guī)范的內(nèi)容也不僅僅是人名、機(jī)構(gòu)名、地名、統(tǒng)一題名、主題等,還有許多其他名稱或概念(如虛構(gòu)人物、動(dòng)物、國王、主教、圣徒、天使、總統(tǒng)、城市、湖泊、山川等),它還考慮和采用了標(biāo)準(zhǔn)的名稱標(biāo)識(shí),如ISNI、ORCID等,將來的服務(wù)也不局限于圖書館領(lǐng)域。截至2014年6月,VIAF已有3516萬人名數(shù)據(jù),543萬機(jī)構(gòu)數(shù)據(jù),388萬題名數(shù)據(jù)和42萬地名數(shù)據(jù)[17]。
康奈爾大學(xué)發(fā)起、多個(gè)研究機(jī)構(gòu)參與的VIVO項(xiàng)目,看似一個(gè)科學(xué)家的社會(huì)性網(wǎng)絡(luò),但實(shí)質(zhì)上是科學(xué)家人名的規(guī)范控制,它不僅采用了科學(xué)家個(gè)人、研究機(jī)構(gòu)和專業(yè)人員(如圖書館員)合作建立規(guī)范數(shù)據(jù)的模式,而且采用語義萬維網(wǎng)技術(shù)管理和發(fā)布數(shù)據(jù),以應(yīng)用程序接口(API)方式提供規(guī)范數(shù)據(jù)的參考引用服務(wù)[18]。另外,近年來有一項(xiàng)由博物館界發(fā)起的“開放規(guī)范項(xiàng)目”(Open Authority)[19],嘗試匯集圖書館界與博物館、美術(shù)館等人類記憶機(jī)構(gòu)的各類資源,利用社會(huì)性網(wǎng)絡(luò),采用眾包的方式,共同開發(fā)規(guī)范控制服務(wù)。維基百科也在實(shí)施一個(gè)類似的Wikidata項(xiàng)目[20],采用維基百科的方式,將海量的各類事物、概念的名稱,以關(guān)聯(lián)數(shù)據(jù)的方式發(fā)布,并支持解析和引證。西班牙格拉納達(dá)大學(xué)(Universidad de Granad)基于Drupal開發(fā)的規(guī)范控制Authoris系統(tǒng)[21],支持MARC等格式或符合FRBR/FRAD模型的數(shù)據(jù)以關(guān)聯(lián)數(shù)據(jù)形式發(fā)布,并提供較為完善的編輯、引用和發(fā)布功能。
圖4 VIAF中魯迅的條目
8 結(jié)語
“在今天的環(huán)境下,書目控制不能再被看做局限于圖書館目錄。”
“書目控制未來將是合作的、去中心化的、國際范圍的、基于WEB的!
“單一環(huán)境(如圖書館目錄)中描述(著錄)的一致性,與各種環(huán)境間進(jìn)行連接的能力相比,正變得不那么重要!盵22]
以上論斷來自美國國會(huì)圖書館2007年發(fā)布的《書目控制未來報(bào)告》,該報(bào)告預(yù)言了一個(gè)新時(shí)代的到來,雖然我們剛剛站在門口,但已看到巨大的機(jī)會(huì)和挑戰(zhàn)。上述基于萬維網(wǎng)的規(guī)范控制努力反映了一種發(fā)展趨勢,即傳統(tǒng)的圖書館知識(shí)組織和整序工作,在互聯(lián)網(wǎng)時(shí)代還是有價(jià)值的,圖書館行業(yè)數(shù)百年積累起來的書目控制經(jīng)驗(yàn),如果能充分利用好現(xiàn)代信息技術(shù)所提供的強(qiáng)大工具,不僅能實(shí)現(xiàn)過去沒有實(shí)現(xiàn)的理想,而且能在更大范圍內(nèi)發(fā)揚(yáng)光大。
作者介紹:劉煒,上海圖書館副館長,研究員,E-mail:wliu@libnet.sh.cn;張春景,上海圖書館協(xié)調(diào)輔導(dǎo)處副研究員;夏翠娟,上海圖書館系統(tǒng)網(wǎng)絡(luò)中心研究開發(fā)部高級(jí)工程師,上海 200031
【萬維網(wǎng)時(shí)代的規(guī)范控制】相關(guān)文章:
財(cái)務(wù)內(nèi)部控制基本規(guī)范01-16
網(wǎng)絡(luò)時(shí)代漢語借詞的規(guī)范08-16
什么是萬維網(wǎng)WWW,萬維網(wǎng)具備哪些特點(diǎn)? -電腦資料01-01
內(nèi)部控制規(guī)范—固定資產(chǎn)07-27
網(wǎng)絡(luò)經(jīng)濟(jì)時(shí)代企業(yè)的控制方式01-20