“全息字典”:古今漢字任你查
快捷、權威、形象——準確查找一個難檢字的相關信息再不用跑遍古籍閱覽室,翻便“大部頭”,只需輕點鼠標——登錄漢字全息資源應用系統(tǒng),點擊現(xiàn)代通用字集,搜索要查找的字,不僅能夠顯示其現(xiàn)代字形、字音、字義信息,還可以查到該字從甲骨文、金文到篆書、楷書的歷史字形演變過程,從《說文》《爾雅》《方言》《釋名》一直到《康熙字典》等歷代辭書對該字的釋義,及其在一些常用古籍文獻中被使用的情況。
日前,國家語委重大基礎資源建設項目“通用漢字全息數(shù)據(jù)庫建設”的標志性成果“漢字全息資源應用系統(tǒng)”正式啟動上線。該項目旨在運用現(xiàn)代中文信息處理技術,構建一個具有多維關聯(lián)關系、科學系統(tǒng)、高效實用的漢字全息數(shù)據(jù)庫。
“無論是初學漢字的小學生,還是研究漢字的學者,系統(tǒng)都可以提供相應的幫助?!表椖恐鞒秩?、北京師范大學教授王立軍介紹,系統(tǒng)采用的多層級字集設計模式,包括常用字集、現(xiàn)代通用字集、古籍印刷通用字集、全字符集等。常用字集可以滿足中小學基礎教育領域的一般需要;現(xiàn)代通用字集可以滿足社會文化領域一般漢字使用者的需要;古籍印刷通用字集面向具備一定古漢語知識、閱讀一般古籍文獻的用戶;全字符集則可以滿足漢字研究的專業(yè)人士需求,為專業(yè)研究提供支撐。
借助資源庫,給漢字家族繪家譜
作為一名古文字愛好者和研究者,張華的書桌上擺滿了各種字典、工具書——查找一個字在不同時期形、音、義的演變經常要翻閱多部“大部頭”才能找到相對準確、權威的答案,而線上的一些漢字數(shù)據(jù)庫很多又存在收錄不全、權威性差等諸多問題。如今,“漢字全息資源應用系統(tǒng)”的正式上線可能讓他再不用犯難——借助資源庫,“古今漢字任你查”已不再是夢想。
本期上線的系統(tǒng)涵蓋字符集4種,其中常用字集3500字,通用規(guī)范字8105字,古籍印刷字16490字,全字符集81722字;還有辭書20種,古籍文獻60種,歷代字形圖415675個。其中包括大量的圖形信息資源和文本信息資源,分別來自古文字拓片、文字編、規(guī)范字表、編碼字符集、歷代辭書、經典文獻、中小學語文教材等,涵蓋了古今各個時期文字的形、音、義、用、碼五大方面的重要信息。
這一數(shù)據(jù)庫,可以說是“海量”。如此龐大的信息量,是如何做到相互對應、關聯(lián)的呢?
如果說建立數(shù)據(jù)庫是給漢字家族繪制一張家譜,那么建立關聯(lián)則是搞清譜系、輩分等關系?!笆紫仁菨h字屬性的分解。構建一個具有多角度關系的漢字實用數(shù)據(jù)庫,必須以漢字的屬性作為基本的依托?!北本煼洞髮W教授王寧指出,團隊從20世紀90年代開始總結漢字的屬性,除形、音、義之外,還增加碼、用兩個部分。碼是漢字在計算機中的編碼,用是漢字的使用,而且做了大量的屬性細化研究,這樣就有條件將籠統(tǒng)的漢字個體的資源庫,改造為漢字的屬性庫,解決關聯(lián)的多角度問題。
王寧解釋:“其次是層次的確立,根據(jù)‘漢字效用遞減率’,我們將漢字分為常用-通用-適用-罕用-無用5個層。第一、二層次涵蓋36000字,以外的字只存記憶,不做深度開發(fā),這樣一方面可以在應用中擴大有用信息的使用度,另一方面將垃圾信息、無用信息退出關聯(lián),不干擾有效信息的集合和調用?!?/p>
“再次就是中介的尋求,我們繼承傳統(tǒng)語言學的研究成果,以《說文解字》的9353個小篆及其重文為中介來關聯(lián)。古文字的確切識讀,絕大部分是從《說文》開始的,這樣就保證了不同形制、不同字體、不同時代漢字的最大限度關聯(lián)?!蓖鯇幯a充道,正是依靠《說文》小篆這些“核心家族成員”作聯(lián)系,漢字家族內部不同族群的譜系才得以繪制在一起。
溝通古今,提供漢字準確屬性信息
實現(xiàn)讓通用規(guī)范漢字溝通古文字、繁體字,是該資源庫的又一重要特征。據(jù)介紹,系統(tǒng)的主體字集是國家語委2013年公布的《通用規(guī)范漢字表》的8105個規(guī)范漢字及其關聯(lián)字形?!锻ㄓ靡?guī)范漢字表》屬于簡化字系統(tǒng),分為一級字表(即常用字表,3500字)、二級字表(3000字)、三級字表(1605字)?!锻ㄓ靡?guī)范漢字表》作為數(shù)據(jù)庫子庫的B庫,直接和A庫(傳承字、繁體字和隸定字)關聯(lián),進而與小篆等古文字(C庫)關聯(lián),從而實現(xiàn)了古今、簡繁漢字的有效貫通。
如何保證對收錄的每個漢字形、音、義解釋的權威性?
王立軍介紹,系統(tǒng)的處理方法是:選取歷代具有代表性的辭書,并選擇最優(yōu)的版本作為搭建框架的基礎素材,以此為基礎建構數(shù)據(jù)之間的深度關聯(lián)。選擇的辭書包括從《爾雅》《說文》《釋名》《方言》《廣韻》《集韻》《康熙字典》《漢語大字典》《新華字典》和《通用規(guī)范漢字字典》等。在字形方面,簡化字的部首采用2009年國家語委發(fā)布的《漢字部首表》,即201個主形部首和99個附形部首,非簡化字采用214部首體系,來源于《康熙字典》。簡化字和繁體字的筆畫數(shù)屬性參考《通用規(guī)范漢字字典》等。結構類型(六書)屬性參考《說文解字》。字音方面,現(xiàn)代漢語拼音和注音字母主要參考《通用規(guī)范漢字字典》和民國時期《國語辭典》等;近代音來源于《中原音韻》;中古音來源于《廣韻》。字義方面,常用義項來源于《通用規(guī)范漢字字典》,并給出歷代辭書的釋義內容。
多種屬性的綜合呈現(xiàn),可以加深人們對每個漢字的理解。比如“既然”的“既”和“即使”的“即”,在使用過程中容易混淆,但參考小篆字形就不會了——“既”是一個人背對著飯桌,表示吃完了,這個字就是表示已經發(fā)生了;而“即”是一個人正對著飯桌,靠近它,還沒吃飯,所以是表示即將進行的。了解了這一層面,理解就加深了,也就很難出錯了。
漢字不是一個個“孤零零”的符號,漢語文獻正像軀體的血肉,豐富著漢字殿堂的內容。在每個字的“用例”一欄,系統(tǒng)選取具有代表性的傳世文獻作為古籍用例的來源,包括十三經、二十五史、二十二子等三大典籍系統(tǒng),提取漢字在這些文獻中的使用例句,供研究者參考使用。
多種檢索,滿足不同用戶需求
與查字典類似,方便檢索也是系統(tǒng)的一大特征。為方便使用者更便捷地輸入需要檢索的字,系統(tǒng)提供了單字、拼音、部首、部件、筆畫等五種可輸入的檢索方式,使用者可以根據(jù)自己的喜好和需求,選取適合自己的方式。除單字檢索外,還可以滿足綜合檢索、專書檢索和歷代字形檢索。
“你看,‘典’字是兩只手捧著書卷,這多么形象,對于文史研究者來說用于研究也太方便了,我現(xiàn)在就想擁有。”剛剛演示完動畫,現(xiàn)場主持人、北京師范大學文學院教授康震興奮地說。
“資源庫可作為文字和文化愛好者提高文化知識和綜合素養(yǎng)的學習平臺,為傳統(tǒng)文化愛好者提供權威的學習內容;可以作為基礎教育及漢語國際教育領域的教學平臺,為學生學習、教師備課提供豐富的教學資源,從而更好地服務我國基礎教育;可作為文字學及相關專業(yè)領域專家學者的科研平臺,為專家學者提供對數(shù)據(jù)資源進行深度挖掘的工具,彌補傳統(tǒng)手工獲取資源、聯(lián)系資源方式的局限;可作為漢字類數(shù)字化產品的開發(fā)平臺,為開發(fā)者提供海量的經過專業(yè)學術加工的可靠漢字屬性資源。”王立軍指出。(記者 周世祥 靳曉燕)?
-
大數(shù)據(jù)"坑熟客",技術之罪需規(guī)則規(guī)避
2018-03-02 08:58:39
-
高質量發(fā)展,怎么消除“游離感”?
2018-03-02 08:58:39
-
學校只剩一名學生,她卻堅守了18年
2018-03-01 14:40:53
-
有重大變動!騎共享單車的一定要注意了
2018-03-01 14:40:53
-
2018年,樓市會有哪些新變化?
2018-03-01 09:01:20