ndap
關於本計畫
數位化流程圖
未來計畫
版權聲明
CBETA
法鼓佛教學院
數位典藏科技計畫
首  頁 已建經目 國圖善本目錄 相關知識 佛教藏經目錄

嘉興藏作業最大的困難--缺字處理

 
簡單的說,嘉興藏最大的困難在於「缺字處理」。比如這個本文:
 
 
經過「缺字處理」程序,變成如下文字:
 
J29n0223_p0082c05║  寄禪師
J29n0223_p0082c06║行道於此世自非應真悲願力孰能為之湖海之
J29n0223_p0082c07║大土地之廣披緇者不下幾千萬而千萬中
J29n0223_p0082c08║人半人維持大寧非願於乎客秋聞會城
J29n0223_p0082c09║不勝傷感然去住亦有數實非強勉第此運正
J29n0223_p0082c10║抱道之士補門之失亦是我輩所切禱何期
J29n0223_p0082c11║小拂逆不能不一痛恨也聖恩佛告圜欲行
J29n0223_p0082c12║一會以退隱之地所羈不獲如念萬為愛弗
 
再如這個:
 
 
經過「缺字處理」程序,變成如下文字:
 
J29n0223_p0082c15║  又
J29n0223_p0082c16║過水大雲菴得佳集讀之見公入祖室所以開
J29n0223_p0082c17║發衲子其精意宛古人意不不使人愛慕也邇
J29n0223_p0082c18║來病骨日見沈困不能即西山一夜話袪胸茅之
J29n0223_p0082c19║憶客秋門人至以先臥龍艸刻並小字不達記
J29n0223_p0082c20║室不余自甲午誅茅高藍諸方愈加憎嫉甚至記
J29n0223_p0082c21║載總不足所獨憂者門一耳方之怪水石
 
假如我們把上面的紅字一五一十的採用組字式來記錄,讀者一定會被一堆怪字卡住。
 
在方法上,這並不是單純的透過「組字→通用字」取代表來完成,因為許多缺字(組字或大黑點●),它並沒有「一對一」的通用字,我們必須就前後文意去抉擇一個適用的通用字。
比如 [目*示] ,它的通用字可能是「示」或「視」,那就必須一一從前後文來判斷該用「示」或「視」。
 
這等於是在製作一個「現代讀本」的嘉興藏選輯,字的問題真的是很大的挑戰。
 
在處理文字時,若發現是 BIG5 以外的字元,詳細的處理程序有以下五個考慮點:
  • 有「一對一」對應的 BIG5 通用字
    • 採用 BIG5 通用字
      • 如 [直/心] 採用 德
  • 有「一對多」對應的 BIG5 通用字
    • 按前後文擇選適當的 BIG5 通用字
      • 如 [目*示] 採用 示 或 視
    • 前後文若不明則保留組字式
      • 如 [目*示] 若不明文義則仍然作 [目*示]
  • 沒有對應的 BIG5 通用字
    • 採用組字
      • 如 [卄/別] 仍然作 [卄/別]
  • 若發現有 BIG5 通用詞則採用 BIG5 通用詞
      • 如 [仁-二+唐][仁-二+突] 採用 唐突
  • 若發現是「形近而誤」或「因俗而誤」則採用 [A>B] 修訂
      • 如 [仁-二+且] 修訂作 [[仁-二+且]>但]
主要參考的字典及詞典有:
  • 《教育部異體字字典》
  • 《漢語大字典》
  • 《漢語大詞典》
  • 《新修康熙字典》
  • 《正中形音義綜合大字典》
上述字詞典查無者,以檢索「CBETA 電子佛典」作為佐證參考。
 
 
 
 
  數位典藏國家型科技計畫----「台北版電子佛典集成之研究與建構」
Tel:(02)2498-0707#2254
E-mail:sraddhabala@gmail.com
Address:20842 台北縣金山鄉西勢湖2-6號 法鼓佛教學院