近期,合合信息聯合上海大學、華南理工大學發布業內首個古彝文基礎編碼數據庫,該項目由合合信息與上海大學社會學院、華南理工大學文檔圖像分析識別與理解實驗室共同推進,針對現有的《西南彝志》、雲貴一帶字符,以智能圖像處理、智能文字識別等AI技術開展統一編碼,古彝文在數字社會中從此有了「身份證號碼」。
以往,古文字主要通過人工識別、校正和進行文獻編撰,工作量繁多且效率低下。近年來,人工智能,特別是深度學習技術的發展,為古文字識別提供了高效的工具,極大地提高了古代文獻和文字數碼化進程的速度和效率,本次古彝文基礎編碼數據庫的發布,將成為古文字數碼化的重要成果之一。
當前,古彝文數碼化方面的成果相對較少,其原因之一是古彝文字符集龐大,且缺乏成熟的手寫樣本庫。據《滇川黔桂彝文字集》中所有字符的合計,古彝文和現在仍然使用的各地的彝文,總數多達87046字,對如此龐大的字符集進行分類非常困難。另一方面,在彝文的發展過程中,由於種種因素,導致異體字、變體字特別豐富,字符和釋義「一對多、多對一」是常態。古彝文手寫體的隨意性、多樣性等,都給古彝文的識別帶來了極大的挑戰。
基於上述情況,合合信息與華南理工大學共同成立的文檔圖像分析識別與理解聯合實驗室,聯合上海大學社會學院組建研究團隊,共同解決數據庫建設中的學術性、技術性難點。
項目技術負責人、華南理工大學電子與信息學院教授金連文表示,原生態彝文此前沒有被系統性地進行數碼化編碼,古彝文沒有公開數據集,標註困難,所以從最初語料的收集開始,就需要做大量的前置工作。再者,古彝文異體字繁多,每個字的異體寫法少則兩三種,多則幾十種,且字體間風格差異大。因此,建立一個專門的數據庫,通過基礎編號將不同樣式歸納,才能「破解」古彝文「一對多」的關係,解決文字查詢問題。
在對7萬6千字符的樣本進行訓練後,團隊成功建立了包含上千個古彝文基礎編碼的數據庫。通過API數據接口等形式,該數據庫有望幫助高校研究人員、文化工作者、興趣愛好者等人群快速找到古彝文在字典中的讀音、漢語釋義、用法,如同「大字典」一般,幫助人們降低古彝文書籍、文獻閱讀的門檻。
「古彝文數據庫的發布並非一個最終的研究結果,而是一項非常重要的基礎性工作。」古彝文數碼化項目發起人、上海大學人類學民俗學研究所講師邵文苑表示,基礎編碼的發布,意味着這些文字在數字社會裏從此擁有了「身份證號碼」,能夠被更多地展現在網絡空間上,被更廣泛的人群看見、認識、研究。(宋健)