位置:首页历史解密>刘凌、刘志基 | 数字时代的民族古文字研究

刘凌、刘志基 | 数字时代的民族古文字研究

所属分类:历史解密 编辑:文汇报 访问量:3121 更新时间:2023/12/6 2:43:05

中国是一个历史悠久的多民族国家,很多民族在不同历史时期创制并使用自己的民族字,形成了数量巨大、内容丰富、各具特色的少数民族古文字文献。这些文献是研究相关民族的语言文字、历史文化的最重要的一手资料,承载着各民族独特的血脉,更可与汉文典籍相互勘正补充,具有特殊的文化和学术价值;它们可以真实、全面地揭示各民族关系史,对增强民族团结、维护国家统一、筑牢中华民族文化共同体具有无可替代的作用。

从二十世纪九十年代至本世纪初的十年间,这些珍贵的民族古文字文献经历了一个发掘整理的高潮。大量民族古籍获得抢救,其中一部分得到整理、译注与出版,主要表现在满文、藏文、西夏文、蒙古文、彝文、纳西东巴文、水文等文献的整理刊布上。但已抢救资源的现状并不乐观,突出表现在:已抢救资源因缺少专业整理而在各机构大量闲置;一部分古籍老化、破损严重,缺少保护和修复条件;已出版文献多采取直接影印形式,抢救大于整理。在传统模式下,民族古文献的传承与开发已面临困境。

幸运的是,经过近二三十年的发展,运用数字化、智能识别手段进行民族古文字文献保护和开发已成大势,相比传统模式取得了诸多进展。

已有的民族古文字文献数字化和智能化建设情况,可以从四个方面加以述评。

一是民族古文献原貌保真式数字存储。即对民族古文献进行缩微、电子扫描等数字化制作、存储,实现部分民族古文献原貌的保存,这是当前民族古文献数字化的主要方式,着重于资源抢救和保护。

这类成果普遍存在的问题是:对数字资源缺少系统的整理、校勘与注释,文献编目、索引做不到充分匹配,各单位制作的数字图像质量与整理水平也参差不齐。

二是民族古文字处理系统开发。包括民族古文字在国际标准字符集的编码、字库建设、文字输入与检索实现,以及民族古文字排版系统开发、字形标准化等,这方面的成果极其丰富。

然而,对于民族古文字处理系统的研发,各家都有自己的解决方案,可以满足一定范围的使用,但标准不统一、技术不兼容,难以通用共享。另外,大多数文字整理是基于字典、辞书等二手资料,忽略了对面貌复杂的一手文献的精细化整理,导致文字处理系统不能满足实际需要。

三是民族古文献数据库建设。其中可以分成三大类:民族古文献书目数据库、图像数据库和全文数据库。各机构基本上都是先对古文献进行编目、扫描整理原文图像,然后以书目数据库与原文图像相挂接的模式实现数字化。已有成果集中在材料大宗的藏文、蒙文、西夏文、东巴文、彝文等民族古文献数据库建设上。也有部分民族古文献建立了全文数据库,如藏文典籍和满文档案。

在数据库建设中,普遍存在着著录标准、书目分类法标准、索引标准不统一的情况;尤其是图像数据,存储格式标准、数字化影像标准不兼容等技术问题,严重影响资源的检索利用和共享。此外,各单位资源重复建设、彼此不开放,也是亟待解决的问题。

四是民族古文字智能识别研究。目前多种民族古文字都在积极进行文字识别技术的探讨,各家研究最大的关注点,是希望利用图像识别技术实现民族古文献从数字图像自动、批量转换为数字文本,从而大规模建设全文数据库,实现文献批量翻译,满足共享与开发需求。比较成功的例子是中国第一历史档案馆2018年公布的“满文档案图像识别软件系统”,该系统实现了手写体满文批量识别。

但目前能够实现规模化文字图像识别的民族古文字极少,文字识别带来的实际产出也很少。主要问题有二:首先,文字识别的共同思路,是使用计算机切分、提取字的特征,使其与机器中预先存放的特征集(字库)进行匹配、判别,从而将字图自动转换成文本代码。这需要有预先建立的字库作为训练样本和测试标准,但识别技术研究者所建立的样本数据库容量极小、样本选择不科学,相较民族古文献的实际复杂情况和巨大数量,根本无法支撑起真实存在的民族文字材料的识别。其次,在文字识别的目标上,仅关注文字释读和文献的批量翻译,未能充分发掘文字识别带来的多方面效益。

综上可见,民族古文献数字化建设具备了一定基础,但整体而言操作有欠条理,投入与产出不成比例,迄今还集中在资料的抢救、整理、输入、排印等初级层面。如充分借力数字化和智能化手段推进民族古文字相关研究,仍旧是一个严峻的课题。今后的努力方,至少可以包括以下三个方面。

首先是统一标准,实现数字资源共存共享。数字化建设在多个方面需要统一标准。一是文字处理标准的统一。各类民族古文字的字符集,都应争取在国际字符集标准中编码,暂时不能编码者,应尽量使用统一字体,或提供跨字体转换的基础条件。二是文献各级分类标准的统一,包括著录标准、书目分类法标准、索引标准,以及对文献内部的字词意义分类、文献类型分类标准等。三是语料的同义认同。不同种类的民族古文字材料,如要实现各种内在关联,就要在共同的分类框架下,通过概念层面的意义分类、语言文字层面的同义系联,实现材料的逐级类聚,使多文种、多类型文献中的语言文字单位找到彼此的同义对应项,从而通各类材料,打通数据库内部所有数据的关联。四是数字化处理程度的统一,统一的标准是就高不就低。做到上述标准统一,是实现资源共享的基础。

另外,应当借助文字智能识别,打通民族古文字的内在关联。民族古文字输入数据库有两种形式,一是文字输入,二是保真的原文图像输入。前者借助电脑字符集的编码,可被计算机自动识别;而图像载体形式的古文字,目前唯有借助图像识别技术,才能创建计算机可以自动识别的信息码,打通数据库全部数据链,进而实现民族文字内部数字资源的彻底关联。

我们以纳西族东巴文为例来做简单说明。东巴文中表示“杉树”的字,其代表性字形有十来种,可以分为三组:

第一组:

第二组

第三组

三组字形分别出自白地、丽江和鲁甸三个地区的东巴经文,呈现出明显的地域特征;而每一组中的字形,又出自同一地域的不同书手,呈现出不同的风格。在对上述文献用字进行一字一码的图像识别后,每一个字形所携带的地域特征、书手风格、文献类型、语境、字际关系等都能够被计算机自动处理,则所有字形图像与其他数字资料的数据关联就能够被打通,智能处理就具有了无限空间。如此处,即可借助图像识别对东巴经文的地域特征、书手特征进行谱系分类研究。反过来,如果采用以往的识别思路,最终结果就是将上述八个字形归属于“杉树”这一抽象的文字单位,识别的意义就只能是局限在经文的解读对译上。

再及,智能化的助力,可以推动大中华文化视野下的多民族文字综合研究。我国的民族古文字,多数是在以汉字文化为基石的中华民族多元文化融合的历史环境中发生、发展、演变的。这也就意味着,只有将民族古文字相关研究置于中华民族多元文化融合之系统中展开,才能揭示其全貌,也才能在彼此观照中获得对自身更深入的理解。

知识系统的充分系联与普及,同样要仰赖数字化与智能识别手段。可举一例来说明。水书是水族民间选择时日、择吉避凶的查阅用手抄本,其占卜择日的概念、原理、体系、表达程式等多数来自汉族通书,而汉族通书的源头,可以上溯到先秦日书,如楚简、秦简日书。这是纵向的观察。横向来看,汉族通书明清时期曾在南方少数民族地区广泛传播,水、侗、彝、布依等多个民族的古文献中,都出现通书内容,它们都来自汉文化,并形成了各自的择吉特点。如果我们按前文所说,以统一的标准完成了这些古文字材料的意义逐级分类系联,并实现材料的图像智能识别,那么就可以通过其中任何一种材料的图像识别,实现相同义类的多种古文字材料的系联呈现。

如水书“赤口时”篇(图1),识别出对应文字为:“春三月辰午时,夏三月午时,秋三月戌时,冬三月丑午时凶,口舌。”意为:新娘忌在这些时辰进亲入宅,犯之则有口舌纷争。该识别结果又可自动关联涉及婚嫁宜忌的其他古文字材料,如睡虎地秦简甲种日书96-101简内容:“春三月辰,夏三月未,秋三月戌,冬三月丑……不可以取妇、家(嫁)女……”;彝文日书《运尼司波》(图2)内容:“冬三月那一季,属牛这天不吉”。这样,不同民族、不同时空的择日条例反映出大体相通的内涵——冬季三个月的丑日婚嫁不吉。这些材料的类比呈现,对于梳理多民族日书的传承流变,其价值是不言而喻的。

图1 水书“赤口时”篇

图2 彝文日书《运尼司波》

民族古文字研究的数字化,需要有支持文字识别的大数据平台提供后台支撑,为机器学习与迭代升级不断提供丰富素材;而大数据建设的成果,需借力各种智能化方式,充分开发利用,才能被全面盘活,二者是相互促进、彼此支撑的。在此平台之上,中华民族多元文化融合视野下的民族古文字研究,定将得到长足的发展。

本文为上海哲社规划“门、绝学和国别史等研究专项”课题“水族水书智能识别系统建设与研究”(2019ZJX001)

作者:刘凌、刘志基 华东师范大学中国文字研究与应用中心

编辑:陈韶旭

责任编辑:纯一

更多文章

  • 【招聘】刘志博教授放射性药物研究团队诚招药化领域博士后及研究助理

    历史解密编辑:化学加网标签:科学,化学,实验,刘志博,博士后,放射性药物

    刘志博教授放射性药物研究团队诚招药化领域博士后及研究助理合作导师及团队简介刘志博,博士生导师,国家杰出青年基金获得者,北京大学化学与分子工程学院教授,北大-清华生命联合中心研究员,昌平实验室领衔科学家,北京大学应用化学系副主任。刘老师曾获2020年度中国化学会青年化学奖,国际中子俘获治疗学会Fair

  • 刘志杰一行在离石调研

    历史解密编辑:黄河新闻网吕梁频道标签:刘志杰,于成龙,安国寺,离石区,习近平,政协主席

    3月23日省政协常委、提案委员会主任刘志杰一行来到离石区先后在交口街道安国寺吴城镇王营庄乡村振兴示范区进行调研市政协主席乔晓峰,副主席李媛,离石区委书记廉海平,区政协主席白志荣,副区长杨满红,区政协副主席张金平等一同参加。在安国寺刘志杰一行来到于中丞公生祠、于氏宗祠、于成龙读书楼,实地观瞻安国寺人文

  • 刘志波被查!

    历史解密编辑:大小新闻标签:纪委,违纪,刘志波,党支部,莱阳市

    莱阳市沐浴店镇钟家院村党支部书记、村委会主任刘志波涉嫌严重违纪违法,目前正接受莱阳市纪委监委纪律审查和监察调查。来源丨清廉烟台责编丨杨云阁 校对 |赵成玉 监制|刘洪涛版权归原作者所有 如有侵权及时联系删除

  • 刘志敏:宁死不屈的巾帼英雄

    历史解密编辑:红星闪闪标签:刘志敏,巾帼英雄,红军,革命根据地,罗山县

    刘志敏:宁死不屈的巾帼英雄在大别山革命老区河南省罗山县的烈士陵园里,巾帼英雄刘志敏宁死不屈的英勇事迹镌刻在这里,每年都会有无数人前来缅怀、纪念。刘志敏,1904年7月出生于河南罗山县。7岁进入私塾读书。后入县立女子高等小学。1922年考入开封河南省立女子中学学习。她阅读《共产党宣言》《向导》《苏联十

  • 东汉孝桓帝-刘志

    历史解密编辑:旧闻故史标签:刘志,宦官,李膺,梁冀,李固,梁太后,陈蕃,桓帝,东汉孝桓帝,刘志(菑川王)

    刘志,字意,东汉王朝第十一任帝,为汉章帝刘炟的曾孙,汉章帝第六子河间孝王刘开之孙,蠡吾侯刘翼之子,其母匽明为刘翼妾室。东汉安帝永宁元年(庚申,120年),邓太后召蠡吾侯刘翼入京,封为平原王,留于京师,奉汉和帝刘肇长子怀王刘胜之祀。次年,邓太后卒,汉安帝刘祜的乳母王圣与中常侍江京等诬陷邓骘兄弟与刘翼谋

  • 审判业务专家风采 | 刘志健:矢“志”为民 “健”履笃行

    历史解密编辑:福建高院标签:刘志健,法院,高院,法官,法律,合同纠纷

    开栏语辉煌成就振奋人心,宏伟蓝图催人奋进。党的二十大报告指出,建设堪当民族复兴重任的高素质干部队伍。踔厉奋发,接续奋斗。今年以来,福建省高级人民法院深入推动队伍司法素能建设,持续完善高层次司法人才培养机制,开展第三届“福建省审判业务专家”评选活动,储备一批高素质专业化审判人才和后备力量。学习身边榜样

  • “国宴国酒 艺术茅台”——中国书法名家刘志顺

    历史解密编辑:艺韵风华标签:书画,艺术,国酒,刘志顺,茅台酒,中国书法,书法作品,书法名家

    Liu Zhi Shun 刘志顺:字应元,男,山东省滨州市博兴县人,大学文化,中共党员。滨州市书法家协会会员,博兴县书协会会员,渤海书协会员,渤海书画研究会锦秋分会副会长,中国楹联研究会员。 本人酷爱书法艺术,几十年如一日,持之以恒,坚持临擵古碑法帖,主要以二王笔法为综之,以九成宫,圣

  • 任见:桓帝刘志欲走险

    历史解密编辑:巴黎邮报标签:刘志,梁冀,桓帝,汉桓帝,梁太后,李固

    任见:桓帝刘志欲走险02梁冀淘汰了汉质帝刘缵,东汉王朝的皇帝宝座再次空了下来。梁冀又跑进内禁,跟妹妹梁太后商议立谁家的儿子做皇帝。梁太后有个妹妹,叫梁莹,十三岁了,梁太后正在张罗着把梁莹嫁给十五岁的蠡吾侯刘志。这时候,刘志已经从封国赶到了洛阳城北的宾馆,准备迎娶新媳妇。梁冀跟梁太后一合计,不如干脆就

  • 刘永君、刘志炜,好样的!

    历史解密编辑:最江阴标签:刘永君,刘志炜,工程车

    12月21日晚上,110指挥中心接到了一个焦急的电话,“我父亲病了,电话通了没人接,不知道是不是晕过去了。”接警后,夏港派出所民警火速赶至现场。报警人王某(化名)表示,当天早上接到了父亲电话,通话中感觉到父亲言语含糊不大对劲,王某当即驱车赶到父亲住处。他从单元门窗户处查看到父亲跌倒在地,喊话并无应答

  • 刘志勤:智库强,则国家强!

    历史解密编辑:人大重阳标签:智库,刘志勤,韩愈,诸葛亮,毛泽东,中国人民大学

    2023年1月16日-17日,由中国人民大学重阳金融研究院主办,中国人民大学全球治理研究中心、中国人民大学中美人文交流研究中心、巨丰金融研究院联合承办的成功举办,中国人民大学重阳金融研究院高级研究员刘志勤在16日的分论坛一“大国博弈与智库作为”的第二环节“中国式现代化与智库国际话语权”上发言,以下为