过去,专家在古文献研究中遇到生僻字,可能花费数小时甚至数天查阅大量工具书才能弄清这个字的含义。但在今天,这个过程可能仅仅只需要几秒。据悉,“识典古籍”平台最新上线的编辑器搜字、造字、复制字图功能,通过将生僻字进行拆解拼接,系统可从20余万个字形中精准匹配出结果——整个过程不到10秒,从而解决了困扰古文献研究领域多年的生僻字整理难题。
在以往的古籍数字化过程中,遇到字库中没有的生僻字或异体字时,研究人员的通常做法是截取该字在古籍扫描图中的局部区域的图片作为替代,称之为“字图”。然而这样处理存在明显缺陷,字图有当时古籍本身的印刷书写风格和背景,不宜阅读;同时,不同字图可能实为同一字,却因无法识别而被重复截取,造成整理混乱。
识典古籍给出的解决方案是自研了一套拼字输入法(拼出字图)、造标准宋体字(造出字图)等算法,以帮助研究人员在整理古籍时能够快速的输入生僻字甚至“造”出字体。
拼字输⼊法的技术原理并不复杂,就是让用户在自己认识的简单字和简单笔画的基础上,去搜索更加复杂的汉字,即便不清楚这个汉字的字音、字义,也能凭借字形快速匹配。
例如,“矦”字可由“⺈”“厂”“矢”组成,输入这些部件即可召回该字。对于普通人来说,虽然这个字我不认识,但总有它的部分我认识,认识什么输入什么,就可以把这个字拼出来。这种方式比五笔输入法更直观,无需记忆词根,也支持生僻字检索。
在编辑器中拼字输入
在研发过程中,团队面临的核心挑战是汉字组合的极端复杂性。例如一个“椪”字,就有“木並”、“木䒑业”、“木丷亚”、“木八亚”等多种拆分方式,组合数量呈阶乘级增长,传统穷举方法根本行不通。
团队曾尝试用有向无环图来建模汉字部件关系,想象一堆有箭头连接的积木,箭头只指向后方,且绝对不允许形成一个闭合的圆圈,这样我们就可以从起点一路畅通无阻地走到终点,但十万汉字构建的图谱对性能挑战巨大,也难以量化匹配效果。
那段时间,组内成员兵分几路,有人继续尝试图结构优化,有人从组合数学角度寻找新思路。大家频繁交流、互相“挑战”,常常列举出各种bad case推翻对方方案,却又在碰撞中萌生新的灵感。
最终,识典古籍研发团队设计出了一套高性能、通过计算汉字细节特征进行匹配的解决方案,可支持在20余万个汉字中实时搜索。
该方案在初始加载阶段,不仅会整体收集每个汉字的组成部分作为其特征,还会构建一套简繁字、偏旁部首的等价映射表,如“马”可代“馬”、“水”可代“氵”。
在搜索阶段,算法会先对用户输入进行前置处理以提升容错能力,比如相似的“????”和“乚”都会被处理成“乚”,然后比对用户输入与所有汉字特征之间的差异,按匹配程度排序返回最佳结果,若匹配失败,算法还会自动使用等价映射表重新检索,如输入“水”、“木”可查找出“沐”,显著降低输入门槛,更贴合用户的用字习惯。
拼字输入法主要辅助研究人员找到当今已经被编码的汉字,对于古籍中存在的⼀些没有被计算机编码的汉字,识典古籍团队又开发了基于IDS造出标准宋体字的算法,通过结构化的描述方式去表达任意⼀个汉字,进而为这个生僻字量⾝设计字体。
根据识典古籍团队介绍,IDS是Unicode标准定义的汉字结构描述语法,通过IDC符号(用于描述汉字结构,如⿰、⿱、⿲、⿴、⿸等)和汉字部件组合而成。例如,“古”字是上下结构,其IDS就是 “⿱十口”。
通过分析汉字的空间结构输入相应的IDS表达式生成字体字形,以上是不同空间结构的示例
造字的核心是解析用户输入的IDS表达式,为每个部件选择合适的变形和空间布局,组合成新字。例如,在处理左右结构时,需控制部件宽度比例和间距;在处理包围结构时,需确定缺口位置并在缺口处合理放置被包围的部件。
团队在开发过程中摒弃了“大而全”的幻想,比如像‘廴’只需主要考虑‘⿺’布局,无需过多考虑⿰、⿱、⿴、⿸等其他情况,转而遵循实际汉字布局规则,逐步实现了覆盖常见结构的造字引擎。
在编辑器中造字
由于造字是基于IDS的,所以它天然就具有汉字的组成信息,因此用户“造”出来的字经平台审核通过后也可以使用上述的拼字输入法搜索出来,实现相互联动。
在编辑器中拼字搜索之前造过的字
就像识典古籍研发团队说的那样,编辑器搜字、造字、复制字图功能就像一个“万能积木”,让古籍整理这项传承文明的事业不会因为“字”而被阻碍,而让团队自豪的是,当看到自己设计的造字工具能生成古籍中千变万化的字形,甚至一些早已遗失在历史中的字体重现屏幕时,“一种跨越时空的技术成就感油然而生”。
古籍整理是中国古典学不可或缺的研究基础,也是社会大众继承和发扬传统文化的宝贵资源,同时还是世界理解中华文明的重要途径。根据国家古籍保护中心调查结果显示,我国现存20多万种古籍,存世50万个版本,古籍数量达3200多万册,然而当前古籍整理工作的现状却是数字化程度极低,许多书只是完成了初步的影像扫描,真正实现文本数字化的不到四万种。
之所以会存在这样的困境,专业人才匮乏是首要障碍,目前全国范围内专业从事古籍整理的人员仅有一万人左右。其次是生僻字处理存在技术瓶颈,由于古籍中存在大量异体字、俗体字和避讳字,使得文字识别准确率难以提高。传统OCR技术是为打印材料设计的,面对古书中的不同字体风格、非汉字笔画符号、折痕和破损缺字,识别效果大打折扣。最后是资金与版权的桎梏。
正是在这样的背景之下,字节跳动在2022年10月,与北京大学合作推出了完全公益的古籍智能阅读和整理平台——“识典古籍”,旨在通过技术力量改变传统古籍整理模式。识典古籍初期就整合了三大核心技术——文字识别(OCR),自动标点和实体识别,这意味着机器已经能够初步“读懂”古文。
根据官方公布的数据,识典古籍平台在数万名来自高校、社会及字节跳动员工的古籍整理志愿者共同努力下,现已经免费公开3万余部古籍,每月有超240万用户访问量。在2025年底,将发布4万部古籍面向公众开放。
识典古籍的价值不仅仅提高了古籍专业研究人员的工作效率,更是通过技术手段降低了古籍整理的门槛,使公众参与成为可能。同时,古籍数字化的价值远远超出了保护本身,它让古籍内容变得更加可用、易懂,为文化传承和创新提供了基础。全国高等院校古籍整理研究工作委员会副秘书长吴国武教授在接受媒体采访时曾表示,“古籍相当于先人的知识体系,将经典智慧为现代人所用,是非常重要的任务”,数字化后的古籍可以被更容易地检索、分析和利用,为学术研究提供支持。
扫描二维码下载手机客户端
扫描二维码下载手机客户端
-->分享到
发布评论文明上网理性发言,请遵守评论服务协议
未登录
0/200发布发布全部评论0条
点击加载更多欢迎下载“北京日报”客户端发表评论
相关阅读热门报道换一批推荐阅读换一批精彩视频换一批猜你喜欢滚动北京国内国际北晚社会文娱体坛旅游文史阅读深度产经调查互联网美食北晚健康消费北晚行业北晚网摘网站地图新闻评论深度理论视频图库悦读互联网财经文化体坛科教消费矩阵网摘东城区政府网站西城区政府网站朝阳区政府网站海淀区政府网站丰台区政府网站石景山区政府网站门头沟区政府网站房山区政府网站通州区政府网站顺义区政府网站大兴区政府网站昌平区政府网站平谷区政府网站怀柔区政府网站密云区政府网站延庆区政府网站市人大市政协市监察委市高级人民法院市人民检察院市政府办公厅 市发展改革委 市教委市科委市经济信息化局市民族宗教委市公安局市民政局市司法局市财政局市人力社保局市规划自然资源委市生态资源局市住房城乡建设委市城市管理委市交通委市水务局市农业农村局市商务局市文化和旅游局市卫生健康委市退役军人事务局市应急管理局市市场监督管理局市审计局市政府外办市国资委市广播电视局市文物局市体育局市统计局市园林绿化局市地方金融监管局市人防办市信访办市知识产权局市医保局 京报媒体矩阵北京日报 北京晚报北京青年报北京商报音乐周报新闻与写作北京日报客户端长安街知事艺 绽北晚在线北京深读空间关于我们 京报集团京报移动传媒北晚在线版权声明联系我们 友情链接人民网新华网央视网光明网中国网中国日报网中国经济网千龙网今日头条百度新浪网易腾讯搜狐爱奇艺优酷
Copyright ©1996-2025 Beijing Daily Group, All RightsReserved
京公网安备11040202120009号 |工信部备案号:京ICP备14054880号-1
主管:北京日报报业集团 主办:京报移动传媒有限公司
网上有害信息举报专区
AI助力解决古籍生僻字难题,“识典古籍”造字仅需10秒网络2025-09-17 10:01
专注报道您想看的新闻
长按二维码查看文章详情
点击下载
发布评论文明上网理性发言,请遵守评论服务协议未登录
0/200登录发布全部评论0条
点击加载更多账号登录短信登录请输入手机号
卓信宝配资-配资炒股官网-杠杆买股票-配资股网址提示:文章来自网络,不代表本站观点。