
甲骨文数字
-
2023年3月19日发(作者:无双大蛇攻略)第24卷第6期
2010年11月
中文信息学报
JOURNAL OF CHINESE INFORMATION PROCESSING
V01.24,No.6
NOV.。2O10
文章编号:1003—0077(2010)06—0103—05
甲骨文自由笔画输入法
聂艳召,刘永革
(安阳师范学院计算机与信息工程学院甲骨文信息处理重点实验室,河南安阳455002)
摘要:甲骨文信息的数字化需要输入法的支持,已有甲骨文输入法的研究思路还存在可改进之处。从笔画的层
面对甲骨文字形进行系统性的笔画分析,提出了一种基于笔画分析的编码方案,并进行了编程实现。运行结果显
示该思路可行,可为甲骨文研究者提供方便的输入接口。
关键词:甲骨文;输入法;笔画
中圈分类号:TP391 文献标识码:A
Free Stroke Input Method for Carapace-bone-script
NIE Yanzhao,LIU Yongge
(School of Computer and Information Engineering,Anyang Normal University,Anyang,Henan 455002,China)
Abstract:Digitalization of the Carapace—bone-script requires support of input method.To improve the existing meth—
od of the Carapace—bone—script input,a stroke coding scheme of the Carapace-bone—script is presented.The imple
mentation of corresponding input method proves its feasibility,which may serve as a more convenient alternative tO
inputting the Carapace—bone-script.
Key words:Carapace—bone-script;input method;stroke
1 引言
甲骨文是我国已发现的古代文字中时代最早、
体系较为完整的文字,是我国文字史上一笔宝贵的
财富。从发现甲骨文至今百余年时间里,甲骨文研
究已取得了长足的进展。进入信息时代后,利用计
算机数字化技术的优势拓展甲骨文史料的纵深研究
已是大势所趋。
近几年,多家研究机构已经建立了甲骨文字库,
为甲骨文数字化奠定了基础。但是,要想进行真正
的数字化只有字库还远远不够,还必须提供甲骨文
输入接口,以方便各种甲骨文文献的数字化集成。
甲骨文输入法是其中重要的输入接口。
目前,现代汉字的输入法已形成“万‘码’奔腾”
的局面。但究其编码方式无外乎两种思路:音码输
入和形码输入。同样,对于甲骨文输入法的研究目
前也是沿用这两种思路。
(1)音码输入
对于已考释出的部分甲骨字,根据其对应的楷
体字人们可以“读”出其字音。这些可以知道读音的
甲骨字,直接输入拼音就可以把该字及所有异体字
从甲骨文字库中调出来。比如输入拼音dong,将把
所有读音为dong的字找出来,包括 I《{等字及其
异体字。2008年杨亦鸣口 等开发的“甲骨文拼音与
部件拆分输入法”用到了此思路。
显然,此方案只能输人有限的甲骨字,绝大多数
未考释出的甲骨字不能用此法输人,必须借助于形
码输入。
(2)形码输入
形码输入是从甲骨文的字形人手,分析其构形
规律,制定合理的编码方案。如果将甲骨文按照“字
收稿日期:2010—04—20定稿日期:2010—07—20
基金项目:国家自然科学基金资助项目(60875081)
作者简介:聂艳召(1982),男,硕士,助教,主要研究方向为智能信息系统;刘永革(1966一),男,教授,主要研究方向为
中文信息处理,数据库与知识库。
104 中文信息学报 2OlO焦
一部首一部件一笔画”的四级分解模式,目前在部首
级别和部件级别都有相应的输入法被开发出来。具
有代表性的有以下两类形码输入法。
一
、部首级别形码——可视化输入法
考虑到甲骨文编码研究的复杂性,与其勉强制
定出繁杂的编码规则,不如退一步省去编码阶段,直
接用“可视化”输入。
如2004年,刘永革等L2 开发的“甲骨文可视化
输入法”,将6 199个甲骨字按部首分成153类,通
过鼠标选取部首,将存放在该部首下的所有甲骨字
调出来。此成果简单易学,不必记忆编码规则,为研
究者提供了一个极易上手的输人法工具。不过,该
方案对易分辨部首的甲骨字的输入比较方便,而对
于那些难以判断隶属于何部首的甲骨字,输入相当
困难。比如:有 、Q两字皆安排在 部下,前者一眼
可看出其下部就是部首 ,但是对于后者,就很难想
到去p部下找。
二、部件级别——象形码输入法
“象形”是今人解读古文字尤其甲骨文的一种惯
性思维,甲骨文编码的研究者多偏向“象形码”架构
甲骨文编码方案。从1995年起,陆续有研究者提出
甲骨文象形编码方案。。 ],该方案的整体思路为:依
据甲骨文构字部件象形的特点,利用拉丁字母以及
阿拉伯数字对甲骨文字形进行编码,以其与甲骨文
中的部件相对应,实现一字一码的编码方案。例如,
部件 对应字母A、良对应B等。这固然体现了甲骨
文的特点,但由于甲骨文字形复杂,大多不规整,因
此“象形码”很难与实际的甲骨文字形准确对应L7]。
该方案在使用过程中有两大困难:①虽然“一
字一码”大大减少了输入时的重码率,看似提高了输
人效率,但是重码率的减少是建立在增加码元或编
码长度的基础上,这样显然增加了记忆和使用的难
度。②在实际输入某一甲骨字时,要求使用者必须
能准确地按照一定的规范进行字根的拆分。实际情
况是,由于甲骨文构形系统还不成熟,很多构件的形
体规整性差,对于一般用户来说很难进行准确的拆
分,拆分错误就会导致无法输入该字。
基于字形的输入法除了从部首、部件级别考虑
外,也可考虑从笔画级别去进行编码,本文就以此思
路讨论建构一种易学、易用的甲骨文笔画输入法。
2 甲骨文笔画系统分析
任何文字的字符都是一笔一画写出来的,甲骨
文当然也不会例外。虽然甲骨文构形系统很不成
熟,但是甲骨文已是符号化程度很高的文字,构成甲
骨文的最基本单位“笔画”系统已经初见端倪。每一
个甲骨字,都是由各种点和线组织起来的,尽管这些
点和线的特征跟后世笔画不同,但也都是有规则、成
系统的,可以进行分析的。例如表1所示的几个甲
骨字及其笔画分解。
表1 甲骨宇笔画分解示例
甲骨字 笔画结构分解
々 ,>
m n lI ll
I I l
口 I
毋 ‘ },vI一,{
2,》 u 。,
冯寿忠 在《甲骨文笔画系统试析》中对三千多
个甲骨字做了较系统的笔画分析,归纳出八大类笔
画:点、直、弯、曲、折、钩、圆、角。但是,经过实际验
证,这八类中的某些笔画的界定存在模糊性。比如,
折类笔画中的“乃字折 ”和曲类笔画的“折曲7”形状
十分接近,在甲骨字n中难以判断笔画“,}”属于折还
是曲。为了更清晰地界定各类笔画,在《甲骨文笔画
系统试析》的基础上,综合考虑绝大多数甲骨字的笔
画特征后,对甲骨文笔画系统做了重新分类,将甲骨
文笔画系统分为九大类:点、横、竖、撇、捺、弯、框、
曲、圆。分析结果如表2所示。
表2 甲骨文笔画分析
笔画大类 取笔规则 小类 笔形 例字
未与其他笔画相连的点、线皆为点,无论笔画走向如何。(注意与 念 点
,
J 、 下面的横竖撇捺的区别
。
)
横 水平走向且与其他笔画相连者为横,无论长短。 十i
竖 竖直走向且与其他笔画相连者为竖,无论长短 I T
6期 聂艳召等:甲骨文自由笔画输入法 1O5
续表
笔画大类 取笔规则 小类 笔形 例字
撇 左下走向且与其他笔画相连者为撇,无论长短。 , 々
捺 右下走向且与其他笔画相连者为捺,无论长短。 ~ 套
托底弯 ’ ., ’}
盖顶弯 —’~
弯 只向一个方向弯曲者为弯,或上、或下、或左、或右,非弯来弯去。 左弯 (
右弯 )
尖头弯 C
心形框
口形框 LJ 2
房顶框 n 原圊
夕形框
框 起笔到落笔成半包围容器形,开口方向不定。
器皿框 U 叠
泉水框
目形框 曙
贝子框 C 3
钩形曲 吾 £
横曲 、 澎
竖曲 》 々 睁
斜曲 ?
从起笔到落笔有向两个或多个方向弯曲者为曲,曲折多变,弯来 .了 曲 折曲 7 弯去
。 旋曲 6 舌蓦
跪姿曲 j
羊角曲 ^^
乃字曲
正圆 O 晶鲫
方形圆 0 0占罟
尖头圆 O ooo园
三角圆 △ i晷}
长条圆 口 俞竹瘩 圆 无论圆滑
、方正、尖角、曲折、交叉,凡形成封闭者皆为圆。
头形圆 D 色
酉形圆 查
交臂圆 p 宏I
鱼形圆 赫
管道圆
106 中文信息学报
3 基于笔画分析的编码方案
3.1 笔画码元——键元对应关系
根据表2的笔画分析结果,每一个甲骨字都是
由某些笔画按照一定的规律组合而成,这些构成甲
骨字的基本笔画称为“码元”。因此,该编码方案的
码元集为:点、横、竖、撇、捺、弯、框、曲、圆九种笔画。
每个码元与键盘上的字母对应起来形成了一种
映射关系。为方便记忆,取每种笔画名称的汉语拼
音首字母作为键元,即d一点、h一横、s一竖、p一撇、n一捺、
w~弯、k一框、q一曲、y一圆。
3.2拆分规则
根据表2所示的取笔规则,可以将一个甲骨字
拆分为若干笔画组成。如 字,可拆为:圆、曲,编码
为yq。又如田字,可拆为:框、竖、点、点、点,编码为
ksddd。
由于甲骨字形的不规整性,某些字的笔画或者
笔画的顺序难以清晰界定,需要一些原则指导使用
者方便地拆分甲骨字。
(1)无笔顺原则
即无需考虑某个甲骨字的笔画顺序,只要能正
确拆分笔画即可。例如 字,可认为先写周围的点,
亦可认为先写中间的曲,或者其他顺序,输入时,可
以将d、d、d、d、q、q等6个编码字符按随意顺序排
列,无论哪种J『质序都能从字库中调出该字。
这是提高甲骨文笔画输入法实用性的关键所
在。此原则主要基于以下两点考虑:①甲骨字笔画
不规范,不像现代汉字的笔画那么规整,故难以确定
统一的笔画顺序。②若勉强规定笔顺,整个甲骨字
笔顺规则将比现代汉字笔顺规则复杂得多。当用户
输入甲骨字时,必然增加了判断笔画顺序的时间。
(2)尽量体现造字意图
甲骨字的每一笔一画都具有特定的造字含义,
或描摹事物的形状,或指示事物的意义。在进行笔
画拆分时应尽量依照原本的造字意图拆分,如菇(犬)
字,像一条犬的侧视图:在一条犬尾上,上接一撇表
示犬的头部,中间接一竖连两撇表示腹部。因此,该
字应该尽量按照图1所示进行拆分。
(3)自由拆分
如上所述,虽然每一笔都有特定的造字意图,但
是经过三千年的变迁,有些甲骨字中笔画的造字意
<
图1 依照造字意图拆分贡字图2}字可能的拆分方案
图对今人来讲已经难以辨认。若要求人们在输入每
一个甲骨字时必须准确判断其每一笔画的构字意
图,这是不现实的(至少对一般用户来讲如此),也势
必影响输入的效率。因此,该笔画输入法从大多数
使用者的角度去考虑,尽量将每一个字可能的拆分
方法都存储起来,只要用户输入时与其中一种拆分
方案匹配就可以显示出该甲骨字。比如}(襄)字,可
能有人会看成由框、撇、曲组成,也可能有人看成由
曲、曲组成。如图2所示。在对该字编码时,将这两
种方案都考虑在内,无论输入k、P、q还是q、q都能
调出I字。
无笔顺限制和自由拆分原则减轻了用户的记忆
负担,减少了输入甲骨字时思考的时间,为使用者提
供更为灵活的空间。此即“自由笔画”之含义。
4输入法的实现
4.1字库和码表文件
甲骨文输入法程序的基础为甲骨文字库和码表
文件。字库采用香港中文大学的甲骨文字库,此字
库收录6 199个甲骨字,具有权威性。码表的格式
如下:
<编码><Tab键><甲骨字>[<甲骨字>]
每一个编码中的字符按照字典升序排列。码表
整体结构的排序,在初始情况下按编码长度升序排
列,在输入法的使用过程中则将按照编码被搜索命
中的频率降序实时调整。部分码表如表3所示(为
了下面讨论方便,在表中加了一列序号,但实际的码
表3码表结构示例
序号 编码 甲骨字 序号 编码 甲骨字
l hs 十 6 hhhs 于
2 ddd I 7 hhnps 盘 I I
— 3 hhs T 8 dddks m -II
4 hpw 歹 9 ddnnpps ※
5 hsy lO dddhhsssy 雷
6期 聂艳召等:甲骨文自由笔画输入法 107
表中不需要序号)。
4.2码表搜索算法
采用逐渐缩小搜索范围的思路,过程大致为:
用户输入第一个编码字符C1,从码表文件中搜索包
含C1的编码,得到候选编码集合为T1;输入第二
个字符C2时,从刚得到的结果集T1中去搜索包含
C2的编码,得到T2.-.・依次类推,每多输入一个字
符,搜索的范围缩小一次,最终命中预期的编码。例
如,想输入 ::字,其对应的编码为dddks。按照无笔
顺限制的原则,某次的输入顺序可能为sdddk,则搜
索过程如表4所示。
表4搜索算法示例
输入字符 结果集(编码序号)
S T1(1,3,5,6,7,8,9,10)
d T2(8,9,10)
d T3(8,9,1O)
d 丁4(8,10)
k 丁5(8)
4.3原型程序运行效果
在Java开发环境下实现了原型程序。运行效
果如图3所示。
甲骨文自由笔画输入法
笔西输入匿 wp
~鞭 麓 麟
图3输人法运行效果
用户在笔画输人框输入笔画对应的字符码,候
选字标签会显示搜索到的甲骨字(若超过5个字会
分页显示),通过输入对应的数字在候选字中进行选
择。通常情况下,只需输入部分编码就能在候选框
显示出该字,或者通过翻页就能找到该字。如图3
显示的,输入wp就把包含弯、撇笔画的字全部搜索
出来。
5 结束语
通过对甲骨文的笔画特征进行分析,将构成甲
骨字的笔画归纳为点、横、竖、撇、捺、弯、曲、框、圆九
种笔画,在此基础上设计了甲骨文笔画输入法。该
输入法可以为甲骨文工作者提供方便快捷的输入途
径,提高输入效率。目前,该输入法程序只是演示版
本,下一个阶段的主要工作是将其升级为标准输入
法程序。
参考文献
杨亦鸣,顾绍通,马小虎.甲骨文拼音与部件拆分输入
法EP3.CN:101231558A,2008.7.3O.
刘永革,栗青生.可视化甲骨文输入法的编码与实现
[J].计算机工程与应用,2004,40(17):139—140.
李继明.计算机文字信息处理技术新探一甲骨文象形
码设计方案EJ3.中文信息学报,1996,10(3):18—29.
肖明,胡金柱,赵慧.面向对象的Petri网方法及其在甲
骨文编码中的应用[J].华中师范大学学报(自然科学
版),1999,33(4):495—499.
肖明,赵慧,甘仲惟.甲骨文象形码编码方法研究EJ3.
中文信息学报,2003,17(5):60—65.
肖明,赵慧,甘仲惟.甲骨文象形码编码的模糊数学模
型研究[J],计算机工程与设计,2004,25(3):358—361.
郝文勉.甲骨文编码的线性结构[J].郑州大学学报:
哲学社会科学版,2005,38(1):87—92.
冯寿忠.甲骨文笔画系统试析[c ̄//中国应用语言学
会.第四届全国语言文字应用学术研讨会论文集.四川
大学出版社,2007:35—45.
] ] ] ] ] ] ] ]