✅ 操作成功!

甲骨文数字

发布时间:2023-06-16 作者:admin 来源:文学

甲骨文数字

甲骨文数字

-

2023年3月19日发(作者:无双大蛇攻略)

第24卷第6期

2010年11月

中文信息学报

JOURNAL OF CHINESE INFORMATION PROCESSING

V01.24,No.6

NOV.。2O10

文章编号:1003—0077(2010)06—0103—05

甲骨文自由笔画输入法

聂艳召,刘永革

(安阳师范学院计算机与信息工程学院甲骨文信息处理重点实验室,河南安阳455002)

摘要:甲骨文信息的数字化需要输入法的支持,已有甲骨文输入法的研究思路还存在可改进之处。从笔画的层

面对甲骨文字形进行系统性的笔画分析,提出了一种基于笔画分析的编码方案,并进行了编程实现。运行结果显

示该思路可行,可为甲骨文研究者提供方便的输入接口。

关键词:甲骨文;输入法;笔画

中圈分类号:TP391 文献标识码:A

Free Stroke Input Method for Carapace-bone-script

NIE Yanzhao,LIU Yongge

(School of Computer and Information Engineering,Anyang Normal University,Anyang,Henan 455002,China)

Abstract:Digitalization of the Carapace—bone-script requires support of input method.To improve the existing meth—

od of the Carapace—bone—script input,a stroke coding scheme of the Carapace-bone—script is presented.The imple

mentation of corresponding input method proves its feasibility,which may serve as a more convenient alternative tO

inputting the Carapace—bone-script.

Key words:Carapace—bone-script;input method;stroke

1 引言

甲骨文是我国已发现的古代文字中时代最早、

体系较为完整的文字,是我国文字史上一笔宝贵的

财富。从发现甲骨文至今百余年时间里,甲骨文研

究已取得了长足的进展。进入信息时代后,利用计

算机数字化技术的优势拓展甲骨文史料的纵深研究

已是大势所趋。

近几年,多家研究机构已经建立了甲骨文字库,

为甲骨文数字化奠定了基础。但是,要想进行真正

的数字化只有字库还远远不够,还必须提供甲骨文

输入接口,以方便各种甲骨文文献的数字化集成。

甲骨文输入法是其中重要的输入接口。

目前,现代汉字的输入法已形成“万‘码’奔腾”

的局面。但究其编码方式无外乎两种思路:音码输

入和形码输入。同样,对于甲骨文输入法的研究目

前也是沿用这两种思路。

(1)音码输入

对于已考释出的部分甲骨字,根据其对应的楷

体字人们可以“读”出其字音。这些可以知道读音的

甲骨字,直接输入拼音就可以把该字及所有异体字

从甲骨文字库中调出来。比如输入拼音dong,将把

所有读音为dong的字找出来,包括 I《{等字及其

异体字。2008年杨亦鸣口 等开发的“甲骨文拼音与

部件拆分输入法”用到了此思路。

显然,此方案只能输人有限的甲骨字,绝大多数

未考释出的甲骨字不能用此法输人,必须借助于形

码输入。

(2)形码输入

形码输入是从甲骨文的字形人手,分析其构形

规律,制定合理的编码方案。如果将甲骨文按照“字

收稿日期:2010—04—20定稿日期:2010—07—20

基金项目:国家自然科学基金资助项目(60875081)

作者简介:聂艳召(1982),男,硕士,助教,主要研究方向为智能信息系统;刘永革(1966一),男,教授,主要研究方向为

中文信息处理,数据库与知识库。

104 中文信息学报 2OlO焦

一部首一部件一笔画”的四级分解模式,目前在部首

级别和部件级别都有相应的输入法被开发出来。具

有代表性的有以下两类形码输入法。

、部首级别形码——可视化输入法

考虑到甲骨文编码研究的复杂性,与其勉强制

定出繁杂的编码规则,不如退一步省去编码阶段,直

接用“可视化”输入。

如2004年,刘永革等L2 开发的“甲骨文可视化

输入法”,将6 199个甲骨字按部首分成153类,通

过鼠标选取部首,将存放在该部首下的所有甲骨字

调出来。此成果简单易学,不必记忆编码规则,为研

究者提供了一个极易上手的输人法工具。不过,该

方案对易分辨部首的甲骨字的输入比较方便,而对

于那些难以判断隶属于何部首的甲骨字,输入相当

困难。比如:有 、Q两字皆安排在 部下,前者一眼

可看出其下部就是部首 ,但是对于后者,就很难想

到去p部下找。

二、部件级别——象形码输入法

“象形”是今人解读古文字尤其甲骨文的一种惯

性思维,甲骨文编码的研究者多偏向“象形码”架构

甲骨文编码方案。从1995年起,陆续有研究者提出

甲骨文象形编码方案。。 ],该方案的整体思路为:依

据甲骨文构字部件象形的特点,利用拉丁字母以及

阿拉伯数字对甲骨文字形进行编码,以其与甲骨文

中的部件相对应,实现一字一码的编码方案。例如,

部件 对应字母A、良对应B等。这固然体现了甲骨

文的特点,但由于甲骨文字形复杂,大多不规整,因

此“象形码”很难与实际的甲骨文字形准确对应L7]。

该方案在使用过程中有两大困难:①虽然“一

字一码”大大减少了输入时的重码率,看似提高了输

人效率,但是重码率的减少是建立在增加码元或编

码长度的基础上,这样显然增加了记忆和使用的难

度。②在实际输入某一甲骨字时,要求使用者必须

能准确地按照一定的规范进行字根的拆分。实际情

况是,由于甲骨文构形系统还不成熟,很多构件的形

体规整性差,对于一般用户来说很难进行准确的拆

分,拆分错误就会导致无法输入该字。

基于字形的输入法除了从部首、部件级别考虑

外,也可考虑从笔画级别去进行编码,本文就以此思

路讨论建构一种易学、易用的甲骨文笔画输入法。

2 甲骨文笔画系统分析

任何文字的字符都是一笔一画写出来的,甲骨

文当然也不会例外。虽然甲骨文构形系统很不成

熟,但是甲骨文已是符号化程度很高的文字,构成甲

骨文的最基本单位“笔画”系统已经初见端倪。每一

个甲骨字,都是由各种点和线组织起来的,尽管这些

点和线的特征跟后世笔画不同,但也都是有规则、成

系统的,可以进行分析的。例如表1所示的几个甲

骨字及其笔画分解。

表1 甲骨宇笔画分解示例

甲骨字 笔画结构分解

々 ,>

m n lI ll

I I l

口 I

毋 ‘ },vI一,{

2,》 u 。,

冯寿忠 在《甲骨文笔画系统试析》中对三千多

个甲骨字做了较系统的笔画分析,归纳出八大类笔

画:点、直、弯、曲、折、钩、圆、角。但是,经过实际验

证,这八类中的某些笔画的界定存在模糊性。比如,

折类笔画中的“乃字折 ”和曲类笔画的“折曲7”形状

十分接近,在甲骨字n中难以判断笔画“,}”属于折还

是曲。为了更清晰地界定各类笔画,在《甲骨文笔画

系统试析》的基础上,综合考虑绝大多数甲骨字的笔

画特征后,对甲骨文笔画系统做了重新分类,将甲骨

文笔画系统分为九大类:点、横、竖、撇、捺、弯、框、

曲、圆。分析结果如表2所示。

表2 甲骨文笔画分析

笔画大类 取笔规则 小类 笔形 例字

未与其他笔画相连的点、线皆为点,无论笔画走向如何。(注意与 念 点

J 、 下面的横竖撇捺的区别

横 水平走向且与其他笔画相连者为横,无论长短。 十i

竖 竖直走向且与其他笔画相连者为竖,无论长短 I T

6期 聂艳召等:甲骨文自由笔画输入法 1O5

续表

笔画大类 取笔规则 小类 笔形 例字

撇 左下走向且与其他笔画相连者为撇,无论长短。 , 々

捺 右下走向且与其他笔画相连者为捺,无论长短。 ~ 套

托底弯 ’ ., ’}

盖顶弯 —’~

弯 只向一个方向弯曲者为弯,或上、或下、或左、或右,非弯来弯去。 左弯 (

右弯 )

尖头弯 C

心形框

口形框 LJ 2

房顶框 n 原圊

夕形框

框 起笔到落笔成半包围容器形,开口方向不定。

器皿框 U 叠

泉水框

目形框 曙

贝子框 C 3

钩形曲 吾 £

横曲 、 澎

竖曲 》 々 睁

斜曲 ?

从起笔到落笔有向两个或多个方向弯曲者为曲,曲折多变,弯来 .了 曲 折曲 7 弯去

。 旋曲 6 舌蓦

跪姿曲 j

羊角曲 ^^

乃字曲

正圆 O 晶鲫

方形圆 0 0占罟

尖头圆 O ooo园

三角圆 △ i晷}

长条圆 口 俞竹瘩 圆 无论圆滑

、方正、尖角、曲折、交叉,凡形成封闭者皆为圆。

头形圆 D 色

酉形圆 查

交臂圆 p 宏I

鱼形圆 赫

管道圆

106 中文信息学报

3 基于笔画分析的编码方案

3.1 笔画码元——键元对应关系

根据表2的笔画分析结果,每一个甲骨字都是

由某些笔画按照一定的规律组合而成,这些构成甲

骨字的基本笔画称为“码元”。因此,该编码方案的

码元集为:点、横、竖、撇、捺、弯、框、曲、圆九种笔画。

每个码元与键盘上的字母对应起来形成了一种

映射关系。为方便记忆,取每种笔画名称的汉语拼

音首字母作为键元,即d一点、h一横、s一竖、p一撇、n一捺、

w~弯、k一框、q一曲、y一圆。

3.2拆分规则

根据表2所示的取笔规则,可以将一个甲骨字

拆分为若干笔画组成。如 字,可拆为:圆、曲,编码

为yq。又如田字,可拆为:框、竖、点、点、点,编码为

ksddd。

由于甲骨字形的不规整性,某些字的笔画或者

笔画的顺序难以清晰界定,需要一些原则指导使用

者方便地拆分甲骨字。

(1)无笔顺原则

即无需考虑某个甲骨字的笔画顺序,只要能正

确拆分笔画即可。例如 字,可认为先写周围的点,

亦可认为先写中间的曲,或者其他顺序,输入时,可

以将d、d、d、d、q、q等6个编码字符按随意顺序排

列,无论哪种J『质序都能从字库中调出该字。

这是提高甲骨文笔画输入法实用性的关键所

在。此原则主要基于以下两点考虑:①甲骨字笔画

不规范,不像现代汉字的笔画那么规整,故难以确定

统一的笔画顺序。②若勉强规定笔顺,整个甲骨字

笔顺规则将比现代汉字笔顺规则复杂得多。当用户

输入甲骨字时,必然增加了判断笔画顺序的时间。

(2)尽量体现造字意图

甲骨字的每一笔一画都具有特定的造字含义,

或描摹事物的形状,或指示事物的意义。在进行笔

画拆分时应尽量依照原本的造字意图拆分,如菇(犬)

字,像一条犬的侧视图:在一条犬尾上,上接一撇表

示犬的头部,中间接一竖连两撇表示腹部。因此,该

字应该尽量按照图1所示进行拆分。

(3)自由拆分

如上所述,虽然每一笔都有特定的造字意图,但

是经过三千年的变迁,有些甲骨字中笔画的造字意

图1 依照造字意图拆分贡字图2}字可能的拆分方案

图对今人来讲已经难以辨认。若要求人们在输入每

一个甲骨字时必须准确判断其每一笔画的构字意

图,这是不现实的(至少对一般用户来讲如此),也势

必影响输入的效率。因此,该笔画输入法从大多数

使用者的角度去考虑,尽量将每一个字可能的拆分

方法都存储起来,只要用户输入时与其中一种拆分

方案匹配就可以显示出该甲骨字。比如}(襄)字,可

能有人会看成由框、撇、曲组成,也可能有人看成由

曲、曲组成。如图2所示。在对该字编码时,将这两

种方案都考虑在内,无论输入k、P、q还是q、q都能

调出I字。

无笔顺限制和自由拆分原则减轻了用户的记忆

负担,减少了输入甲骨字时思考的时间,为使用者提

供更为灵活的空间。此即“自由笔画”之含义。

4输入法的实现

4.1字库和码表文件

甲骨文输入法程序的基础为甲骨文字库和码表

文件。字库采用香港中文大学的甲骨文字库,此字

库收录6 199个甲骨字,具有权威性。码表的格式

如下:

<编码><Tab键><甲骨字>[<甲骨字>]

每一个编码中的字符按照字典升序排列。码表

整体结构的排序,在初始情况下按编码长度升序排

列,在输入法的使用过程中则将按照编码被搜索命

中的频率降序实时调整。部分码表如表3所示(为

了下面讨论方便,在表中加了一列序号,但实际的码

表3码表结构示例

序号 编码 甲骨字 序号 编码 甲骨字

l hs 十 6 hhhs 于

2 ddd I 7 hhnps 盘 I I

— 3 hhs T 8 dddks m -II

4 hpw 歹 9 ddnnpps ※

5 hsy lO dddhhsssy 雷

6期 聂艳召等:甲骨文自由笔画输入法 107

表中不需要序号)。

4.2码表搜索算法

采用逐渐缩小搜索范围的思路,过程大致为:

用户输入第一个编码字符C1,从码表文件中搜索包

含C1的编码,得到候选编码集合为T1;输入第二

个字符C2时,从刚得到的结果集T1中去搜索包含

C2的编码,得到T2.-.・依次类推,每多输入一个字

符,搜索的范围缩小一次,最终命中预期的编码。例

如,想输入 ::字,其对应的编码为dddks。按照无笔

顺限制的原则,某次的输入顺序可能为sdddk,则搜

索过程如表4所示。

表4搜索算法示例

输入字符 结果集(编码序号)

S T1(1,3,5,6,7,8,9,10)

d T2(8,9,10)

d T3(8,9,1O)

d 丁4(8,10)

k 丁5(8)

4.3原型程序运行效果

在Java开发环境下实现了原型程序。运行效

果如图3所示。

甲骨文自由笔画输入法

笔西输入匿 wp

~鞭 麓 麟

图3输人法运行效果

用户在笔画输人框输入笔画对应的字符码,候

选字标签会显示搜索到的甲骨字(若超过5个字会

分页显示),通过输入对应的数字在候选字中进行选

择。通常情况下,只需输入部分编码就能在候选框

显示出该字,或者通过翻页就能找到该字。如图3

显示的,输入wp就把包含弯、撇笔画的字全部搜索

出来。

5 结束语

通过对甲骨文的笔画特征进行分析,将构成甲

骨字的笔画归纳为点、横、竖、撇、捺、弯、曲、框、圆九

种笔画,在此基础上设计了甲骨文笔画输入法。该

输入法可以为甲骨文工作者提供方便快捷的输入途

径,提高输入效率。目前,该输入法程序只是演示版

本,下一个阶段的主要工作是将其升级为标准输入

法程序。

参考文献

杨亦鸣,顾绍通,马小虎.甲骨文拼音与部件拆分输入

法EP3.CN:101231558A,2008.7.3O.

刘永革,栗青生.可视化甲骨文输入法的编码与实现

[J].计算机工程与应用,2004,40(17):139—140.

李继明.计算机文字信息处理技术新探一甲骨文象形

码设计方案EJ3.中文信息学报,1996,10(3):18—29.

肖明,胡金柱,赵慧.面向对象的Petri网方法及其在甲

骨文编码中的应用[J].华中师范大学学报(自然科学

版),1999,33(4):495—499.

肖明,赵慧,甘仲惟.甲骨文象形码编码方法研究EJ3.

中文信息学报,2003,17(5):60—65.

肖明,赵慧,甘仲惟.甲骨文象形码编码的模糊数学模

型研究[J],计算机工程与设计,2004,25(3):358—361.

郝文勉.甲骨文编码的线性结构[J].郑州大学学报:

哲学社会科学版,2005,38(1):87—92.

冯寿忠.甲骨文笔画系统试析[c ̄//中国应用语言学

会.第四届全国语言文字应用学术研讨会论文集.四川

大学出版社,2007:35—45.

] ] ] ] ] ] ] ]

👁️ 阅读量:0