`
Liner
  • 浏览: 138532 次
  • 性别: Icon_minigender_1
  • 来自: 西南边陲
社区版块
存档分类
最新评论

我的汉字输入法编码方案

阅读更多
很早就有了这个东西,因为一直没学会编写输入法程序,所以就没有拿出来现眼。
方案尽量简化,主要从汉字本身就具备的偏旁部首出发,用偏旁部首的读音的声母字符,按笔画顺序编码即是。

从前不知道,几乎每一个偏旁部首其实都是有读音有含义的。因为怕学五笔,拼音重码又多——那时紫光还没出来,所以想借用Windows中的输入法生成器做一个简单好用的输入法,查阅了康熙字典和汉语大字典,慢慢就研究了起来——呵呵,谈不上“研究”。

既然花了不少心思做出来,现在还是把它放到这里,虽然现在输入法大战基本上都结束了,我的这个方案也没啥特出的,但可能还是有那么一点点的价值吧。——何 况是自己的博客,放啥自己说了算,呵呵 :)  ——如果你真的想要看看这个方案,建议先看下面3张图片,是偏旁部首的部件集,看图片容易一目了然。

就目前我的观点,各方面表现都十分优秀的输入法好像还没有?从汉字人文的角度上看,台湾的仓颉输入法应该是最有意义的——可惜它在内地没有市场。个人认为输入法的使用其实是有潜移默化的作用的,对汉字的拆字编码应该做到合乎文字本身内在的规律才好!

废话少说,拖出小媳妇来......见公婆咯。。。。

字根部件集:(见下面3张图)

====方案重点节录=========================================================================

拆字规律:
  1. 部件规范原则。字中的构字部件不应只取其形似,部件应是按正确的顺序和规范的笔划书写而成的。如“里”字,不应拆为‘田’+ ‘土’,也不应为‘日’+‘土’,而应是‘日’+ ‘丨’+‘二’(当然,前两者可作为容错码);“求”字,应拆为‘一(横)’+‘氺(水)’ +‘丶(点)’,而非‘十’+‘冫’+‘丶’。
  2. 部件取大原则。如部首‘音’,可视为部首‘立’+‘日’,当前者作为构字部件出现时,不可将之拆成后两者。例如“韶”字,应拆为‘音’+‘刀’+‘口’(ydk),而非‘立’+ ‘日’+‘口’(lrk)。
  3. 必拆原则。除单笔划字无法拆分外(如‘乙’),所有字皆必须拆分(例如输入部件字本身时)。如“音”,是一个独自成立的单字,此时应拆为‘立’+‘日’(lr)。
  4. 先成原则。当笔划所归属部件有歧义时,该笔划划归先形成的部件(按字的书写顺序)。如“元”字,既可看为‘二’+‘儿’,亦可看作‘一(横)’+‘兀’,此时按先成原则确定为前者。
取码规则:
  1. 按汉字的正常书写顺序,考虑规范编码和功能划分:
  2. 对单字:取第一、第二和最后一个部件的码元(即部件声母首字符)。若单字取不足三码,可重复取最后一码,也即所有单字都有三码,如“码”字,只有两个码元(sm),但编写码表时取为smm;如“乙”字,可取为ooo。
  3. 对双字词组:取首字首码、首字末码+末字首码、末字末码(即:11+13+21+23)。
  4. 对三字词组:取首字首码+中字首码+末字首码+末字末码(即:11+21+31+33)。
  5. 对四字以上词语:取首字首码+次字首码+第三字首码+第四字首码(即:11+21+31+41)。
  6. 对高频字:取单字首码。
  7. 对快捷双字词:取首字首码+末字首码(11+21)。
容错考虑:
  1. 部件本身可能会出现一字多音,这样,组码时一个字就可能会有多个编码。我们可以以标准读音为主(标准读音是指能代表部件本身 含义的那个字的读音),兼顾其它常用读音作容错考虑。此类部件可属于多个码元。如‘厂’,标准读音为“hǎn”(音罕。《说文》山石之崖巖,人可居。象 形。高鸿缙《中国字例》“厂字本象石岸之形。……”),正常应属于码元‘h’,但简体字中大多将其作为“廠”字的简化字(似忘其本)。作为容错,它也归属 于码元‘c’。
  2. 字的书写顺序不是很明确时(可能源于书法的原因),可适当考虑多种书写方式时的拆字规则。这也会产生字词的 多个编码。如“曹”字,标准书写顺序为12512212511(引自 “金山词霸”中汉语词典资料。1~5分别代表基本笔划“横、竖、撇、点+捺、折+勾”),拆字为‘一’+‘丨’+‘日’(hor),但也可能拆为‘艹’+ ‘曰’+‘日’(cyr或crr。部件‘曰’正属码元‘y’,容错划归于码元‘r’)。
  3. 因单字容错码的存在,故由单字组成的词组和短语也将存在容错的情形(其数量可能不小)。
========================================================================================

【部件集】详细说明图示

字根部件B-M:
字根部件B-M

字根部件N-Z:
字根部件N-Z

字根部件 aeiouv:
字根部件aeiouv
  • 描述: 部件码 b~m 区段
  • 大小: 46.5 KB
  • 描述: 部件码 n~z 区段
  • 大小: 49.3 KB
  • 描述: 部件码 aeiouv 区段
  • 大小: 17.9 KB
分享到:
评论

相关推荐

    万能五笔输入法平台 7.70

    早在 1995年“快笔”就得到国家的认可,获得了发明专利【音形码汉字输入法--中国专利号:95120931.0 】乃是我国真正获得颁发发明专利证书的输入法,腾飞于从单一的编码方案,转向多元的编码方案的设计,于1997年获得...

    中文拼形输入法 v2.0.rar

     中文拼形输入法2.0版,采用GB2312-80,这是根据字母异化挖掘到新的汉字信息属性—汉字形符研发的,所以该输入法的所有技术指标,均与目前输入法有着迥然不同,成为万码奔腾中一朵含苞欲放的奇葩,未来将以一种...

    何冬州制用的五笔单字输入法

    码表分成多种级别和子类, 可以方便的展开与收缩查看, 可以排序,可以在一个码表文件中同时挂接多种编码方案列, 而只选用其中一部分. 这样, 就成了一个通用同用的平台, 有效的节省重复, 统一多种输入法的局面. C5 我...

    万能拼音输入法

    早在 1995年“ 快笔 ”就得到国家的认可,获得了发明专利【音形码汉字输入法--中国专利号: 95120931.0 】乃是我国真正获得颁发发明专利证书的输入法,腾飞于从单一的编码方案,转向多元的编码方案的设计,于1997年...

    配置好的傻瓜化小狼毫全拼+多种双拼+五笔86-98+笔画输入法v200312 - 17种方案

    输入法方案注意事项 “五笔86+笔画·单字含生僻字”:专门用于处理生僻字,可五笔编码输入,也可直接以“横h竖s撇p捺n(点d)折z”按笔顺逐个笔画输入。 以下是小狼毫任务导向式参数修改指南: ...

    海峰五笔输入法 9.4

    海峰五笔 V9.4 vista五笔输入法主要功能介绍:两种可选的编码方案:86版(传统五笔)和98版,完全采用标准规则。通用于Windows95/98/ME/NT/2000/XP/2003/vista下,全面支持64位系统。收录UNICODE超大字集全部七万多中日...

    拼音输入法自然语言处理

    汉语拼音输入法的编码是依据汉语拼音方案(汉字的读音)进行输入的一类中文输入法。早期只有全拼这种方式,即完全依照汉字的整个音节来输入。随着技术的发展,拼音输入法不仅可以简拼还出现了一种只需两键就能输入...

    笔画输入法用5个字母键(H I P D V)

    ④、笔画输入法无需记忆繁琐的字根和编码,一分钟能入门; ⑤、笔画输入法以键盘字母的读音和象形两种结合取码方案; ⑥、笔画输入法用5个字母键(H I P D V)相对应汉字的笔画横竖撇点折; ⑦、笔画输入法是按汉字...

    万能输入法,你会五笔打五笔;会打拼音打拼音;会英语打英语;五笔拼音英语都不会,就打5个简单的笔画

    早在 1995年“ 快笔 ”就得到国家的认可,获得了发明专利【音形码汉字输入法--中国专利号: 95120931.0 】乃是我国真正获得发明专利证书的输入法,腾飞于从单一的编码方案,转向多元的编码方案的设计,于1997年获得...

    小小输入法v2019.06.30官方免费安装版

    小小输入法是一个集合形码,音形码,音码等多种输入法的强大的中文输入法,有了他,你就可以快捷的输入各种疑难汉字,一切都可以内置,它支持各种编码方案,有需要的可以下载过来试试。 软件特色  1、支持多种...

    敦利极速输入法

    直观易懂,学习快 敦利极速输入法用25个键符给汉字编码(v为万能学习键),编码直观易懂,10分钟,即可入门!无需死记硬背,很快就能学会,记忆量最少,只有十个。 辅助功能强,初学者瞬间成高手。完美的逐键...

    王码五笔 万能五笔输入法 珍藏版

    早在 1995年“ 快笔 ”就得到国家的认可,获得了发明专利【音形码汉字输入法--中国专利号: 95120931.0 】乃是我国真正获得发明专利证书的输入法,腾飞于从单一的编码方案,转向多元的编码方案的设计,于1997年获得...

    五笔字型输入法教程

    所谓汉字编码,就是采用一种科学可行的方法,为每一个方块汉字编取... 操作人员对编码方案的基本要求是:记忆量少,处理字多,规律性强,规则简明,好学易记,操作直观,击键最好和写字相仿,键数较少,便于实现盲打。

    敦利极速输入法4.0

    直观易懂,学习快 敦利极速输入法用25个键符给汉字编码(v为万能学习键),编码直观易懂,10分钟,即可入门!无需死记硬背,很快就能学会,记忆量最少,只有十个。 辅助功能强,初学者瞬间成高手。完美的逐键...

    三笔输入法 v2.2 官方免费版.zip

    3码打字,4码打词的设计思想,第4个编码全部属纯词组的编码空间,绝无象一般的输入法(4码打字4码打词)引起字词编码冲突重码现象,实现盲打的最佳方案方。 5、繁简体兼用: 包含特大字库,能输出二万七千多汉字...

    特好用的五笔输入法-供参考

    码表分成多种级别和子类, 可以方便的展开与收缩查看, 可以排序,可以在一个码表文件中同时挂接多种编码方案列, 而只选用其中一部分. 这样, 就成了一个通用同用的平台, 有效的节省重复, 统一多种输入法的局面. C5 我...

    万能五笔输入法

    早在 1995年“ 快笔 ”就得到国家的认可,获得了发明专利【音形码汉字输入法--中国专利号: 95120931.0 】乃是我国真正获得颁发发明专利证书的输入法,腾飞于从单一的编码方案,转向多元的编码方案的设计,于1997年...

    拼音加加输入法下载v5.2.zip

    而且你再也不会被念不出来的字难住了,你用笔画输入汉字,它还会提示你如何发音。 拼音加加 v5.2 官方正式版主要更新列表: 1.增加使用(Shift 8)作为通配符输入用于查询词组,且对替换对象中部分非常用字注音。 2...

    五笔输入法培训教程.pptx

    五笔字型输入法的特点 五笔字型是一种纯字型的编码方案,它由130个字根组字,重码少,便于盲打,输入速度快。 五笔概述 返回 五笔输入法培训教程全文共53页,当前为第16页。 横 竖 撇 捺 折 1 2 3 4 5...

    传统输入法(输入法的生成器)改进包

    7、汉字上屏后,编码输入框同时消失(设定反查编码时无效) 8、可选用 ;‘ 选二三重码 9、可选用 ,。 翻页 10、注册表中设置<ENTER>=0时,编码可以上屏 11、,./;即使为码元,第一码也按标点输出 12、更正设置“插...

Global site tag (gtag.js) - Google Analytics