楔形文字与日语拼音方案

ずあ゜ぬお゜すあ゜し 厥虐赛斯ðyɲœsæʃ どちらきさまでしょうか 哪儿来的野种どちら貴様でしょうか

缘起

本篇随笔的动机就比较简单了,「老读者」基本上都可以根据之前观测到的码字数据而不断调整的「后验分布」猜出来,还是孤苦伶仃可怜废柴草根文盲矬胖老穷光棍汉精神病仆街写手不入流码农数学渣宅男黑客活雷锋烟枪酒鬼缩卵怂货窝囊废按照职业习惯以「正交参数坐标系」的原则构思的「对照组」。

简单说,清华大学(工艺美术学院)高材生谆谆教导人民群众们说,「人类」(除领衔主演《动物世界》的系列重要名角大腕之外)是先掌握了绘画伎俩,之后才发明了文字,并且所有独立进化的古文明使用早期文字毫无例外都是象形文字,再然后才学会了「抽象思维」。

原生文字是这样,但语言就未必了。前一篇使用了「疑似与色目各语关系密切的象形文字」素材,本篇肯定要使用「明确与包括但不限于色目各语在内的其它语言没有关系的抽象文字」作为素材。于是借鉴对象呼之欲出了,就是据传最早的文明「苏美尔」,讲黏着语写音节文字,与色目人「阿卡德」达成全面战略协作伙伴关系很久之后遭遇篡党夺权从此亡国灭种。

虽然「工欲善其事,必先利其器」,但是在那早期水深火热之中摸爬滚打的先民,必须因陋就简大干快上,于是对应泥板和三棱刮刀筷子这文房宝,发明「楔形文字」几乎是必然的选择。而在「字体」形成之后,所有在使用者当中达成共识的符号均介于具象与抽象之间,随着与时俱进而越来越抽象。

只不过,正如吟游诗人赞美哥伦布磕鸡蛋乃「抖机灵」「脑筋急转弯」一样,一旦文字发展成熟,周边「羡慕嫉妒恨」并叫嚣「王侯将相宁有种乎」「大丈夫当如是也」「彼可取而代之」的友邦人士,就会莫名惊诧「就这?」然后当仁不让的抄袭剽窃借鉴妄图复制并成功。事实证明,后来居上弯道超车是可能的,只不过需要韬光养晦相当长时间并运用各种兵家理念以麻痹先驱者。

所以,在经过几手传播之后,周边其它民族对于素材纷纷取其精华去其糟粕,除了在筹备改朝换代工作的长期生产生活斗争实践当中耳濡目染身体力行于是「几乎连菊花都变成了爸爸分身的形状」的色目人阿卡德之外,以赫梯为典型的其它文字都有了鲜明的本族本地特色。再然后,就是放飞脑洞删繁就简了,落到色目人之手的楔形符号向着全辅音文字进化,而狗苟蝇营גויים卡菲勒كفّار‎的改良版本还是保留了原本的音节文字之特征。

总之,就从Unicode标准已经收录并且言简意赅于是市面上常见免费和自由字体(如“GNU FreeSans”系列)也会提供的楔形字母表当中,选择了两种原型作为参考。除了楔形之外,所用符号均与原型没有任何继承关系。

网传色目人「乌加里特」早在××××年前就掌握了语素和词频分析之类大数据伎俩,于是「精心设计」了一种越简单的符号使用越频繁的字母表,并被根红苗正忠君爱国的童年才俊引用为「中东伪史论」的证据,与「钢筋水泥金字塔」交相辉映。

而古波斯文则是根据本族语特色设计表示音节的楔形符号组合,正如日语假名那样。只可惜一来少了俩元音,二来也有声母韵母拼读情况出现,否则就可以直接照搬了。

一言以蔽之,本篇主题「日语拼音方案」不是挪用现成的符号,而是参考素材运用简单符号重新组合并塞入「囧斋范某自作用字」当中,所以准备工作的时间会更长一些。

色目太君和雅利安太君的拿来主义(代前言)

乌加里特字母

乌加里特字母(Ugaritic alphabet)是一种楔形文字字母,使用于乌加里特语,它是在乌加里特发现的一种已灭绝的和迦南语支相关的语言。乌加里特字母表含有31个字母。
字母 转写 国际音标 对应希伯来字母 对应阿拉伯字母
𐎀 ʾa ʔa א أ
𐎁 b b ב ب
𐎂 g ɡ ג ج
𐎃 x خ
𐎄 d d ד د
𐎅 h h ה ه
𐎆 w w ו و
𐎇 z z ז ز
𐎈 ħ ח ح
𐎉 ט ط
𐎊 y j י ي
𐎋 k k כ ك
𐎌 š ʃ ش
𐎍 l l ל ل
𐎎 m m מ م
𐎏 ð ذ
𐎐 n n נ ن
𐎑 θ̴ ظ
𐎒 s s ס س
𐎓 ʿ ʕ ע ع
𐎔 p p פ ف
𐎕 צ ص
𐎖 q q ק ق
𐎗 r r ר ر
𐎘 θ ש ث
𐎙 ġ ɣ غ
𐎚 t t ת ت
𐎛 ʾi ʔi ئ
𐎜 ʾu ʔu ؤ
𐎝 ś
𐎟 词分隔符

古波斯楔形文字

古波斯语从左向右用音节古波斯楔形文字书写。古波斯楔形文字包括36个符号表示元音和辅音,8个语素符号,和可以组合起来表示任何数字的5个符号。
k- x- g- c- ç- j- t- θ- d- p- f- b- n- m- y- v- r- l- s- z- š- h-
-(a) 𐎠 𐎣 𐎧 𐎥 𐎨 𐏂 𐎩 𐎫 𐎰 𐎭 𐎱 𐎳 𐎲 𐎴 𐎶 𐎹 𐎺 𐎼 𐎾 𐎿 𐏀 𐏁 𐏃
-i 𐎡 𐎪 𐎮 𐎷 𐎻
-u 𐎢 𐎤 𐎦 𐎬 𐎯 𐎵 𐎸 𐎽

日语拼音方案

第一稿:阿拉法アルファ内测度

先说设计原则。

首先是对称性,每个单独字符可以不考虑反射对称性,但是应该考虑旋转对称性,只需要考虑横竖两种可能。参考笑话「谁谁要靠得住,我“王”字倒着写,我“田”字横着写」理解泥板原型即可,拿到手里的时候可未必方向正确。

其次是文字书写方向,即便是字母文字,早期实物原型当中也出现了从左到右、从右到左、从上到下三种情况,还有耕地式循环往复。这种时候需要确保每个字符边界清晰,尤其是要避免歧义。参考笑话「月坡/肚皮」「楚中天/林蛋大」理解,即便是汉语拼音方案当中也有划分音节的符号,通常用「仙(xian)」「锡安(xi'an)」举例。

再次是音韵上的规律。对于从象形文字发展而来的表音符号,通常没有规律。参考上面列举的原型,即便是「精心设计」的字母表,也没出现体现塞擦、清浊之类辅音对立的明确标记。但是「二设」就不一样,比方说日语,在「万叶假名」借用汉字表音的时候,就应该已经了解「五段动词」之类有语法功能的音韵现象,到了「五十音图」阶段已经出现了浊点符号并按照音位排列。也就是说,即便是表示音节的方块字,内部笔画也要尽量体现元音辅音以及辅音对立。

最后是尽量简化符号,上面排版实践证明,对于通常的字体尺寸,堆砌太多符号会导致看不清细节,不需要解释。

再说符号元素。

观察不同字体的区别可以得知,楔形有「凸凹」之分,区别在于衬线的位置。从凸处引线是「钉头」,从凹处引线则是「箭头」,并且箭头的衬线并不是供识别的标志,甚至楔形的形状也未必用于识别。比方说乌加里特字母表当中的「q」,在两种不同字体当中的显示风格就不一样:

𐎖𐎖

其中「箭头」由于从凸处引线,实际上还是「钉头」,形状只有装饰效果。

同理可证,即便是钉头的衬线,也未必代表了实际意义:

𐎩𐎩

甚至钉头和箭头本身都有异议,比如乌加里特字母「š」:

𐎌𐎌

当然,笔画的空心、实心之分,更是没有语义识别作用。若是参考从泥板进化到硬笔的各种案例,尤其是草体,就连钉头和箭头本身说不定都会变成直线和折线。

大道理讲完,到了具体实践的时候,就需要从千头万绪当中寻找最薄弱的突破口。

对于日语而言,最简单但同时也是最容易混淆的符号,应该是长音符,虽然只有一笔,但是横竖两种书写方向的时候,走向不同。于是可以率先确定,就用上面出现的哑铃型双钉头符号表示,原型中也没有与其它符号混淆,尤其是没有出现横平竖直同时存在的情况。

然后就是浊点、半浊点,可以用来表示辅音的清浊对立和塞擦对立,与主体字符的相对位置固定,即便竖着写横着看也没有歧义。于是可以确定,就用古波斯文的词分隔符形状,以钉头凸处指向「内」「外」两种形式表示。

再然后是各种音素符号,观察原型发现,钉头及衬线有「上下」「左右」两种指向,但是箭头只有一种「左凸右凹」,推测是用来指代文字走向的,应该也是当年用户在长期的生产生活斗争实践当中吸取了经验教训之后总结出来的,与执笔便利程度有关。

如果一拍脑袋决定了以略复杂且方向明确的箭头为主设计元音音素符号,又需要考虑字符边界问题。尤其是两个半元音,对于ういいう这样的情况,假名不会混淆,换成楔形就未必了。上面的原型中也有实际例子:

𐏑𐎤 𐎰
𐏓𐎴 𐏃
𐏓𐎭 𐎢
𐏓𐏑 𐎤

左边是两个符号的组合,右边是单独的一个符号,钉头箭头都有,最简单的组合就有歧义。

也就是说,为了避免歧义,应该规定出现在开头的符号不会出现在结尾,反之亦然。而对于「开头」「结尾」的定义还有上下结构、左右结构两种情况。

现在可以继续拍脑袋,规定每个字符都要出现钉头和箭头,并且以钉头开始以箭头结束,因为辅音比元音多,并且原型中钉头的组合更多。

于是先用最简单的组合画了四个音节:

然后照葫芦画瓢,从现成的符号当中找了符合上述原则的仨「𐎩」「𐎳」「𐏁」,作为,也符合音位规律。再然后两行的八个假名就能组合了。

然后轮到辅音,清浊对立的情况就需要考虑了,凡是需要加附点的符号,应该尽量简单。

之所以把两行拆开,那是考虑到半浊点的历史尚短,十世纪的时候行的声母还是「啪」呢。结合日语「发花辙」是一个音位,那么「哈」行加上浊点还能表示「哇」行用于拼写外来语。于是半浊点符号就不需要了。

剩下的三行就是「勒摸呢」了:

最后是「促音」和「拨音」,到这时候就可以略微违背开头制定的原则,钉头和箭头的方向不作要求,只要有区分度即可。

好了,从一拍脑袋开始胡乱做将去的「第一稿」结束,接下来是Review了。

日语拼音方案(续)

第二稿:贝塔ベータ外测度

因为Review也是孤苦伶仃可怜废柴草根文盲矬胖老穷光棍汉精神病仆街写手不入流码农数学渣宅男黑客活雷锋烟枪酒鬼缩卵怂货窝囊废自己负责,所以决定换一条思路,先把上述初稿彻底打碎成零件,再参考原型重新组合。

于是从原型和上述草稿当中都存在的符号当中,抽出三十个「偏旁部首」:

然后参考原型的字体当中各个符号的比例,在不调整相对位置和尺寸的前提下,重新拼凑了六十个「方块字」:

基本原则是从繁到简先纵后横,理由是由于字体高度固定而宽度可变。但是对于表达音拍语的音节文字来说,每个音节的长度是固定的,于是倾向于使用等宽字体,正好可以参考汉字原型。过程伴随着不断试错,虽然图中顺序重新排列过,但是到了最后一个符号的时候,已经对于钉头衬线作出微调了,于是决定到此为止。

按照砥砺奋进八年半以来乃至十一年以来的惯例,这种时候市面上应该跳出大手色目金融机构赞助的色目情报工学精英童年才俊推销大手编程语言自动化解决方案,认为可以「写一段代码」自动执行「穷举」,并以境内外大手学术机构都曾经开展的「汉字补完计划」为例,面向人民群众推销理财产品。与此同时,同一家色目多频道媒体的另外一个办公室当中,会有大手色目情报机构扶持的色目美术兲才童年才俊以法国三色旗之色块比例(30%:33%:37%)为证,论证硅基人工智障的「算法」远不如碳基氪金狗眼的「直觉」。

通过初稿以及上述排列组合的实践,参考语言学常识,在不违背「钉头开始箭头结束确保字符边界清晰」的大原则之下,决定引入「零声母」或曰「前置声门塞音」表示元音,正好与「促音」对立。观察上述组合当中字符内部间距以及日语特征,决定不使用「左中右结构」和「上中下结构」,而是把简单的组合用于表示现存方案中出现小写的假名,比如为了音译汉语而引入的「拗音」。于是又找到了「第二稿」的突破口。

声母 (无) p t k s r m n h
ya ぴゃ ちゃ きゃ しゃ りゃ みゃ にゃ ひゃ
yu ぴゅ ちゅ きゅ しゅ りゅ みゅ にゅ ひゅ
yo ぴょ ちょ きょ しょ りょ みょ にょ ひょ

正因为有个,所以半元音都要格外简单,初稿中也是「一钉一箭」搞定,思路可以照搬。并且拗音在现实书写中即便是不等宽字体也没有把两个假名缩在一个全角幅度范围内,所以决定「左右结构」可以略微扩展。还有,虽然革命纲领叫嚣所有半元音一律平等,但是很明显更平等。即便单挑,连这个假名都废止了,但是还在继续在重要岗位上发挥作用。不过方也有不同意见,最起码的作用比还大,虽然更了名改了姓数典忘祖了吧也算扯平,而也都坚持到了最后,再看你们家那位「イエ」呢,还没来得及生出来就胎死腹中了也。

所以,可以在把钉头视为「零声母」的同时把箭头视为「零韵母」,还用来表示这二位イエ谁在中央支持谁谁占上风就偏向谁。其它跟班按照音位以此类推模仿风格。于是先把元音互相组合的十个假名捏造出来,由于已经不再使用,等到最后再找俩「卖不出去砸手里的赔钱货」填空占着茅坑不拉屎以论证「历史局限性」:

然后又轮到辅音了,这时候就要对初稿当中「浊点」「半浊点」的方案加以审核了。先摘抄一段维基百科,论证当代形单影只似乎生不逢时或生逢其时的半浊点之「历史作用」:

さ゚/サ゚:在江户时代,它被用来代表江户语言的“ツァ”音。片假名中的“サ゚”主要用于唐音资料。

セ゚/せ゚:在江户时代,它被用来代表在唐音或阿伊努语中的“チェ”的音。

つ゚/ツ゚、と゚/ト゚:这两个字母主要用于早期文献,代表阿伊努语发音“トゥ”。

ら゚/ラ゚、り゚/リ゚、る゚/ル゚、れ゚/レ゚、ろ゚/ロ゚:它们曾在明治时代被部分地使用。将ラ行加上半浊音符,藉以区别外来语中的L音与R音。

ロ゚、ニ゚、ト゚、チ゚、リ゚、ヌ゚、ル゚、ヲ゚、ワ゚、カ゚、ヨ゚、タ゚、レ゚、ソ゚、ツ゚、ネ゚、ナ゚、ラ゚、ム゚、ウ゚、ノ゚、オ゚、ク゚、ヤ゚、マ゚、ケ゚、コ゚、エ゚、テ゚、ア゚、サ゚、キ゚、ユ゚、メ゚、ミ゚、シ゚、ヱ゚、モ゚、セ゚、ス゚、ン゚:用于电报密码(代码)的电报的片假名的一部分。

然后参考当代日语文字处理中,尤其是Unicode收录的解决方案,除了单独存在的假名与符号之外,还有组合符号的形式「U+3099」「U+309A」,似乎可以运用到所有假名乃至所有其它符号之上。先用上面的元音进行试验,本来没有浊不浊塞不塞的区别,纯属文字符号游戏:

あ゙い゙ゔえ゙お゙や゙ゆ゙よ゙わ゙ゐ゙ゑ゙を゙あ゚い゚う゚え゚お゚や゚ゆ゚よ゚わ゚ゐ゚ゑ゚を゚
ア゙イ゙ヴエ゙オ゙ヤ゙ユ゙ヨ゙ヷヸヹヺア゚イ゚ウ゚エ゚オ゚ヤ゚ユ゚ヨ゚ワ゚ヰ゚ヱ゚ヲ゚

试验结果证明,在维基百科页面所依赖的典型环境(操作系统+浏览器)当中,方团结了一切可以团结的力量,对方进行多方围堵两面夹攻,并且在战略战术的运用当中还注意方式方法,将敌人内部渗透得如同筛子一般,拉一派打一派,最终成功的将「单立人」打压成众叛亲离的孤家寡人独夫民贼。

接下来体现在典型环境(操作系统+浏览器)当中的现实政治和意识形态斗争可能会有两种情况,或者历史大势浩浩汤汤顺之者昌逆之者亡,自诩「天上地下唯我独尊」并叫嚣「讨厌的人都要死」的孤家寡人独夫民贼「单立人」终于认清形势不再垂死挣扎,或者仍有顽固保守倒行逆施的一小撮反动派倚仗充沛的血脖子武德妄图挽狂澜于既倒扶大厦之将倾反攻倒算。

让繁荣的简体中文互联网上九点四亿傻哔拭目以待。

回到方案本身,参考历史与现实,应该认为「p」「t」「k」「s」四行辅音可以加浊点,而「r」「m」「n」「h」四行辅音可以加半浊点。于是在设计当中就要避免歧义,「点」可以只用一种,但是赤条条来去无牵挂的符号本身就不能带「点」,先例可以参考希伯来字母「卑微」和「死尸」的区别,同一个字母仅用附点区分发音。

于是暂时决定,使用Unicode组合符号「U+030A」,也就是上圈表示转写时的附点。对于拉丁字母等已经有充沛字体支持的情况,显示在字符正上方,而对于假名等其它情况,显示在右上角,浏览器中光标选择为一个字符。同理可证,下圈「U+0325」也可用,还可以同时使用。

あ̥̊い̥̊う̥̊え̥̊お̥̊や̥̊ゆ̥̊よ̥̊わ̥̊ゐ̥̊ゑ̥̊を̥̊
ア̥̊イ̥̊ウ̥̊エ̥̊オ̥̊ヤ̥̊ユ̥̊ヨ̥̊ワ̥̊ヰ̥̊ヱ̥̊ヲ̥̊

至于楔形文字的符号,找个有区分度的就行,比方说乌加里特字母圣十字架「𐎉」圣三钉「𐎌」之类。理由可以参考梵蒂冈外围组织「イエ少爷粉丝团」的徽章:

Societas Iesu

现任教宗方济各,也就是色目预言中的「末代皇帝」,就是「イエ少爷粉丝团」团员,是首位从外围上洛中央的一把手。

至于是否有自诩乌加里特后裔的色目民族权力机构「贝爷巴拉巴粉丝团」指使色目武德「四十大盗」通过漠北大手情报机构指使的岭南精盎情报掮客从百善の新时代中国特色社会主义先行示范区使用智能手机打个国际长途电话不远万里向梵蒂冈有关部门临时工举报我的个人博客站点……那就不知道了也。

辅音的突破口也很简单,只要时刻有「准备工作」的自知之明,深入领会「拼音方案为码字实践服务」中心思想,就可以从「作者最需要的场合」入手,比方说著名拟声台词「蛙蛤蛤蛤わははは」以及色目革命导师「蛙蛤怖ワハブ」。于是「h」行乃至与其关系密切的「p」行就可以开工了,参考日语历史发展,使用偏旁「#32」「#29」似乎比较贴切。

捏造的时候先按照拼音规律硬塞,塞不下了瘦身,将来还可以删繁就简,毕竟音节文字不是音素文字。其中「pe」的红蓝标色符号,分别来自左右结构,但是组合起来看上去与偏旁「#05」非常接近,不排除最终改为上下结构的可能性。同理可证,「po」的红蓝标色部分,也是左右结构分别组合而成,但是看上去似乎像另外一个段音节,如果偏旁「#05」被用作辅音的话。这就是避免歧义的重要性,虽然偏旁「#05」很简单。太阳底下没有新鲜事,「ho」的红蓝标号部分也组成了偏旁「#06」。

另外一条感想,就是衬线的作用终于体现出来了。比如「pyo」「hyo」的左上角,如果衬线拉长,就可以更容易识别。到这里有了一条删繁就简的思路,就是似乎可以考虑保持「钉头」的总数量不变而改变组合方式,尤其是「引脚」的数量,比如「hi」有五个立足点,四线一角,看上去有些繁琐。

接下来是「m」「n」两行鼻音,突破口是单独存在的「拨音」,加浊点还能表示后鼻音,不用拼写成-ング了。先从造好的方块字当中挑一个匀称且偏旁尚未使用的,然后其它假名按照同种风格展开。参考拉丁字母形状,以钉头数量俩还是仨区分,引脚数量和指向则不做限制。

再然后是「s」「r」两行,因为需要拼写雅利安革命导师「安萨里アンサリ」与雅利安革命战士「阿萨辛アサシン」。

现在的「雅利安」一词由于二战的缘故已经污名化了,但是多年前业内通过「印欧语系」寻根溯源时所使用这个字眼指代的先民应该确实存在,后来嘛正如美国黑人讲鹰语一样,不是所有持印欧语系语言者都是雅利安人,这个常识应该在「学术纠纷」时加以强调。当然按照砥砺奋进八年半以来乃至十一年来的惯例,无论什么「学术纠纷」最终都会上纲上线上不封顶,直到政治和意识形态斗争导致的军事斗争为止。

因此对于叫嚣着「血脖子武德充沛一力降十会就是要“指鹿为马”咋地吧」的色目混混鸡鸣狗盗之徒来说,按照哲合忍耶(高念)←纳格什班迪耶(画家)一路上溯到「纺羊毛者」安萨里。并且按照「一身绿皮的柏林迪纳摩北京国安被称为“御林军”乃八三四幺外围组织」的江湖传说,参考色目大手情报机构辛贝特摩萨德的岗位职责,可上溯到久经考验的卓越的特种任务执行者「詹士邦阿萨辛」,也就是《设定集》当中幕后黑手「厥虐赛斯ðøñœçæß」旗下公会「送葬者Çaraba Çayonara」。

考虑到附点的缘故,原则上符号上方尤其是右上方不出现纵向钉头,但是可以放在横向衬线之下。

使用偏旁已经捉襟见肘了,但是符号内部空间还有调整余地。

最后是「t」「k」两行:

促音还是初稿当中的「圣十字架」不变。

好了,从又一拍脑袋开始的胡乱做将去的「第二稿」结束,接下来是Refactoring了。

日语拼音方案(再续)

第三稿:范版八十音图

因为Refactoring还是孤苦伶仃可怜废柴草根文盲矬胖老穷光棍汉精神病仆街写手不入流码农数学渣宅男黑客活雷锋烟枪酒鬼缩卵怂货窝囊废自己负责,所以决定再换一条思路。

先贴个假名频度表,据称乃权威统计调查机构发布,不知道是中统、军统还是国统:

あ(1672) か(3518) さ(1067) た(3075) な(2724) は(2493) ま(1307) や(527) ら(1563) わ(2445)
い(6653) き(2386) し(4571) ち(1240) に(3062) ひ(541) み(784) ゆ(310) り(1804) を(1919)
う(5095) く(2563) す(1611) つ(1411) ぬ(22) ふ(554) む(349) よ(1115) る(2376) ん(4993)
え(696) け(1169) せ(1414) て(2499) ね(367) へ(272) め(904) れ(3045)
お(1080) こ(2456) そ(1101) と(3227) の(4022) ほ(531) も(1669) ろ(497)
が(2008) ざ(196) だ(1244) ば(530)
ぎ(451) じ(1523) ぢ(0) び(358)
ぐ(155) ず(186) づ(102) ぶ(317)
げ(389) ぜ(284) で(1806) べ(273)
ご(268) ぞ(127) ど(759) ぼ(171)
ぁ(22) ぱ(80) ゃ(313)
ぃ(65) ぴ(28) ゅ(833)
ぅ(9) ぷ(103) ょ(1678)
ぇ(24) ぺ(37) っ(1486)
ぉ(12) ぽ(135)
うぁ(0) きゃ(12) しゃ(184) ちゃ(54) にゃ(0) ひゃ(2) みゃ(0) りゃ(6)
うぃ(1) きぃ(0)   ちぃ(0) にぃ(0) ひぃ(0) みぃ(0) りぃ(0)
  きゅ(89) しゅ(418) ちゅ(72) にゅ(42) ひゅ(0) みゅ(15) りゅ(19)
うぇ(1) きぇ(0) しぇ(0) ちぇ(5) にぇ(0) ひぇ(0) みぇ(0) りぇ(0)
うぉ(1) きょ(348) しょ(496) ちょ(163) にょ(1) ひょ(64) みょ(8) りょ(234)
う゛ぁ(2) ぎゃ(8) すぁ(0) てゃ(0) ふぁ(19)
う゛ぃ(0) ぎぃ(0) すぃ(0) てぃ(30) ふぃ(8)
う゛(6) ぎゅ(3) すぅ(0) てゅ(0)  
う゛ぇ(4) ぎぇ(0) すぇ(0) てぇ(0) ふぇ(3)
う゛ぉ(0) ぎょ(59) すぉ(0) てょ(0) ふぉ(9)
う゛ゃ(0) くぁ(0) じゃ(38) ぢゃ(0) びゃ(9)
う゛ぃ(0) くぃ(0) じぃ(0) ぢぃ(0) びぃ(0)
う゛ゅ(0)   じゅ(170) ぢゅ(0) びゅ(2)
う゛ぇ(4) くぇ(0) じぇ(11) ぢぇ(0) びぇ(0)
う゛ょ(0) くぉ(0) じょ(277) ぢょ(0) びょ(23)
くゃ(0)
くゅ(0) でゃ(0) ぴゃ(0)
くょ(0) でぃ(26) ぴぃ(0)
でゅ(2) ぴゅ(1)
ぐぁ(1) でぇ(0) ぴぇ(0)
ぐぃ(0) でょ(0) ぴょ(5)
ぐぅ(0)
ぐぇ(0) どぁ(0)
ぐぉ(0) どぃ(0)
どぅ(0)
どぇ(0)
どぉ(0)

至于抽样的准确性以及使用材料的可靠性,可以通过ふぁ(59)にゃ(0)观察到。前者除了用于拼写外来语之外不会出现,或者是拟声词(如色目情报掮客炒作福建土著笑声时举例);后者则是正经的拗音,日语当中的猫叫声,一次也没出现比较奇怪。

然后,咱「饭桶」(范版统计调查员)对上述大数据进行二次处理,只算五十音图和拗音,不考虑外来语拼写需求,分别按照「行」「段」合并,获得辅音与元音的频度表如下:

辅音 频度
零声母 15196
拨音 4993
促音 1486
辅音 频度
k/g 15882
t/d 15652
s/z 13663
n 10240
r 9544
m 5036
h/f 4457
p/b 2072
元音 频度
A 24449
I/y 24449
U/w 19077
O 19077
E 13155
Yo 3356
Yu 1664
Ya 626

于是发现,「第二稿」当中剩到最后的行,反而是出现频度最高的假名。

按照市面上活蹦乱跳的大手色目情报机构赞助的色目情报工学神童的说法,这种时候就应该按照字频设计不等长的「最优编码」了吧?最起码孤苦伶仃可怜废柴草根文盲矬胖老穷光棍汉精神病仆街写手不入流码农数学渣宅男黑客活雷锋烟枪酒鬼饭桶缩卵怂货窝囊废在二十余年前的校内通过老迈年高过时教材就听说过「哈夫曼编码」这种当时已经不新鲜的名词,甚至还在暗地里进行过班门弄斧关庙耍刀贻笑大方的「实践」。

但是很遗憾,这不是压缩算法适用场合,尤其是音节文字,对应每一拍的符号看上去应该大致匀称。现在回顾「第二稿」,还是没摆脱音素文字乃至「半音节文字」(如注音字母那种声母韵母分开)的思路,认为符号应该表达音素并且壹壹对应,于是导致方案中字符之间的笔画数方差过大。正确的思路应该是降低这批字符的笔画数方差,同时尽量降低均值。

如果按照市面上兜售「校园欺凌」「职场压榨」题材的色目情报掮客所泄漏的大手情报机构下属大手情报工学会社内幕,会跳出个「领导」把酒泼在「图农」脸上,然后破口大骂「八行八段总共是六十四个音节,居然拖了这么久」,而没有掏空六个钱包交首付并且生育二胎的「刺头」就会反唇相讥「Unicode里面现成的六十四卦(U+4DC0~U+4DFF),你要是能说服客户同意,现在我就交差」,再然后「领导」运用大量丁寧語尊敬語謙讓語丁重語美化語将对方捧成自打受精那一刻起就惊动了波斯大手名校仨博士的兲降伟人位面之子把自己骂做世代男盗女娼的祖传人渣与客户联系的电子邮件被云服务供应商举报到有关部门临时工,因为其中出现了「春夏之交」相关政治敏感关键字。

不过这种思路可以借鉴,观察草稿的形状,大致上能判断出「上中下结构」「左中右结构」出现的场合对应钉头箭头的相对比例。如果划分九宫格,钉头占一格,箭头占两格或三格。除了右上角留给附点之外,剩下八个格子正好可以分配给「行」「段」使用,只是不能按照「二进制舒适区」惯例出现「全黑」「全白」「马赛克」那种编码,只能说略微保留一些符号对应音素的规律。

开始拍脑袋,在「第二稿」当中已经把圣三钉拆成偏旁了,但是没有使用。现在可以暂时决定,圣十字架当拨音,三钉齐出当促音,左钉为零声母,右钉为附点。

耶稣会徽章
十字架三钉
长音
拨音
促音
同上
より
コト
ヵヶ
零声母
浊点
半浊点
连字号
间隔点
左括号
右括号
逗号
句号
问号
叹号
冒号
分号
左引号
右引号
左双引号
右双引号

然后回顾其它思维误区,以箭头结尾不意味着箭头不能出现在中间,甚至只要有零声母开头,箭头还能出现在最前面,有原型文字为证。没有如此设计主要是由于其所需生存空间过大的缘故,俩箭头跑马圈地只许中间出现钉头和衬线,还能占着茅坑不拉屎浪费资源呢。而且,并不是所有元音单独存在的时候都需要以零声母开头,第二稿当中就没出现过。

于是先把八段元音设计好,剩下按照假名频度顺序来,尽量利用第二稿的成果。

结果如上表所示。

好了,从再一拍脑袋开始的胡乱做将去的「范版八十音图」搞定,接下来该実装了。

日语拼音方案(又续)

正式版:是罗字是马字还是罗马字ローマジ拉出来溜溜

因为実装也是孤苦伶仃可怜废柴草根文盲矬胖老穷光棍汉精神病仆街写手不入流码农数学渣宅男黑客活雷锋烟枪酒鬼饭桶缩卵怂货窝囊废自己负责,所以照样胡乱做将去,出现问题就解决问题可也。顺便把前两稿的SVG格式文件挪进「源码」目录,页面上以截图占位。

由于浊点单独存在,所以首先占用了「囧斋范某自作用字」当中Unicode定义的「半角假名」区域,能填的都填上了,小号元音是摆明了当韵母用的,则去掉了零声母(如果有的话)。测试则使用还没有发明半浊点时期的「全字母句」《伊呂波歌》:

第一印象,通常字体大小(1em=16px)之下,看着有些费劲,放大到24px就可以了。观察字间距发现,符号周边留白过多,估计撑满格子就可以了。于是这一届方案的笔划密度可以接受。但是,有些烂泥糊不上墙的符号除了自我膨胀以破坏整体和谐比例之外,无论如何撑不起场面。比方说左右结构的那些,尤其是一钉一箭,中间距离太远反而更像是之前之后字符的组成部分。于是考虑让这些「对社交距离的自我管理意识很强」的符号,用来表示语言环境中的独立成分,也就是「自带分词断句功能」的那种。

因此,在実装刚开始的时候,为了远大的理想而反共反攻返工,重新审核人事工作,调整各个符号的岗位职责。具体到用于影射来历不明的「苏尔语」的现实原型日语当中,存在着十个格助词:からまでより。即便是与汉字混排的时候,通常也不会写作「之乎者也」之类字眼。所以决定,把简单的符号都用来表示成事不足败事有馀的帮闲碎催泼皮无赖,用的是家人的典故:

太祖皇帝将展外城,幸朱雀门,亲自规画,独赵韩王普时从幸。上指门额问普曰:“何不只书‘朱雀门’,须着‘之’字安用?”普对曰:“语助。”太祖大笑曰:“之乎者也,助得甚事?”⸺文莹《湘山野录》

然后把全角片假名也実装了,这下不仅「ヰ」「ヱ」可以显示出来,小号假名可以显示出来,自动化浊点也可以。到了「p」「b」行就出现问题了,半角片假名自动处理加浊点半浊点转化于是「p/b」行用的都是「h」行楔形文字。于是不追求等宽,把浊音字符都造出来,全角片假名当中填上了「p」行「b」行可以自动取代,半角片假名还是那样。

然后修改了字体的合字映射表,用全角片假名替换俩半角片假名的组合。

刚才的情况(截图):

现在的情况(字体):

实际上全角片假名还有ヷヸヴヹヺ这一行,用来表示「v」行辅音,也需要実装。于是对应到楔形文字当中,「h」行加半浊点和浊点的时候表示「f/v」辅音的设计就合理了。

而平假名字型暂时从片假名复制,将来可以简化成线条,架空书写工具的进化。

也准备了出现在假名区的其它符号,包括「长音」「连字号」「间隔点」「ヵ」「ヶ」「同上」「より」「コト」:ー゠・ヵヶ々ゟヿ

还有「逗号」「句号」「冒号」「分号」「叹号」「问号」「引号」「括号」:、。:;!?「」「」『』[]

于是目前実装过半,已经可以用于表达当代日语常见字眼了,包括但不限于娱乐至死の色目逗哔推销的「ACGN」风格:

「さすがじじですね、いつもいきているさまになっています。」(“真不愧是长者,总是活蹦乱跳的样子。”)

「わーはははは!ほめすぎだ!」(“蛙……蛤蛤蛤蛤!过奖了过奖了!”)

「ちっ、ふぁふぁふぁふぁ!おまえはほめられたんとおもうぞ?」(“嗤、發發發發!小样以为在夸你是吧?”)

从上面的测试也能看出来(如色目情报掮客炒作的福建及潮汕地区人士的笑声之拼写),迄今为止只是替换假名而已,还没有真正涉及到「拼音方案」的具体处理和「范版八十音图」的独到之处,最起码也得把不存在于现行编码当中的拗音字符和其它音节都表达出来,这是「真・架空」所必需的准备工作。

比方说当代日语「夫乎不分」导致的问题,正在日内瓦谈判中使用的官方文字「苏尔语」就不会:

略,详见《网络字体测试・囧斋范某自作用字》页面

上面的测试当中,Chromium与Quantum两种排版引擎的表现不同:

Chromium
Chromium
Quantum
Quantum

前者在换行的时候断词,于是合字没有显示成期待的效果,后者则不然。

于是这个「问题」暂时搁置,由于实际使用中由日文转换,当然操作系统和浏览器当中的各种字体渲染工作要遵守日语的正字法以及各个大手情报工学会社由此而来的相应场合之政治规矩和组织纪律。

顺便插一句,使用Chromium引擎的Microsoft Edge每次刷新页面都会重新加载网络字体,而使用Quantum引擎的Mozilla FireFox则是在启动时加载一次。带上浏览器制造商名称,是因为按照职业习惯严格的表达,「加载资源」这种功能未必是「排版引擎」内置实现的。于是对于「网络字体测试」这种任务来说,前者的环境更合适。

总之,「范版八十音图」现在可以正常呈现在页面之上了,于是把SVG文件挪入「源码」目录,页面上保留截图。

声母 A I U E O Ya Yu Yo
k きゃ きゅ きょ
g ぎゃ ぎゅ ぎょ
t ちゃ ちゅ ちょ
d ぢゃ ぢゅ ぢょ
s しゃ しゅ しょ
z じゃ じゅ じょ
n にゃ にゅ にょ
r りゃ りゅ りょ
m みゃ みゅ みょ
h ひゃ ひゅ ひょ
f ふぁ ふぃ ふぅ ふぇ ふぉ ふゃ ふゅ ふょ
v ゔぁ ゔぃ ゔぇ ゔぉ ゔゃ ゔゅ ゔょ
p ぴゃ ぴゅ ぴょ
b びゃ びゅ びょ
w

好了,从再一拍脑袋开始的胡乱做将去的実装搞定,接下来是等待「反馈」并在党性坚定的老审查员火眼金睛鸡蛋里挑骨头的情况下反共反攻返工……最后用回初稿不忘初心牢记使命

日语拼音方案(还续)

修订版:俄梅戛オメガ终极人择原理

因为「火眼金睛鸡蛋里挑骨头」的工作也是孤苦伶仃可怜废柴草根文盲矬胖老穷光棍汉精神病仆街写手不入流码农数学渣宅男黑客活雷锋烟枪酒鬼饭桶缩卵怂货窝囊废自己负责,所以按照职业习惯「严密的考虑问题」「不惮以最大的恶意揣测」「发掘阴暗面」……所谓「甲方」担当在接受了组织交代的全方位骚扰无死角的革命任务之后,会如何得意忘形肆无忌惮的找茬呢?

参考市面上活蹦乱跳的娱乐至死の色目逗哔的典型表现,不外乎「如是我闻」和「曰若稽古」两种可能性,分别有典型的应用场合。

为了现实的政治和意识形态斗争,幕后黑手指使的色目情报掮客肯定应该会从「合拗音」角度放风带节奏。

因为「用户の需求」也是孤苦伶仃可怜废柴草根文盲矬胖老穷光棍汉精神病仆街写手不入流码农数学渣宅男黑客活雷锋烟枪酒鬼饭桶缩卵怂货窝囊废自己提出来的,所以在依据「料敌从宽」兵家理念按照「预则立不预则废」「未算胜先算败」职业习惯伪装成「甲方担当」负责「找茬」的时候没有「狐假虎威狗仗人势阳奉阴违」的情况,肯定不会脱离既定方针政策路线计划所设想的使用场景。

简单说,目前的Unicode标准当中来自各个语种的部分,都是根据相应民族权力机构(以及民族武装力量)下属的「民族通用语言文字委员会」所制定的本地标准实现的,基本上不存在「历史发明家」为了不可告人之目的而从中作梗的情况。而各个本地标准,也是根据母语使用者的实际需求制定的,当然要考虑到技术条件限制。具体到日语,可以认为特地与鹰语环境兼容而设计的「半角」片假名当中收录的那些,是情报工学或曰信息技术领域当中能够覆盖人民群众日常使用文字之最小子集。

然后对照全角假名,发现少了一个小写假名ゎ/ヮ。这个全角的标准之制定就早得多了,铅字印刷时代实现特殊需求比较简单,千奇百怪五花八门的方案也极大充沛,最终能「在皇居中央集中统一领导下」达成共识的标准,也是可以覆盖人民群众日常使用文字的极小子集。前面已经提到了两个半元音阵营之间针锋相对的斗争,这里不再重复,仅指出结果,经过长期复杂艰巨残酷的斗争之后,虽然方大获全胜,但是方也没有完全退出历史舞台,还保留了一席之地。

实际上,在実装时测试所用古典文案《伊吕波歌》标题的拼写,就已经引入了现实政治和意识形态斗争相关内容。看市面上色目情报掮客的反应,耍钱的新浪或曰后浪激烈一些,而娱乐至死の色目逗哔则恍然不觉。因为这是在万叶假名时代产生的内容,当时就有两种拼写以呂波伊呂波,在日语输入法当中同时存在,附带辞典当中提供的顺序也是这样,如此排座次的理由想必对于国际化大都市「华语第一精日论坛」之上那帮「人均N1」对东洋风土人情了如指掌的「外务省特务」来说都是常识:「以」「伊」分别是平片假名的来源。

但是面向我中华兲嘲上国境内九点四亿傻哔提供服务的兲嘲特色大手搜索引擎当中则不是这样:

由此可见,在锤镰帮达成「百年老店」成就前夕,涉外业务当中对于三洲通衢的日常,「在马甸中央集中统一领导下」的舆论工作,到底倾向哪一方。

而漠北大手情报机构指使的岭南精盎情报掮客则是另外一套说辞,正如2008年奥林匹斯山祭司委员会召开第29届全体会议时期名角大腕「刷卡时为零」在高加索外景片场摄影棚的精彩表演导致「苏修已经打到佐治亚了,五角大楼是废物吗」宣传文案出台以嘲笑脖子纯傻哔那样,「艾朗(iRan)」「艾拉克(iRaq)」也成了苹果公司的两条产品线,于是「以色列」不战而胜,色目金融机构提供的狗粮到帐,色目情报掮客喜大普奔。

因为预计运用场景中楔形文字是不再使用的古文字,所以没有「拼写(当代)外来语」的需求,但是对于当时已经引进的外来语所导致的拼写变化,应该反映出来。日语的音韵理论,是途径我中华兲嘲上国转手的天竺学说,五十音图的排列顺序,与悉昙体梵文音系相同。而在「上古日语」时期引进的拨音拗音,同时还有万叶假名中不混淆所论证的「八元音」存在,比现在多了仨。不惮以最大的恶意揣测,「中古日语」的音系已经向着雅利安太君靠拢了,前言中提到了古波斯语只有三个元音。

而在《设定集》当中使用「厥虐赛斯」指代幕后黑手,用当代日语就拼不出来,可以按照架空套路设定为「入侵之域外邪魔」,但是在遭遇色目太君背刺从而「自古以来不存在」之前,肯定会被「苏尔」记录下来。因此率先在正文中出现「国际音标」,然后才开始制定「远古拼音方案」的准备工作,这是孤苦伶仃可怜废柴草根文盲矬胖老穷光棍汉精神病仆街写手不入流码农数学渣宅男黑客活雷锋烟枪酒鬼饭桶缩卵怂货窝囊废作为「用户」的实际需求,不是吹毛求疵。

对照我中华兲嘲上国「元时回回遍天下」时期担任包税商的沿着「丝绸之路」逆流而上的中亚移民自称「色目人」的史实判断,虽然其中希伯来太君所占比例可能不大,但是背后的「中央」是同一个,从阿卡德一脉相承的久经考验的积累几千年阴谋诡计之集大成者。而东南互保地区的色目太君,反而是直接从「海上丝绸之路」进口的,有国际化大都市「华语第一精日论坛」的屎绿配色为证。这个体现色目太君「高调做人低调做事韬光养晦卧薪尝胆多方下注左右逢源对“中原”进行多方围堵两面夹攻终于背刺成功」实例的真实情况,被神棍大忽悠称为「有客西来,至东而止」。

还有一个旁证,在之江大学时任党委书记张浚生三顾茅庐邀请查良镛担任博士生导师以培训童年才俊「历史观」之后,市面上就出现了人缘差情商低不识大体不顾大局不懂政治不讲规矩不守纪律的不和谐声音,从查博导第一部划时代大作《书剑恩仇录》开始,论证主要活动在内亚的「红花会」就是历史和现实中「血脖子教」的影射,开篇就是「千里接龙头」运动,特地从新疆远赴之江聘请当地土豪劣绅家大少爷担任「民族权力机构和民族武装力量之领导人」。

回到拼音方案本身,当时的「合拗音」用于拼写汉语外来词,相关情报可自行搜索,如今仍然残留在日语方言当中。之前的《设定集》注释当中提到了,「推广普通话」行动最为激进的是法国,有断头台武德威慑,相比之下明治时代的「现代日语普通话」并没有那么强势。而虽然未必是日语方言但在学术上与日语最为接近的「琉球语」当中,也保留着合拗音,不排除也是从汉语进口的可能性,但毕竟存在。于是对于已经成型的当代日语文字体系中存在但使用场合较少的「kw」「gw」「hw」声母,应该反应到拼音方案当中,但不成「行」。

然后就是「上古日语八元音」这个被学界普遍接受的假说,需要在当代音系之外增加三个额外的元音,但不成「段」。就用西洋普遍存在的合体字母「ae」「oe」「ue」所指代的三个(德语称为变音字母的)元音替代,设定为已经在演变中合并进「本体」了。于是「厥虐赛斯」就能拼出来了也。顺便等到现在没发现有「精鹅情报掮客」活动,本来以为如同初中学鹅语的家贼那样,大批根红苗正忠君爱国的童年才俊对于鹅语音系了如指掌并且「在“喀约”中央集中统一领导下」吹捧西里尔字母当中有イェ而日语没有呢,然后炒作「马甸学区房」为「偏殿直通车」。

那么,精鹅情报掮客会质问直接用西里尔字母「Я」「Е」「Ю」「Ё」转写不就行了,费那么大劲干嘛?

因为现实和架空中都有先来后到,瑞穗国接触到「真名」乃至挪用为「万叶假名」的时候,格里高利字母还没发明出来呢。并且从西里尔字母的形状也能判断出来,在鹅语音系当中谁是谁的变音字母,好比德语变音字母记录渊源(严格说「e」是写在「a/o/u」上方而不是后方)那样。本来鹅语也少个拗音,不知咋的就凭空加上了,与日语的情况刚好相反。

这也是正交参数坐标系构思的对照组,本来「喀约」的剧情就与我中华兲嘲上国更接近,更是与自打「元时回回遍天下」之后坐落于十步一岗五步一哨夜不闭户路不拾遗兲子脚下首善之区国际一流和谐宜居之都操纵全球尤其是三洲通衢革命形势的「马甸中央」息息相关,暂时不想构思卡壳世界「真・神州陆沉」之后的情况,就用架空地图上已经挪到西方的日本当原型吧。

所以第四篇设定当中就出现了日语素材,还是「历史档案」。现实中汉字与假名并用的日文,对应架空中埃及象形文字与两河楔形文字并用的情况。这个构思,四年前刚开始连载设定集(被自诩始终代表了最先进生产力的童年才俊横加阻挠)的时候就想好了,直到决定按照任务优先级进行政治和意识形态斗争告一段落之后重新连载设定集的时候再捡起来。

总之,孤苦伶仃可怜废柴草根文盲矬胖老穷光棍汉精神病仆街写手不入流码农数学渣宅男黑客活雷锋烟枪酒鬼饭桶缩卵怂货窝囊废作为「用户」的反馈意见形成,提供三个残留的合拗音声母くゎ/クヮぐゎ/グヮふゎ/フヮ和三个废弃不用的变音韵母「Ä」「Ö」「Ü」的楔形文字,但不需要形成「音节」。上面已经实践过Unicode附加符号的转写方案,临时有需要的时候硬拼。

あ゙
お゙
ゔ
くゎ
ぐゎ
ふゎ

あ゜お゜う゜・くゎぐゎふゎ・クヮグヮフヮあ゜お゜う゜・くゎぐゎふゎ・クヮグヮフヮ

或问了,为啥废弃不用的韵母如此简单而残留的声母倒是拼凑的?莫非有意为之?

猜对了,故意的。正如最近一篇日记《自古以来不存在》那样,捏造八十音图时刻意保留的简单符号源文件都在GitHub代码仓库的痕迹当中可供溯源。

因为阿卡德语当中「o」「u」不分,业内认为苏美尔语音系中可能有「o」但是楔形文字中没有证据。所以故意从衍生出三个变音字母还有规律,以论证色目中央高瞻远瞩算无遗策运筹帷幄决胜千里,为了篡党夺权改朝换代的钦定大目标,不惜「挥笔自宫」也要把历史唯物主义的尘埃「苏尔」曾经存在过的痕迹彻底抹去。

好了,这次连拍脑袋开始的胡乱做将去的「准备工作」胜利收尾,本篇随笔也可以收尾了。现在是北京时间公元2021619日凌晨220分,「批阅十一日,增删五六次」的《日语拼音方案》完工,正所谓:

满屏箭头戳,整页钉尖坠。

或问苏尔?

“嗤、孤苦伶仃可怜废柴草根文盲矬胖老穷光棍汉精神病仆街写手不入流码农数学渣宅男黑客活雷锋烟枪酒鬼饭桶缩卵怂货窝囊废!”

棒语拼音方案(代后记)

《训民正音》,统天隆运肇极敦伦正圣光义明功大德尧峻舜徽禹谟汤敬应命立纪至化神烈巍勋洪业启基宣历乾行坤定英毅弘休寿康文宪武章仁翼贞孝太皇帝庄宪英文睿武仁圣明孝大王著,1444年汉城人民出版社第一版,1446年开城人民印刷厂第一次印刷,全半岛大野おおの高丽コライ书店发行。

2021.6.8 - 19