Brilliant Place: 八月 2014

2014年8月22日星期五

本来只是想可不可以用二进制来储存 JSON 并且做一些优化之类的，结果造出来 JKSN 这货。

比较了一下文件大小，发现没有经过压缩的 JKSN 数据比 gzip -9 JSON 还要小。于是把 JKSN 的目标定为让 JSON 序列更小。

JKSN 适用于任何网络带宽比处理时间更重要的场合，如移动即时通讯。

项目地址：https://github.com/m13253/JKSN。Specification 和参考实现均以 BSD 协议发布。

为什么不用 GZIP 呢？

JKSN 和 GZIP 不冲突。JKSN 编码后的数据可以被 GZIP 压缩得更小。

由于 GZIP 的 32 KiB 滑动窗口的设计，相似的数据只有互相间隔不超过 32 KiB 才能得到有效压缩。JKSN 会将数据重新组织，使相似的数据尽可能靠近排列，更有利于 GZIP 的压缩。

下面，用项目主页上举的例子，做个比较，：

再来比较同类二进制 JSON 实现：

如果各位读者对此项目感兴趣，且有空余时间，不妨让 JKSN 变得更好：

目前 JKSN 已经有 Python 3、Python 2、浏览器 JavaScript、Node.JS、C 五种环境的实现了。如果你愿意，请帮助我为 JKSN 补上 PHP 5、Java 的实现。

追求模范性和稳定性的实现可以直接 fork JKSN repository 并发给我 Pull Request；追求速度的实现可以另开新 repository 并通知我。

如果你知道怎么重新组织 JSON 结构让其更易于压缩，请联系我。我希望和你探讨问题。

Rocaloid 语音合成引擎正在 Sleepwalking 的领导下紧张地开发中，制作中文音源需要哪些音素呢？

Rocaloid 现在版本是以单音节（monophone）为合成单位，所以录音数量大大降低了，有条件录制某些特殊情况下的发音变形。

以此我整理了一份参考音素表，以我个人的普通话口音为基准，只做参考，如有遗漏或错误请留言通知我。

标有 (p) 的是弱读和快读时的发音变化，相对的是 (f) 标记。

汉语拼音参考	IPA 音标参考	X-SAMPA 音标参考	备注
b	p	p
p	pʰ	p_h
m	m	m
f	f	f
d	t	t
t	tʰ	t_h
n	n	n
l	l	l
g	k	k
k	kʰ	k_h
h	x	x
j	tɕ	ts\
q	tɕʰ	ts\_h
x	ɕ	s\
zh	ʈʂ	ts`
ch	ʈʂʰ	ts`_h
sh	ʂ	s`
r	ʐ	z`
z	ts	ts
c	tsʰ	ts_h
s	s	s
sz	z	z	用来拼写外来语、少数民族语言和方言
v	v	v	用来拼写外来语、少数民族语言和方言
y (p)	j	j	快读时 i u 变为 j w
w (p)	w	w	快读时 i u 变为 j w
0	ʔ	?	声门塞音

汉语拼音参考	IPA 音标参考	X-SAMPA 音标参考	备注
a	a	a
o (p)	o	o	如“咯”
e (p)	ɤ	7	如“了”
eh	ɛ	E	汉语拼音方案记作“ê”，注音符号记作“ㄝ”，如“诶”
i	i	i
ih	ɯ / ɨ	M / 1	注音符号记作“ㄭ”，如“私”
u	u	u
ü	y	y	有时使用字母“v”代替
n	n	n	这里把鼻音视作元音处理
ng	ŋ	N
m	m	m

汉语拼音参考	IPA 音标参考	X-SAMPA 音标参考	备注
ai	aɪ	aI
ao	aʊ	aU
an	an	an
ang	ɑŋ	AN
er	ɑɹ	Ar\	如“二”
ou	ɤʊ	7U	有些人偏好读作 oʊ
en	ən	@n
eng	ɤŋ	7N
ei	eɪ	eI
ia	ia	ia
io	io	io	如“哟”
ie	iɛ	iE
in	in	in
ua	ua	ua
o (f)	uo	uo	与 p pʰ m f 拼读，如“播”
uo	uɔ	uO	如“我”
ong	ʊŋ	UN
üe	yɛ	yE	如“月”
e (f)	ɯʌ	MV	如“饿”

汉语拼音参考	IPA 音标参考	X-SAMPA 音标参考	备注
iao	iaʊ	iaU
iang	iɑŋ	iAN
iu	iɤʊ	i7U	有些人偏好读作 ioʊ
iong (f)	iʊŋ	iUN	如“穷”慢读
ian	iɛn	iEn
ing	iɯŋ	iMN	南方口音更偏好读作 iŋ
uai	uaɪ	uaI
uan	uan	uan
uang	uɑŋ	uAN
ui	ueɪ	ueI
un	uən	u@n
ueng	uɤŋ	u7N
iong (p)	yʊŋ	yUN	如“永”快读
üan	yɛn	yEn	如“远”，北方口音更偏好读作 yan
ün	yin	yin	如“云”

汉语拼音参考	IPA 音标参考	X-SAMPA 音标参考	备注
or	oɹ	or\
e-er	ɤɹ	7r\	不是 ɑɹ，ɑɹ 已在前面列出
ehr	eɹ	er\
ihr	ɯɹ	Mr\
ur	uɹ	ur\
ür	yɹ	yr\

汉语拼音参考	IPA 音标参考	X-SAMPA 音标参考
am	am	am
amg	ɑm	Am
omg	om	om
em	əm	@m
emg	ɤm	7m
im	im	im
üm (p)	ym	ym
iomg	iʊm	iUm
iamg	iɑm	iAm
iam	iɛm	iEm
uam	uam	uam
uamg	uɑm	uAm
um	uəm	u@m
uemg	uɤm	u7m
üm (f)	yim	yim

当快读时，i u 变为 j w，儿化音与前面一个元音连读，p pʰ m 之前的鼻音变为唇化鼻音，鼻音前的元音变为鼻音化元音。

可以使用我的 Pinyin2XSampa 程序将拼音转换成 X-SAMPA。

很多 Web App 都会提供第三方调用的 API，在 API 的提示信息中如果有语法错误就贻笑大方了。

你不信？我来举几个例子：

{"error": "Hit sexy spam"} ——来自百度

{"error": "Wrong verify code"} ——来自腾讯

{"error": "Apps is not exists"} ——来自哔哩哔哩

交互设计师的英文素养很重要啊。

下面给出我的参考翻译

百度那例：Hit porn filter

腾讯那例：Wrong Captcha

哔哩哔哩那例：App does not exist