请不要被「小道消息」这个名字误导.在这里,我只想努力为读者呈现一幅中国互联网的清明上河图.

从错别字说起

发布日期:2016-07-05 13:21:38 +0000

拼音输入法成为中国人输入汉字的主流工具之后,错别字也比比皆是,当然,网络上的文章从来都是充斥错别字。我写公众号以来,深受这个问题困扰,文章几乎每篇都有错别字。更为痛苦的是,这些错别字自己检查不出来。我一直以为是不够细心,直到看到一篇果壳编译自 Wired 的文章有对这个问题的解释,心理学家说:「当你在写作的时候,你在试图传达想法,这是非常高级的任务。」


写作者忽略细节不要紧,但读者不会放过,一旦发现错别字就会很热心的留言告诉我,这反而让我更苦恼。而且,我发现只要他们发现了错别字,就几乎不再关注文章的内容。


所以,留给我的问题还是要想办法尽量减少错别字。


消灭错别字,有终极办法存在。开放源代码运动主要领导者之一的埃里克 · 雷蒙 (Eric Steven Raymond) 在《大教堂和市集》中描述了这样一个精彩观点: 只要足够多的眼球关注,就可以让所有软件缺陷浮现(Given enough eyeballs, all bugs are shallow.) 。对于错别字来说也是如此,只要有足够多的眼球,就可以找到所有的错误。


我试过找几个热心读者,每篇文章发布之前扔到群里,让他们帮着看看,但一段时间之后,大家也没兴趣每篇都看了,而且,只要内容还没正式发布,随时可能进行修改,内容的版本也很难统一,还是会有错别字漏网。后来这个办法就被我放弃了。我无法在文章发布前找到足够多的更为经济的眼球。


文章发布之后倒是有足够多眼球了,但是发布之后又不能修改内容。公众平台和微博都是这样。


这篇文章写到这里你可能明白了,我并不是要写我一个人的问题,而是想说,对于错别字这个顽疾来说,有更为有效的解决办法吗?


从一个更大的层面上看,中文用户文章写完后用于检查和校对的时间投入恐怕是个天文数字。 这个资源投入如果能节省下来该有多好, 那么多人的时间完全可以用来做更重要的事情。对英文写作者来说,要检查他们的「错别字」,有个拼写检查工具就会好很多。微软的办公组件早早就提供了类似的功能,其他编辑工具也都类似,善于利用的话可以节省大量时间。但这个解决方案对于汉语写作者基本没用,我们面对的是拼写输入法映射出来的词汇问题,毕竟现在的汉语输入法基本还是以词为单位。


这几年,机器学习领域进步飞快,不知道有没有团队在研究怎么解决错别字的问题。这要比弄个写稿机器人更有趣吧。期待早日看到类似的解决方案出来。


现在的输入法,多数是从一个统计层面推荐候选词,能否针对个人输入习惯进行完全个性化的定制优化呢?或许也是个有趣的方向。



题图:SteamPunk