2003-12-21

为什么清华新闻学院学生连一句话新闻也写不出来?

Grassland无意看到这条信息:“为什么清华新闻学院学生连一句话新闻也写不出来? ”(怎么又是李希光,不管啦,同学们的检讨也可以听听,:D):

2003年12月16日下午的课上,李希光老师让清华大学新闻学院2003级研究生当堂把国务院颁布的长达3000多字的《关于规范国有企业改制工作的意见》编写成一句话新闻,结果全班没有一个同学写出来。课后,全班同学对此做了如下检讨.... ----[三家村]

虽然有点渲染化,却也是普遍现象而已。

我 爱 中文

不是想在标题中表达什么情感,只是在尝试在中文词之间添加空格。不知道有没有学生在刚刚学习英文的时候问过这样的傻问题“为什么英文单词之间要用空格分隔,而中文就不需要?”(要不然 ILOVECHINESE看看?)

此前我分别读过Philip Zhang 米阿伦的评论文章,各自有不同的角度,但是支持中文分词(词界)的观点是一致的,也交叉引用了一些相同的例子。其实我也是支持中文再做一些改革的,千万别牵扯到民族性上去就行了。基于信息技术的中文改革要有很多实际性,从词法角度来看,“加空格”的问题并非那么简单,我的态度也有了很多变化。这是因为最近自己正在一个CNBlog.org 的新项目上作一番心理斗争:其中一个中文处理的程序要求算法能够从大量的文字中把中文词的词频统计出来,我最开始用的一个方法被一些最简单的测试结果所推翻,因为它连一些最基本的中文句子都分析不出来(例如,“我吃完苹果然后吃梨”),“傻程序”果然自动把“果然”的词频增加。此次此刻,我当然期望这些句子是自动用空格分词的,这样我的程序也就不必如此自我讽刺了。

但是进一步想想,难道这就要让1.4B中国人都要改变书写习惯吗?不大可能,当年简化字有一定意义,至少可以节省很多书写笔划和印刷油墨。但是增加负担的事情是绝对没有人支持的。中文词添加空格,几乎可以肯定无法成为约定的要求,因为单从输入的角度就让人吃力致死(我的 大脑 根本 想不到 在 输入 这些 文字 的 时候 增加 空格,这些 空格 都是 强迫 自己 输入的。看上去 是不是 也 很 吃力?)。不知道韩国人是如何做到推行空格词界的(车东告诉我韩国在60年代进行文字改革后,文字已经是天然有空格的了。真的做到了吗?)。中文处理的信息熵大概不会只存在于对汉字的信息处理上,各个语言文字的歧义、双关都很多,问题是,信息往往不是靠纯文字表达出来的,不论词法上的歧义,人和人之间要是少一点误读误解就算不错了。更何况,与其他语言的词性、时态等因素相比,中文信息处理的难度也各有千秋而已。这样看来,“加空格”的事情可能不是最主要的了。更大的问题是如何让这些中文信息处理专家们能够协作一点,别学国内那些SARS研究各自为政,连同语言学家们一起把中文改革的事情实实在在地推进一步,也YSJJ点如何?

如此看来,来日方长。现在偷懒不得,我还是花点坐下来研究我的算法吧。好在我们的系统只要求95%左右的分词正确率,因为毕竟还有人工的规则在发挥作用。忽然明白怪不得Google的创始人强调坚持用更好的算法处理结构化很烂的HTML,并不希望所有人都懂什么叫语义网呢。