研究生守则

研究生院开学了. 拖着大包小包的新生叫嚣乎东西, 隳突乎南北. 暑假期间门可罗雀的食堂重焕生机, 打饭师傅们脸上挂满了笑容. 作为过来人, 老夫沉静地观察并思考着. 今日突发功德心, 特将一年来积攒的经验归纳出来, 于新生有开知启蒙之功, 于老生收裨补阙漏之效, 于自己则权作备忘, 时时谨循, 善莫大焉. 是为研究生守则.

一. 在正确的时间做正确的事

尽管都知道早睡早起的益处, 但在研究生群体中夜猫子还是很多的. 也许你会说这是身不由己的, 课程和科研双管齐下, 不开夜车实在搞不定. 但是根据我的亲身体验, 事实往往并非如此, 至少我以前的熬夜常常是因为白天浪费太多时间浏览网页. 想在该睡的时候睡, 就要在该玩的时候玩, 该学的时候学. 做到这一点的诀窍在第二条守则中详述.

二. 不要被电脑左右

电脑依赖症现在是种流行病, 典型患者拥有QQ, MSN, GTalk, GReader, Twitter, 飞信, 微博, 人人, 豆瓣, 以及各大论坛BBS等等的全部或部分帐号, 一开机就尽数挂上, 然后穿梭其间, 连续刷屏, 乐不思蜀, 曾不知老板之将至. 很难想象这样的患者能够恪守第一条守则.

想要克服这一问题的同学可以读一读徐宥的真知灼见, 拔掉你的鼠标. 作为emacs用户, 我发现强制自己使用emacs中的文本浏览器w3m(而不是firefox)可以有效地戒除到处乱点链接的手瘾. 同时强烈推荐能够定时锁定计算机的软件workrave: 每到被锁定时我就有种当头棒喝的感觉, 于是提醒自己该干正事了. 此外, Linux用户还可以用cron设置定时关机, 这样就会记得合理分配时间.

三. 身体最重要

前面讲的是不要自我荒废, 另一方面, 搞科研也不是玩命, 不可太投入, 要讲究适可而止. 近的例如实验室的光哥去年年底由于过分用功曾大病一场, 长期只能喝粥. 远的例如孔金瓯教授早逝: 大三的时候还曾亲聆謦欬, 大四就惊闻孔老师溘然长逝的噩耗. 生命真脆弱.

先贤早有教诲, 至圣先师孔子告诉我们中庸之道, “过犹不及”; 南华真人庄子告诉我们生命的珍贵, “吾将曳尾于涂中”. 结合研究生的实际, 该睡的觉一定要睡, 该吃的饭一定要吃 — 切忌吃太多, 食堂的东西吃多了会拉肚子的.

四. 不要提及失败

这里没有用习语“永不言败”, 因为还包含另一层意思, 即闲聊的时候也不要提及自己的失败经历. 研究生做课题碰壁是件再正常不过的事情, 这只说明学习还没到位. 大家都很忙, 做的东西又千差万别, 自己的难题只有自己能解决, 倒苦水没法换来帮助, 顶多换来同情, 也许还有鄙夷. 真的猛士总能凭自助从胜利走向胜利.

五. 忍耐

人生不如意事常十八九, 读研究生了应该明白这个道理, 也该明白有些东西凭一己之力很难加以改变. 也许别人加工资你没加; 也许别人放假你没放; 也许课题进展很不顺; 更扯一点, 也许你Google一下“周杰伦”都会撞墙. 想开一点, 这些都是小事情, 发发牢骚可以, 要发飙那就得三思了. 有功夫还是多修炼自己吧.

Aug 29th, 2010 | Filed under 其他
Tags: ,

支持向量机

很久没发技术贴了, 所以返校第一贴回顾一下夏学期选修张文生老师统计学习课所作的关于支持向量机的笔记. 支持向量机(Support Vector Machine, SVM)是一种有效的统计学习技术, 现已广泛应用于模式识别和分类等领域. 这篇文章简单介绍了支持向量机的相关概念, 主要参考了L. Wasserman的All of Statistics.

一. 分类问题与VC维度

根据随机变量X估计离散随机变量Y的问题称为分类(classification)问题. 设X \in \mathcal{X}, Y \in \mathcal{Y}, 则分类问题需要找到映射h: \mathcal{X} \to \mathcal{Y}, 称为分类器. 可以使用错误率评估分类器的性能(风险函数可以有多种形式, 这里选用较为简单的错误率):

  L(h) = P(\{h(X) \neq Y\}).

错误率L(h)通常难以计算, 实践中可以用经验错误率(即训练错误率)近似. 若已知数据对(X_1, Y_1), ..., (X_n, Y_n), 则经验错误率可表示为

  \hat{L}_n(h) = \frac{1}{n} \sum_{i=1}^n I(h(X_i) \neq Y_i),

其中I(s)在表达式s为真时取值1, 否则取值0.

然而, 通常情况下经验错误率\hat{L}_n(h)低估了真实错误率L(h). 若\mathcal{H}表示分类器的一个无穷集合, 我们希望得到形如

P\left( \sup_{h \in \mathcal{H}} |\hat{L}_n(h) - L(h)| \leq \epsilon \right) \leq \text{something-not-too-big}

的一个概率不等式, 用来描述以经验错误率估计真实错误率的准确程度. Vapnik和Chervonenkis于1971年给出了这一问题的解答, 即VC维理论(Vapnik-Chervonenkis dimension).

\mathcal{A}为一类集合A \subset \Omega的总称, \Omega可以是任何空间. 定义\mathcal{A}n阶增长函数(growth function, 也叫shatter coefficent):

 s(\mathcal{A}, n) = \max_{x_1, ..., x_n \in \Omega} \text{card}\left\{ \{x_1, ..., x_n \} \cap A, A \in \mathcal{A} \right\},

其中\text{card}函数计算集合中的元素个数. 选定x_1, ..., x_n \in \Omega之后, 对任意A \in \mathcal{A}, \{x_1, ..., x_n \} \cap A\{x_1, ..., x_n \}的一个子集. 这个式子要求这样的子集的最大个数, 显然与x_1, ...  x_n的选择有关.

由于n元集合\{x_1, ..., x_n \}的子集数等于2^n, 所以s(\mathcal{A}, n) \leq 2^n. 如果s(\mathcal{A}, n) = 2^n, 将满足条件的n元集合\{x_1, ..., x_n \}记为C, 那么称\mathcal{A}能够“打散”C(C can be shattered by \mathcal{A}). 也就是说, n元集合C = \{x_1, ..., x_n \}的每个子集S都能写成S = C \cap A, A \in \mathcal{A}的形式.

VC维的概念即由增长函数发展得到. 若对于所有n, s(\mathcal{A}, n) = 2^n都成立, 那么定义VC(\mathcal{A}) = \infty; 否则定义VC(\mathcal{A}) = k, 其中k为满足s(\mathcal{A}, k) = 2^k的最大值, 即

 VC(\mathcal{A}) = \max_{k} \{k: s(\mathcal{A}, k) = 2^k\}.

下面是一个用来解释VC维的经典例子. 设\mathcal{A}为所有半平面, 任选不在同一直线上的三点构成点集C, 则\mathcal{A}能够“打散”C, 因为C的每个子集都能写成C与一个半平面的交集. 如图一, C的子集用黑点表示, 一共2^3 = 8种情况.

不在同一直线上的三点

图一. 不在同一直线上的三点

如果选同一直线上的三点, 那么就可以构造无法打散的情况. 不过因为已经找到能够被\mathcal{A}打散的三元点集, 所以s(\mathcal{A}, 3) = 2^3. 对于四点的情况,可以证明任一四元点集都无法被\mathcal{A}打散. 上述两类情况如图二. 由此可知, VC(\mathcal{A}) = 3. 这一结论可以推广: d维平面的VC维等于d + 1.

无法被打散的情况

图二. 无法被打散的情况

现在回到前面提出的关于概率不等式的问题. 简单起见, 考虑只有两类的分类问题, 即映射h: \mathcal{X} \to \mathcal{Y}的值域为\{0, 1\}. 每个分类器h与集合\{X: h(X) = 1, X \in \mathcal{X}\}唯一对应, 所以分类器的集合\mathcal{H}A的集合\mathcal{A}唯一对应. 因此可以定义s(\mathcal{H}, n) = s(\mathcal{A}, n). Vapnik和Chervonenkis的结果指出,

  P\left( \sup_{h \in \mathcal{H}} |\hat{L}_n(h) - L(h)| \leq \epsilon \right) \leq 8 s(\mathcal{H}, n)e^{-n \epsilon^2/32}.

由此可得L(h)的一个1 - \alpha置信区间: \hat{L}_n(h) \pm \epsilon_n, 其中

 \epsilon_n^2 = \frac{32}{n}\log\left( \frac{8s(\mathcal{H}, n)}{\alpha} \right).

上面提到, 如果用d维平面进行分类, 则分类器的VC维等于d + 1. 这时可得

 \epsilon_n^2 = \frac{32}{n}\log\left( \frac{8(n^{d+1} + 1)}{\alpha} \right).

VC维这一概念用于描述一类分类器\mathcal{H}的复杂程度. 通常VC维越大, 则\mathcal{H}的复杂程度越大. Vapnik和Chervonenkis还证明了一个结论: 当样本数n远大于VC(\mathcal{H})时,

 R(\mathcal{H}) \leq R_{emp}(\mathcal{H}) + \sqrt{ \frac{VC(\mathcal{H}) (\log(2n/VC(\mathcal{H})) + 1) - \log(\alpha/4)}{n} }

以概率1 - \alpha成立. 式中R(\cdot)为风险函数(risk function), R_{emp}(\cdot)为经验风险(empirical risk). 显然附加项是VC维的增函数: 分类器复杂程度增加, 经验风险减小, 但附加项增加.

二. 支持向量机

考虑只有两类的分类问题, 令\mathcal{Y} = \{-1, 1\}. 定义分类器

 h(X) = \text{sign}\left(H(X)\right),

其中线性函数

 H(X) = W \cdot X + b,

向量WX维度相同, 圆点表示内积.

在线性可分的样本集上, 可以找到合适的向量W使

 Y_i H(X_i) \geq 1, \text{ }i = 1, ..., n.

这是因为类标签Y_i应与H(X_i)同号, 只需调整W的模即可.

想象超平面\Pi: H(X) = 0, 则任一点X到平面\Pi的距离公式为

  d = \frac{H(X)}{\| W \|} = \frac{W \cdot X + b}{\| W \|},

注意d的符号代表方向. 平面\Pi两侧距离最近的点X_p, X_q应能使上面一个不等式的等号成立, 即H(X_p) = 1, H(X_q) = -1, 如图三所示. 于是得W(X_p - X_q) = 2, 进而平面\Pi与两类样本的距离之和为(注意距离具有方向)

  \left(\frac{H(X_p)}{\|W\|}\right) - \left(\frac{H(X_q)}{\|W\|}\right) = \frac{W(X_p - X_q)}{\|W\|} = \frac{2}{\|W\|}.

线性可分样本集

图三. 线性可分样本集

由此可以直观地看出, 最小化\|W\|能够最大化两类样本的间距. Vapnik与Chervonenkis还证明最小化\|W\|能够最小化VC维, 因此减小总风险. 支持向量机就是上述优化问题的解:

 \begin{array}{ll} \underset{W, b}{\text{min}} & \frac{1}{2} \|W\|^2, \\ \text{s.t.} & Y_i (W \cdot X_i + b) \geq 1, \text{ }i = 1, ..., n. \end{array}

目标函数写成\frac{1}{2} \|W\|^2的形式, 主要是为后续数学处理的方便. 为了解决这个带约束的最小化问题, 可以采用拉格朗日乘数法, 引入一组系数\alpha_i. 经过推导得出原问题的一个等价形式:

 \begin{array}{ll} \underset{\alpha_i}{\text{max}} & \sum_{i=1}^n \alpha_i - \frac{1}{2}\sum_{i=1}^n \sum_{j=1}^n \alpha_i \alpha_j Y_i Y_j X_i \cdot X_j,\\ \text{s.t.} & \alpha_i \geq 0, \text{ }i = 1, ..., n, \\ & \sum_{i=1}^n \alpha_iY_i = 0. \end{array}

这是一个二次规划问题, 是一类典型的最优化问题, 不少软件包可以对其进行求解. 当目标函数取极值时许多\alpha_i值为0; \alpha_i > 0″ />所对应的<img src=称为“支持向量”, 因为分类平面\Pi只由这一小部分样本决定.

对于线性不可分的样本集, 引入一组松弛变量\xi_i \geq 0, i = 1, ..., n, 则优化问题变为

 \begin{array}{ll} \underset{W, b}{\text{min}} & \frac{1}{2} \|W\|^2 + C \sum_{i=1}^n \xi_i, \\ \text{s.t.} & Y_i (W \cdot X_i + b) \geq 1 - \xi_i, \\ & \xi_i \geq 0, \text{ }i = 1, ..., n. \end{array}

类似的也可导得二次规划形式:

 \begin{array}{ll} \underset{\alpha_i}{\text{max}} & \sum_{i=1}^n \alpha_i - \frac{1}{2}\sum_{i=1}^n \sum_{j=1}^n \alpha_i \alpha_j Y_i Y_j X_i \cdot X_j,\\ \text{s.t.} & C \geq \alpha_i \geq 0, \text{ }i = 1, ..., n, \\ & \sum_{i=1}^n \alpha_iY_i = 0. \end{array}

三. 核技巧(kernel trick)

对于一些复杂的分类问题, 上述线性支持向量机有时不足以解决. 这时可以尝试将特征X_i, i = 1, ..., n映射到较高维空间再用线性支持向量机解决: 高维空间的一个线性分类器在低维空间中是非线性分类器, 因为低维到高维的变换可以是非线性的. 例如是将二维变量x = (x_1, x_2)变换到三维空间: z = (z_1, z_2, z_3) = \phi(x) = (x_1^2, \sqrt{2}x_1x_2, x_2^2).

注意支持向量机的二次规划形式中需要计算特征向量X_i之间的内积. 为了简化变换后的计算, 希望找到函数K(\cdot), 使变换后的内积\phi(X_i) \cdot \phi(X_j) = K(X_i, X_j). 这时只需将K(X_i, X_j)代换原式中的X_i \cdot X_j即可.

根据上面的分析我们看出, 变换函数\phi(\cdot)的形式并不重要, 只需知道K(\cdot)即可进行计算. K(\cdot)被称为“核函数”. 是不是任意函数K(\cdot)都可以作为核函数呢? Mercer定理指出, 如果对于任意平方可积函数f(\cdot), 有

  \int \int K(x, y) f(x) f(y) dx dy \geq 0,

则存在变换函数\phi(\cdot)使得\phi(x) \cdot \phi(y) = K(x, y).

K(X_i, X_j)代入支持向量机二次规划式目标函数和分类器中的X_i \cdot X_j, 就将支持向量机拓展到了非线性领域. 这就是所谓“核技巧(kernel trick)”. 核函数K(\cdot)的常用选择包括多项式核, sigmoid核, 高斯核等等, 但是现在还不知道对于特定问题怎样选择核函数最佳. 可以先尝试多种选择, 再利用交叉验证的方法选出效果最好的一种作为解决方案.

Aug 21st, 2010 | Filed under 科学
Tags: ,

闲翻连环画

八号到家, 正赶上武汉最热的时候. 吹空调会打喷嚏, 不吹空调黑压压的字书读不进去, 就翻看小时候爸妈给买的一些连环画. 事实上连环画也不一定好读, 比如现在手边的一套“四书五经绘画本”, 北岳文艺出版社1994年出版的. 小时候嫌画得不够精美, 内容又枯燥, 从来没有认真读过; 直到这两天才重新捡起来看了下. 这书的缺点确实不少: 解说部分很多别字, 又有些自以为是之处, 距离“信达雅”的标准较远; 图画部分虽有画得好的, 但也有些极粗陋, 难怪豆瓣上都没有这本书的条目. 从内容上看, 四书本身除了孟老师偶尔讲些生动的小寓言, 大部分篇幅都是翻来覆去地强调道德规范, 尤以孔老师为甚, 小时候读不进去也是合理的.

这书是选编四书五经的部分篇章配上插图, 其中论语所占的篇幅最多. 从没读过论语, 这回是从连环画启蒙. 了解到孔老师在春秋末年率先创办了一所公务员学校, 校训是“仁”, 文学和自然常识课教材是诗经, 专业基础课教材是周礼, 有时也讲讲历史. 为了因材施教分层培养, 孔老师编选尖子生组成君子仁学培训班, 专门开授讨论课以强化培优. 什么是“仁学”? 所谓“仁”, 就是你能想到的所有美德 — 孝, 悌, 忠, 恕, 智, 勇, 诚, 信, 义, 慎, 恭, 俭, 等等, — 汇总起来, 再加上一条“克己复礼”, 就是说要按周礼的规范行事. 这个道理其实也挺简单, 只是培训班学员们提问过于踊跃, 孔老师每次也就回答个一鳞半爪, 期待弟子举一反三. 后来好事者把这些东一榔头西一棒子的答问记录加上别的一些回忆文字汇编成书, 是为“论语”.

阅读连环画册是寻找成就感的一种好方法, 因为翻得快, 一会儿能翻几十上百页, 所以没过几天就读到了易经. 与前面的四书不同, 这本书的易经部分颇为有趣, 极具可读性. 从前文来看, 编者秉持马列主义唯物观, 指出中庸里的“至诚如神”是“儒家唯心主义…和神秘主义的集中体现”, 又说孔子的某些言论“流露出浓厚的宿命论色彩”; 但到了易经这一段他的唯物观就跑去见马克思了. 在简介周易六十四卦的卦名和卦辞之后, 书中花了大量篇幅举例说明古今“神算子”按易经六爻成功预测未来的神奇事迹, 用来作为易经“科学性”的佐证. 古代正史的“方技传”专门记载这类神乎其技的传说, 找几个李淳风, 邵康节之类的例子增加趣味性也是无可厚非. 但是胪列一堆近几十年的事例, 说得玄而又玄, 有鼻子有眼睛, 那就有妖言惑众之嫌了. 这一部分的主角是“运用周易理论建立起周易预测学的科学体系”的“著名易学家邵伟华”. 根据书中记载, 这位半仙级别的人物在八十年代中后期连续发力, 预测灵验的事例不计其数, 小到市民的自行车被谁偷, 大到苏联政要何时去世. 此外还有云, “1985年8月, 我国国防科工委航天医学工程研究所, 在著名科学家钱学森, 中国气功科学研究会理事长张震寰的指导下, 用当前国际上先进的空间脑功能扫描技术发现了气功师在气功状态下的脑涨落太极图”; “西方电脑专家在研究`奇门遁甲’和`大六壬’之后, 惊奇地发现中国古老的术数中隐藏着与人脑类似的象数模式…因此, 他们致力于在人工智能上来一场革命”. 读到这里, 一位对诸如“航天医学”, “钱学森”, “空间脑功能扫描技术”, “象数模式”和“人工智能”之类名词充满模糊的敬畏的读者十有八九会将老祖宗传下来的易经奉为圭臬, 对其神奇的预测功效深信不疑.

这书出版的时候我正在上小学. 上小学那会儿好奇心强, 很爱看“科学之谜”之类书籍, 对飞碟, 金字塔, 百慕大, 特异功能, “诺查丹玛斯预言”之类种种“为科学所不能解释”的神奇现象如数家珍, 并且坚定地认为所谓科学就是用来破解这些悬疑的. 同桌李勃然跟我志同道合, 两人经常切磋这方面的研究心得. 后来长大点, 开始发现这些怪谈是有破绽的. 记得有回从李勃然手上借来一本“世界四十九大谜”, 边读边在书缝记下疑点, 整本书画得乱七八糟. 小李倒也慷慨, 不仅不计较这一毁书行为, 反而就评注内容一同商榷, 遇有会意, 二人击掌而笑. 那段时间这类“民间科学”是如此风行, 连钱学森这样的科技巨匠都为“气功”之流奔走呼号, 连轮子功这样的歪门邪道都能博得成千上万的信徒, 也无怪乎出现这种神化易经的书籍. 不过前一阵子在北京亚运村图书大厦看见“科普著作”书柜中仍然充斥这类“科学之谜”, 不由叹惋科普界的衰微, 居然让民科一再占领阵地.

上网查了下“著名易学家”邵伟华的境况. 不出所料, 许多神奇的“预测”不过是邵老师自己编造出来的骗局. 不过尽管知道邵老师施展的是骗术而非易学, 这个网站上仍然有很多人对易经预测未来的功效深信不疑. 怎么说呢? 不论怎么强调周易里的“朴素唯物主义思想”, 这部书自从周文王写出来就是用来算命的. 我认为虽然我们自己不信, 也应提倡大家不要迷信, 但对此应该给予充分的宽容. 近现代的不少大学问家对其推崇备至, 非常道里面说,冯友兰临终前称“中国哲学将来一定会大放光彩, 要注意周易哲学”; 逻辑学家沈有鼎研究周易时用纸枚代替蓍草占卜, 闻一多写了首打油诗开玩笑, 里面有一句说, “占卜冗三用纸枚”. 可以认为这是中国文化遗产的一部分, 是文人闲雅的游戏, 也可以半认真地拿它作为行事参考(相信今天不会有人真的事事占卜而后为之). 只要不像邵老师或者类似的大师那样利用周易来骗钱, 只要像唐庚笔下那位卖卜益昌市的张求那样“一语不假借, 意自有臧否”, 也是值得赞赏的.

Aug 12th, 2010 | Filed under 其他
Tags: , ,

两型低碳, 和谐玉泉

早晨热醒, 翻身看手机, 六点刚过. 又躺着胡思乱想了一会儿, 突然有种大彻大悟的感觉. 近一周来北京持续三十五度以上高温, 电网负荷七破历史记录, 做好今年节能减排工作面临的任务更重, 困难更多, 压力更大, 形势非常严峻. 出了这么大的事情, 玉泉校区奋斗在科研工作一线的研究生们怎能不挺身而出, 为首都人民和公仆分忧解难呢? 现在资源紧张, 应该将其投入到更加需要的地方去. 所以我们欣慰地看到, 三号楼里虽有空调, 但是不出冷气; 卫生间里虽有淋浴管道, 但是不流热水. 大家恪守天人合一的自然之道, 摇扇纳凉, 汲水擦汗, 暑气蒸腾, 蚊虫起舞, 人与自然和谐相处, 真是一幅环境友好的生态画卷啊.

少数不明真相的同学觉悟不够高, 发帖质问为什么摆着大好的中央空调却不开冷气. 我不禁笑了, 汝之不惠甚矣! 殊不知这是由各园区的区情所决定的. 中关村新区每栋楼里都装了空调, 玉泉老区楼破, 只有少数几栋装了空调. 人之性不患寡而患不均, 老区群众必须一碗水端平, 四号楼没有的即使三号楼有条件也不能有, 这比创造条件让四号楼也有要方便得多. 领导大人们高瞻远瞩, 一保低碳, 二促和谐, 大力营造浓厚的节能减排社会氛围, 这是多么英明的决策啊. 您的良苦用心, 我们感受到了.

Aug 2nd, 2010 | Filed under 其他
Tags:

酉阳杂俎及其他

这一周搬过宿舍, 来到中科院研究生院玉泉校区. 这地方西有八宝山革命公墓阴风惨惨,东有北京正负粒子对撞机辐射阵阵, 传统文明和现代科技在此强力碰撞. 话说回来, 虽不比西湖边上的浙大玉泉校区那样明媚, 至少绿化要比研究生院中关村校区强多了.

临近周末突然想读酉阳杂俎. 此书大名鼎鼎, 我最早见识到是在初中读韩寒“三重门”时见脚注引酉阳杂俎“马嘶如笑”一句. 三重门脚注很少, 所以见到这条古怪的引文就一直记得. 前段时间上豆瓣见到一本2008年出的书叫“唐朝的黑夜”, 大致内容是摘选酉阳杂俎中的一些条目译成白话再稍加评说, 所以又想起这本书. 近期在手机上将余世存辑录的“非常道”浏览一过, 发觉用手机看这类笔记体的轶事趣闻来打发时间是个不错的选择, 各条目篇幅短小又无甚关联, 读时不必按次序, 实为等车上课时所必备. 另一方面觉得这类姑妄言之的小说不必买一本来玩味收藏, 可以阅后即删, 所以适合用手机读.

本以为这类古书网上俯拾皆是, 事实上如果想找个误字乱码稍少点的“粗校”版也得踏破铁鞋. 一般在线阅读和下载网站不必说, 就是维基文库水木国学的精华版也是, 第一卷头几则就出错, “雌雉皆雊”作“雌雉皆ず”, “一抔之土未干”作“一А之土未干”, 等等, 而且错得一模一样, 可见是出自辗转复制, 可能在OCR之后就没有经过校对. 想起初进浙大时听数学系邵剑老师讲座, 提到日本人教育子弟往往拿中国人作反面教材, 谓“不要跟中国人一样懒! 不要跟中国人一样敷衍了事!” 不由苦笑. 许多网站还在点击“阅读”或“下载”时弹出个游戏注册窗口, 全屏显示, 音效全开, 令人不胜其烦.

这类事情还有很多. 例如上网检索汉书地理志, 从维基文库, 国学原典汉典古籍, 天涯在线, 无不满目疮痍, 乱码和漏字往往而是. 清人批评“明人好刻古书而古书亡”, 鲁迅批评清人纂修四库而古书亡, 也许未来会批评今人电子化古书而古书亡, 后之视今亦犹今之视夕, 其致一也.

当然印刷品质量会高一些, 不过也不是完璧. 前段时间读中华书局出的简体横排版三国志, 就发现了若干明显的标点错误. 像我这种初级读者都能挑出刺来, 在真正的专家的法眼中纰漏恐怕更多. 另一个问题是大批出版社蜂拥印行不受版权保护的古籍牟利, 好版本并不好找. 昨天和高原去亚运村图书大厦想买本“本草纲目”送人, 发现各种“精译本”“精编本”“彩绘本”“珍藏本”乱花渐欲迷人眼, 就是找不到一本平实的白文点校本. OK, 我们知道本草纲目是明朝的李时珍编纂的, 里面免不了迷信成分和别的糟粕, 但是出版商非得把看着不爽的内容删改掉再加以“精编精译”才肯放心交给读者, 读者难道就是如此愚弱么. 我认为大多数读者判断力健全, 知道如何取舍, 想一睹这部巨著的原貌; 不过出版商们愣是不乐意.

不过也不必太悲观, 认真的人也是有的. 使用繁体字的那部分中国人大抵比使用简体字的我们态度严谨些, 例如Gutenberg计划里的中文书里乱码就比较少, 不过这里书不太多. 同样是汉书地理志, 一个叫做汉川草庐的个人网站就要精审许多, 显然是逐字校订之功.

简体中国也有不少贤士, 有的甚至令人称奇. 以前听说钱钟书等前辈巨牛不仅遍览典籍而且勤做笔记, 总觉得不可企及; 而今看到不牢阁主人Trovatore立下通读二十四史的宏愿, 现在已经读过前四史并做了许多笔记, 方才感叹牛人辈出. 另有钱建文先生立志将四库全书做成电子版以飨读者, 并因此开辟了钱氏藏书论坛供同好交流. 我最后下载的酉阳杂俎文本就是来自这里, 由“沉思曲”和“背树谖草”等网友校过. 虽然阅读中发现还有些差错, 但比旁的版本强多了. 今天又发现一位网名“白云出岫”的高人, 数年来孜孜不倦地用普通话朗读古代典籍, 把录音放在网上供人免费下载, 现在已经初步完成了包括四书五经, 史记, 甚至资治通鉴等巨著的录制工作. 在其作品的电驴下载页面上, 白云出岫先生说: “如果电驴不倒(倒了也还会有别的地方), 本系列将更新到2028年.” “孔子曰: 善人吾不得见之矣, 得见有恒者, 斯可矣. 在朗读方面, 我可能算不上善, 但愿是个有恒者.” 在这个被所有人称为“浮躁”的时代, 看到这样的宣言, 不由肃然起敬.

Jul 26th, 2010 | Filed under 文艺
Tags: , ,
Blog WebMastered by All in One Webmaster.