讲真,几年前你要跟我说,能让机场地勤跟敦煌博士一块儿趴电脑前头校《永乐大典》,我肯定当你脑壳被门夹了。这事儿搁从前,那得是老教授戴着瓶底厚的眼镜,从早上磨到天黑,认一个字恨不得翻三分钟字典。但现在不一样了,我琢磨着,咱们这代人算是真真切切摸到了那个“让死的文字活过来”的门槛。
先说个最戳我的数据吧。你知道去年一年,光靠那个叫“识典古籍”的平台,拢共3.7万人——里头有两万是在校大学生,剩下那一万七千多人,是干啥的都有,机场上班的,开滴滴的,甚至还有卖茶叶蛋的大妈——就这么一帮人,愣是用AI校完了15亿字的古籍-2-7。你听清楚单位,是亿。15亿字是什么概念?搁过去的老先生手里,那是“穷极一生”都未必摸得着的边儿。我之前看北大杨海峥教授讲的,早先年大家咋整?选一个底本,拿别的版本一个字一个字对,错一个漏一个,后头全链都得崩-2。现在好了,你不认得那个破字形?机器帮你认。你看不清虫蛀的洞后头是啥字?OCR直接给你描边儿补全。

我头一回用这种ai古书整理工具,其实是去年冬天,帮一个朋友校那套《康熙字典》的生僻字。你晓得伐,那书里头的字,有的真是这辈子没见过,活像鬼画符。搁从前你得翻多少索引?现在倒好,你拿手机对着屏幕一拍,图像识别把笔画给你拆得明明白白,几秒钟连这字的流变都给你扒出来-2-7。当时我就愣住了,原来这就是那帮人嘴里喊的“数智化”——它不是替你读书,是替你先把路扫干净,你只管走就是了。
但这事儿吧,不是没坎儿。

我那会儿还不死心,又拿了一部明代的集部文献去试。这个更绝,古籍智能整理平台那头的后台显示,你传上去,机器先把版面给你划拉清楚,哪块儿是正文,哪块儿是注疏,哪块儿是后来藏书章盖上去糊了字的——它自个儿能认个七八成-5。中华书局古联那个团队,前阵子刚跟湖北大学搭了实验室,他们那个OCR,手写体能到95%,版刻本99%往上-5。但你真用它校那种残破的地方,它还是容易飘。有一回我拿一页虫蛀了三分之一的本子,它愣是给我补出一个从没见过的异体字,后来翻了三本工具书才发现,那个字形是明代一个刻本特有的错刻——机器没见过,就给瞎编了。
所以说ai古书这玩意儿,不是神仙,是你手里的拐杖。它最大的功德,不是替你走,是让你走快点儿,走稳当点儿。ctext.org那个德龙教授——一个老外,生生自个儿拿十年工夫攒了中国哲学电子书库——前阵子来人大讲座,他也说实话:大语言模型看着厉害,但你让它给古文翻英文,它能给你编一堆压根不存在的典故出来-6。这不是机器笨,是咱们的文化语境太厚,算法那层皮,还包不住。
可是话说回来,你真往深了使,又能看见另一层光景。
清华那帮人前年做了一个“春秋”大模型,专门拿来拆古籍版面的。你晓得不,有些古书那个排版,字斜着走、插在眉批中间、甚至绕图绕表,人眼看都得愣三秒,机器硬是能按阅读顺序给你捋顺了-1。还有那个“唐诗别苑”,拿BERT-CCPoem模型重新算了一遍《全唐诗》的押韵规律,你猜咋着?唐代人写诗根本就不全按咱们以为的平水韵,那是后人反推的。李白杜甫那些看似偶然的天才句法,算法一算,全是前人语料的“重混”-3。那个《红楼梦》诗学溯源更绝,曹雪芹那些你以为来自魏晋的意象,机器一追,根儿多数扎在《才调集》里——唐人选唐诗的本子-3。
这时候你再回头看,什么是古籍整理?它早不是关在书斋里的考据把戏了。它是把几千年的墨迹拆成可计算的比特,再把这些比特织成一张能追问、能实验、能犯错的网。我以前校书,最怕碰到那种多版本对校的活儿。一部《儒藏》,四百位老专家,十八年磨五百来种书。去年字节跳动捐了个大模型支援北大,十二个人,一年,上线五十种-4-8。你能说机器比人聪明吗?不,是ai古书把门槛削平了,让博士生不用把时间全花在抄卡片上,让古籍爱好者不用非得有编制才能摸到善本,让那些藏在法国、日本、美国图书馆里的敦煌残卷,也能被一个在郑州上班的会计业余时间点校-4-7。
我有时候晚上校累了,就翻翻那个叫“璇琮”的平台,看天南海北的人往上面传他们的校记。有个西安的大二学生,在《史记》某一页注了一条:“此处‘蒯聩’误作‘蒯溃’,已改,并附元刻三本佐证。”我盯着那行字看了很久。他改的这条,也许二十年前就有人发现了,但没处说,说了也没地儿传。现在不一样了,他的发现会变成公共知识,会被算法吸收,会被下一个校这本书的人看见。
这不比你在玻璃展柜外头隔着三米看一页泛黄的纸,更接近“传承”这俩字的本意?
当然,你也别把我想成那种“技术万能论”的狂热粉。我清楚得很,机器再强,它也不懂什么叫“黍离之悲”,什么叫“春树暮云”。它能把异文给你列成表格,但它不知道王国维为什么说“昨夜西风凋碧树”是第一种境界。算法是冷的热水,你得自己把手伸进去,才能被烫着。
前几天跟一个做方言古籍的朋友聊,他正愁怎么把清末那些用吴语写的唱本转成数字文本。通用OCR碰上方言字全瞎,什么“𠮶”、“𠲎”,直接给你识别成乱码。他说等这批书弄完,想专门喂一个小模型专吃方言俗字。我听着忽然挺踏实——这活儿,机器干不了,人才能领路-1。
你说这算不算我们这个时代独有的浪漫?
我们不是那个用毕生校一经的古人,也不是那个只会喊“科技复兴”的潮人。我们是夹在中间的那一代,手里攥着旧纸堆里的火种,又不得不借用新式的风箱,把这火烧得更旺、传得更远。那些线装书不会因为被扫描了就失去重量,那些错字也不会因为被AI标记了就自动正确。但至少,你我再也不用怕翻开一部明刊本时,满眼的通假字把自己吓得往回缩。
我开头说的那个在机场工作的志愿者张晓波,他校《永乐大典》的时候留下一句话,我记到现在:“我第一次觉得,这书是热的。”-2-7
是热的。烫手的那种热。