——《赵城藏》电子文本校编过程中的实践与启示

∵我们已处在信息化时代,数字化和网络技术正在改变人们的生活方式,改变人们处理信息与获取知识的手段,信息技术已经广泛应用于社会生活的方方面面。在佛教文献整理和知识的普及方面,数字化需求也日益突显,并成为全球化的普遍趋势。在数字化技术水准较先进的地区,如日本、韩国、美国以及我国的***地区,佛典电子化,特别是佛教大藏经的电子化已经取得了突破性的进展。

2006年4月,上海龙华古寺与北京慧海文化信息中心合作,启动《赵城藏》电子化全文本项目,这是中国古版大藏经首次被制作成电子文本的宏大工程,也是弥补大陆佛教大藏经电子化空白的应时之举。

电子版《赵城藏》工程已走过了三年多的历程,在今后的几年里,还有更多新的难题需要解决,比如即将面临的经文中悉昙字的录入问题,目前还没有找到解决方法,虽然已经有了悉昙字库,但却没有相应的输入法;另外,我们还面临着检索系统的设置等许多问题。

一.佛典电子化的时代要求与积极探索

我们已处在信息化时代,数字化和网络技术正在改变人们的生活方式,改变人们处理信息与获取知识的手段,信息技术已经广泛应用于社会生活的方方面面。在佛教文献整理和知识的普及方面,数字化需求也日益突显,并成为全球化的普遍趋势。在数字化技术水准较先进的地区,如日本、韩国、美国以及我国的***地区,佛典电子化,特别是佛教大藏经的电子化已经取得了突破性的进展。

早在上世纪90年代初,在日本花园大学国际禅学研究所,一批从事佛教研究的有识之士在乌·阿浦博士的主持下,决定建立禅知识数据库,并在之后的几年中将几十种禅学文献录入计算机,发行了名为《电子达摩》的光盘。继起者还有京都大学人文科学研究院,京都禅文化研究所等。他们,特别是乌·阿浦博士成为佛典电子化的开拓者。

1993年4月,一个国际性的组织——电子佛典推进协议会(EBTI)在发起人美国柏克莱大学兰卡斯特教授的家中正式成立,兰卡斯特任会长,乌·阿浦任主任。这个组织的宗旨就是推进和协调世界各国佛典电子化的工作。

在这个组织的推动下,1993年起,韩国海印寺的一项规模宏大的工程——《高丽藏》数字化全文本项目启动了。这项工程的主管是海印寺的宗林法师,工程得到韩国三星公司在资金、人员及设备方面的全力支持。海印寺及三星公司的计算机专家和佛教学者在汉字编码、输入法及汉字缺字处理等各方面作了大量的创新工作,终于在2000年5月完成了《高丽藏》电子文本全部的制作工程,现已有光盘传世。

与此同时,由日本全国各大学组成的佛典输入团体SAT正在建立“大正新修大藏经原典数据库”。SAT肇始于1994年成立的“大藏经原典数据库研究会”。该研究会得到日本***资金的支持,也得到日本印度学佛教学会的认可。原典数据库启动的时间是1997年的6月17日,计划用10年时间将日本《大正藏》1-85册的全部经文,包含注文制成电子化全文本,并通过internet向世界公开;85-100册的图像部和目录部数据库也将在之后被列入计划。就是说,在可预期的时间里,另一项可以与海印寺电子版《高丽藏》媲美的宏伟工程将惠及国际佛教学术界。

在电子版大藏经制作的众多组织中,我国***地区的佛教学者更是做出了令世人瞩目的成就。早在1993年,***的萧镇国先生就独自主持了佛典的录入工作,将《阿弥陀经》、《六祖坛经》、《地藏菩萨本愿经》等十几种佛典制作成电子文本。在此基础上,自1995年起,他又在内地深圳开始录入日本《大正藏》,至1997年,完成《大正藏》前25册的文本录入,从而开***佛教界制作电子版大藏经之先河。之后,萧先生提供了《大正藏》前25册电子文本,授权***大学佛学研究中心进行后续处理。以恒清法师为代表的台大佛教研究中心,于1997年11月∵6日成立25T小组,将制作电子版《大正藏》的计划正式提上日程。紧接着,在恒清法师的奔走下,∵

电子版《大正藏》的工作首先得到中华佛学研究所创办人圣严法师的支持,中华佛学研究所在圣严法师的指示下,为电子版《大正藏》项目提供人力和财力等全方位的支持,实际上成为电子版《大正藏》的主办方。1998年2月15日,在“中华佛学研究所”、“北美印顺导师基金会”的赞助下,“中华电子佛典协会”(CBETA)在台北法鼓山安和分院成立,中华佛学研究所的副所长惠敏法师任主任委员,该所网络信息室主任杜正民任总干事,恒清法师任常委。自此,电子版《大正藏》工程全面启动。

CBETA的电子版《大正藏》事业,得到***及日本、美国和大陆佛教界同行的广泛协助,进展神速。1999年12月举行的第二次成果发布会上,CBETA展示了已完成的1-32册的成果;至2001年4月完成1·55册及85册的普及版光盘的制作,并在Internet上提供***下载。***版《大正藏》光盘现已在海内外广泛流传,成为电子版大藏经最流行的版本。[1]到2007年2月,CBETA又完成了《卍续藏》文本的录入。

应该说,电子佛典的事业不仅反映在电子版大藏经一个方面,如同早期日本花园大学国际禅学研究所的《电子达摩》那样,在日本、美国及***地区,这种电子佛典的活动不胜枚举。

日本京都大学人文科学研究院在高田时雄的主持下,早在上世纪90年代初就开始了《大正藏》“史传部”的电子化工作;东京的三友健容则在立正大学建立了日莲宗文献数据库;驹泽大学的曹洞宗宗学研究所建立了曹洞宗宗学数据库等等。

在美国,1993年沈家祯博士在纽约成立了佛教计算机咨询库功德会,他们经过10多年的努力,已经制作完成了十多种专集的光盘,包括地藏菩萨专集、观世音菩萨专集等,他们将这一具有系列化的电子佛典总称曰“藏经阁”,实际上是电子版大藏经的另一种形式。

总之,目前国际佛典电子化事业的现状,正如王雷泉教授在其文章中所说的那样,已经驰入了“国际信息高速公路”,正在一日千里地向前发展,尤其是佛教大藏经的电子化已取得了突破性的成就。

相对而言,我国大陆的佛典电子化工作起步较晚,但也在奋起追赶。面对国际佛典电子化的大潮流,我国大陆的佛教学术界在佛教文献的整理方面,尤其是佛教大藏经的普及方面也在加快步伐。

一方面,自上世纪90年代以来,我国佛教界、学术界及出版界以空前的速度和巨额的资金投入,将我国现存的大藏经珍贵版本如房山石经、《初刻南藏》、《永乐北藏》、清《龙藏》及民国年间的《频伽藏》等影印出版,以仿原版形式影印的明《嘉兴藏》也已面世;加上此间已被境内外出版商和佛教寺院多次翻印的日本《卍字续藏》、《大正藏》及《高丽藏》等,那种在上世纪90年代以前大藏经一部难求的时代已成为历史。

另一方面,佛典电子化已引起大陆学术界的特别关注。早在10年前,大陆的佛教界、学术界及信息部门就有过一次大型的聚会,共商编辑电子版《中华藏》之事,只是因缘尚未成熟,故而虽然开了研讨会,但会后却没有展开具体实践。然而,在那之后,我国大陆的佛典电子化工作却在默默无闻中向前推进。

在上海,复旦大学的王雷泉教授一直在为打造佛典电子化的中国国产车而奔走呐喊,也一直在为建立大陆学者佛教论文网而不懈地努力着。

在西安,以陕西师大吴言生教授为负责人的工作小组,经过多年的努力,将***CBETA的大五码(BIG5)成功地进行了转换,并对电子版《大正藏》文本进行了深度加工,解决了原《大正藏》文本中存在的缺字缺图问题,并提高了检索的功能。同时,吴言生小组正在建立迄今为止“世界上最大的禅宗典籍全文数据库”(《禅宗典籍大全》),该库入藏的全部典籍均加以新式标点,以GBK码为基本编码,提供简繁两种字体的文本。

在杭州,中华佛典宝库网站曾用自己的软件技术支持***CBETA完成了电子版《大正藏》;同时他们自1998年起也开始了相当规模的佛典录入工作。目前最准确的大五码(BIG5)与国标扩展码(GBK)、简化字与繁体字的转码软件Textpro,电子佛学辞典FoDict,佛经浏览器软件FoRead,专为佛典电子化录入研发的菩提五笔输入法等都是由中华佛典宝库开发的。

在北京,类似的组织很多,这里我要特别介绍一下以李家振先生为创办人的民间佛教文化组织——北京古今慧海文化信息交流中心。慧海中心成立于1995年,其宗旨是从清理佛教资源的“家底”入手,进行佛教文献资源及佛教艺术资源的电子化工作,并全面服务于中国佛教界和学术界的佛典电子化工程。经过十余年的努力,慧海中心的清“家底”工作已经取得了辉煌的成就,不仅建立了庞大的佛教文献目录系统,而且在佛教期刊、电子书、工具书、佛教全文资源、佛教多媒体等资源的收集整理上都取得了突破性进展。目前,慧海的资源总量已达到4000多GB,慧海佛教资源库的成果包括:佛教文献目录资源(大藏经目录、经录、汉文大藏经校勘目录、佛教典籍联合目录、近现代佛书目录、佛教期刊目录及全文),佛教全文资源(全部约50000多个档,总计20亿字以上,资源量4GB),佛教多媒体资源(拥有大量佛教艺术图片、音频、视频资源),电子书资源(目前国内最大的佛教电子书系统),工具书资源(成熟数据约13万余条)

慧海中心经过十余年的努力,不仅拥有丰富的佛教信息数据,在技术平台开发及专业团队建设方面也具有相当的实力,在硬件设施上亦有了良好的基础。2004年—2005年,受海南三亚海上观音基金会委托,慧海中心编辑制作了电子版《观音宝典》,收录涉及观音的佛教典籍及其它文献147种约200余万字。此前,上海龙华古寺与李家振先生就有过选择一部最有价值的大藏经版本制作成电子文本的设想,通过《观音宝典》这次成功的尝试,我们获得了佛典电子化的经验与信心,决定正式开展大藏经电子化工作。2006年4月,上海龙华古寺与慧海中心合作,正式启动《赵城藏》电子化全文本项目,这是中国古版大藏经首次被制作成电子文本的宏大工程,也是弥补大陆佛教大藏经电子化空白的应时之举。

二、《赵城藏》电子文本工程的意义及目标

电子版《高丽藏》和《大正藏》的成功制作是国际佛典电子化事业中具有里程碑意义的事件,它对佛教及佛教学术事业的发展都会产生深远的影响:

①∵佛教大藏经的电子化从根本上改变了佛教大藏经流通的方式,过去好几个书架才能装下的一部大藏经印本,现在变成了一张直径不足5寸的光盘,真正实现了大藏经在全球范围内的普及应用,一如CBETA的宗旨所云:“让任何所要阅藏的人都有机会如愿以偿。”

②∵佛教大藏经的电子化已成为一种全新的佛教研究的手段和资料的源泉,使佛教研究者不必去图书馆就能在自己的计算机上实现阅藏的目的,并通过一定的检索手段迅速获得过去需要多年积累才能获得的佛典资料。

然而,汉文大藏经版本众多,《高丽藏》、《大正藏》只不过是它们中间的两种,而且又都是国外的版本。它们既不能代表所有的大藏经版本,就佛教原典数据来说,其局限性也非常明显。因此,我们只能说,电子版《高丽藏》、《大正藏》已开风气之先,意义重大,但大藏经电子化的事业还任重道远。尤其是在版本的比对上,比《高丽藏》、《大正藏》更古老、更珍贵、更有价值的大藏经版本还有很多,在信息时代的今天,它们都应该实现电子化。

大家知道,我国的大藏经史可上溯到南北朝时代的写本“一切经”及隋唐时代的官写本大藏经,但这些写本大藏经如今已无一部实物存世,因此,我们现在所讲的佛教大藏经,是指始于北宋初年开刻的我国第一部木刻本大藏经《开宝藏》,直到近代以来的铅印本大藏经和影印本大藏经。它们包括北宋的《开宝藏》,辽朝的《契丹藏》,金朝的《赵城藏》,两宋间的《崇宁藏》、《毗卢藏》,南宋时期的《圆觉藏》、《资福藏》,宋元之间的《碛砂藏》,元朝的《普宁藏》、《元官版藏经》,明朝的《初刻南藏》、《永乐南藏》、《永乐北藏》、《嘉兴藏》,清朝的《龙藏》,及近代以来的《频伽藏》、《普慧藏》、《中华藏》(分大陆版和***版)等。这近20种大藏经中,除《开宝藏》、《契丹藏》及《元官版藏经》几种基本散失外,都有被制作成电子版的理由,因为它们是不同时代雕印的大藏经版本,每种版本都有自己的特色。其中尤其是《赵城藏》,在《开宝藏》基本散失的今天,它代表着现存大藏经中最古老的版本。研究表明,金朝潞州人崔进之女法珍以断臂募资在山西晋南发起,经三十年雕造而成的金藏,完全是《开宝藏》的覆刻藏。早在上世纪30年代,蒋唯心在其《金藏雕印始末考》一文中就提出了这一论断;上世纪40年代,日本学者小野玄妙在《佛教经典总论》一书中,对蒋唯心的结论又作了进一步肯定,他说:“我敢断言金版大藏经即官版大藏(指《开宝藏》)之全幅。”今天当我们进一步深入研究《赵城藏》时,不得不对蒋氏及日本学者小野玄妙的结论深感钦佩。大量证据表明,《赵城藏》无论是版式还是内容,都全面反映了《开宝藏》的原貌,换句话说,《赵城藏》再现了《开宝藏》的全貌。

我国至清朝为止的十几种刻本大藏经大体可分为四种类型,《开宝藏》、《赵城藏》及《开宝藏》的另一部覆刻藏《高丽藏》属于一种类型,它们无疑代表着一种最古老的版本,《开宝藏》开刻的年代(约971年)比辽《契丹藏》(约983年)早了十几年,比两宋之际的《崇宁藏》(1080年)更是早了100多年。

《开宝藏》初刻本约在宋太宗太平兴国八年(983年)前完成。《开宝藏》初刻本是依据在四川成都流行的一种以《开元录·入藏录》为目录依据的写本大藏经雕造的,全藏收经约1085部,5048卷,480帙。其后至宋徽宗大观二年(1108年)之前的百余年间,又进行过三次增补,增补了北宋时期的新译经,唐以前翻译的未入藏经,以及这一时期宋朝皇帝敕命入藏的各类中国着述。通过这3次增补,《开宝藏》的收经总数达到1560余部、近7000卷的巨大规模,从而成为两宋时期收录经籍最多的一部大藏经。这一情况从下列宋版藏经收经总数对照表中可一目了然。

《开宝藏》如此丰富的内容被《赵城藏》无一遗漏地继承下来,《开宝藏》虽然已基本散失,但《赵城藏》却在被埋没了700年后,于1933年意外地被发现了。《赵城藏》在发现时,首先也是因为它丰富而独有的内容引起佛教学术界的震惊和关注。当时,发现者范成法师经过五个月的细心“检阅”,清理出“各藏所无之经典竟有四十六种二百四十九卷之多”。当他把这一情况“函电报告”上海及北京的佛学界“诸君”时,他们立即决定派人与广胜寺僧人协商并订立合同,将其影印传世,知名居士叶恭绰“择名曰《宋藏遗珍》”。[1]

如上所说,我国大陆现存的较完整的任何一部大藏经都有理由也应该制作成电子版,但在有限的人才和资金的条件下,应该有一个轻重缓急的考虑,特别是要比较它们的影响力和学术价值,这样《赵城藏》这部现存中国最古老的大藏经就成为我们制作电子版大藏经的首选版本。

我们选择《赵城藏》制作电子版,还考虑到它在上世纪80年代以后因为大陆版《中华藏》的影印出版而几乎被全部的公诸于世。大家知道,《赵城藏》是稀世的珍本,30年代发现于山西赵城县广胜寺(今洪洞县)。抗日战争时期,经过八路军战士的抢救转移,最后于1949年5月安全运交北平图书馆。其后,《赵城藏》又经过韩占魁等四位装裱师长达17年的修复,才得以完好地保存到今天,成为国家图书馆的镇馆之宝。上世纪80年代初,为了编辑《中华藏》,北图把《赵城藏》全部摄制成胶片,《中华藏》使用的就是这份母片复制的第一份底片洗印的《赵城藏》照片。在《中华藏》编辑过程中,有专门的小组又对照片中的残缺和漫漶之处,按照严格的程序进行了修补,使经文文字更加清晰和完整。这种情况就为我们制作电子版《赵城藏》获取原典数据提供了极大的便利。目前,直接提取《赵城藏》原件几乎是不可能的,那将是一个极其困难的请示过程。我们的作法是依据蒋唯心整理的《广胜寺大藏经简目》,再参考其它相关数据,复原一部《赵城藏》目录,依照这份目录从《中华藏》扫描本中辑出一部《赵城藏》作为我们电子版的底本。

电子版《赵城藏》是一项复杂的工程,其最终成果将制作成四种版本,即标准版、竖排版、流通版和研究版。我们将《赵城藏》全藏内容录入计算机,尽可能忠实地保存原版的字形,保留原版的经名卷次、张数、千字文等小字标注;录入文本要与扫描本对校,完成文字校对三个校次,标点校对两个校次,共计五个校次。差错率控制在万分之一以下。

四个版式具体要求如下——

《开宝藏》如此丰富的内容被《赵城藏》无一遗漏地继承下来,《开宝藏》虽然已基本散失,但《赵城藏》却在被埋没了700年后,于1933年意外地被发现了。《赵城藏》在发现时,首先也是因为它丰富而独有的内容引起佛教学术界的震惊和关注。当时,发现者范成法师经过五个月的细心“检阅”,清理出“各藏所无之经典竟有四十六种二百四十九卷之多”。当他把这一情况“函电报告”上海及北京的佛学界“诸君”时,他们立即决定派人与广胜寺僧人协商并订立合同,将其影印传世,知名居士叶恭绰“择名曰《宋藏遗珍》”。[1]

如上所说,我国大陆现存的较完整的任何一部大藏经都有理由也应该制作成电子版,但在有限的人才和资金的条件下,应该有一个轻重缓急的考虑,特别是要比较它们的影响力和学术价值,这样《赵城藏》这部现存中国最古老的大藏经就成为我们制作电子版大藏经的首选版本。

我们选择《赵城藏》制作电子版,还考虑到它在上世纪80年代以后因为大陆版《中华藏》的影印出版而几乎被全部的公诸于世。大家知道,《赵城藏》是稀世的珍本,30年代发现于山西赵城县广胜寺(今洪洞县)。抗日战争时期,经过八路军战士的抢救转移,最后于1949年5月安全运交北平图书馆。其后,《赵城藏》又经过韩占魁等四位装裱师长达17年的修复,才得以完好地保存到今天,成为国家图书馆的镇馆之宝。上世纪80年代初,为了编辑《中华藏》,北图把《赵城藏》全部摄制成胶片,《中华藏》使用的就是这份母片复制的第一份底片洗印的《赵城藏》照片。在《中华藏》编辑过程中,有专门的小组又对照片中的残缺和漫漶之处,按照严格的程序进行了修补,使经文文字更加清晰和完整。这种情况就为我们制作电子版《赵城藏》获取原典数据提供了极大的便利。目前,直接提取《赵城藏》原件几乎是不可能的,那将是一个极其困难的请示过程。我们的作法是依据蒋唯心整理的《广胜寺大藏经简目》,再参考其它相关数据,复原一部《赵城藏》目录,依照这份目录从《中华藏》扫描本中辑出一部《赵城藏》作为我们电子版的底本。

电子版《赵城藏》是一项复杂的工程,其最终成果将制作成四种版本,即标准版、竖排版、流通版和研究版。我们将《赵城藏》全藏内容录入计算机,尽可能忠实地保存原版的字形,保留原版的经名卷次、张数、千字文等小字标注;录入文本要与扫描本对校,完成文字校对三个校次,标点校对两个校次,共计五个校次。差错率控制在万分之一以下。

四个版式具体要求如下——

○标准版:电子文本的文字、折行与原藏保持一致,制作成横排本。字形完全按照《赵城藏》原貌表现,字库里没有的字形,暂时用字形基本相同的异体字来代替。标准版可以按字、词、句检索,检索时输入字形按国家规范字标准执行。标准版加入版本标注、《金藏》刻版张数信息等内容。

○竖排版:电子文本版式采用分栏方式,最后制成PDF电子书,每页三栏,每栏二十三行,每行十四字。文字规范、检索功能、校编信息皆同标准版。

○流通版:流通版去掉原藏折行,根据文意适当分段,使用横排版式并加句读。文本字形遵循国家规范标准。流通版将实现全文检索功能,即输入一个字、词,就能检索出全藏所有相关信息。流通版每部经书都有相应的内容提要。流通版最后将结集为光盘,***流通,与社会共享。

○研究版:在标准版的基础上,加入校注信息,并说明诸本异文及判断依据。研究版也附上内容提要。

我们之所以推出标准版和竖排版,就是为了尽可能多地保留原藏信息,实现“复原”赵城藏样貌的目标,这两个版本可以为相应的佛学专家与佛学机构提供方便。

《赵城藏》电子文本标准版、竖排版和流通版预期五年左右完成,研究版于八年之内完成。

电子版《赵城藏》工程自2006年4月启动后,得到教界高僧、学界专家的广泛支持;2006年8月赵城藏网站正式开通。一期成果结集于2006年10月,共收入般若部经典《大般若经》600卷,并制作***流通光盘3000张,向全社会***流通。二期成果结集于2007年10月,共收入般若部全21部经典,并制作***流通光盘3000张,向全社会***流通。三期成果结集于2008年12月,共收入宝积部、华严部、大集部所有三个部次的经典,共计420余万字。

目前,《赵城藏》编辑部及分布于全国各地的数百位志工都在努力工作,争取如期实现目标。

三、《赵城藏》电子文本校编过程中的实践和启示

我们清楚地意识到,《赵城藏》电子文本的制作不仅是一项功德无量的宏大工程,同时也是一项涉及计算机技术、软件开发、文字处理、传统校对、组织联络、项目管理等多方面的系统工程。可以这样说,在我们启动工作至今三年多的时间里,我们是在不断地克服困难、不断地学习中摸索着前进。

电子版《赵城藏》的制作包含着三个不可缺少的环节,一是录文,二是校对和断句,三是检索系统的设置。第三个方面因工作刚开始启动,还没有成为工作的重心。

我们遇到的第一个问题就是录文。我们原以为对慧海中心来说这不应该成为问题,因为慧海在这方面已经有十余年的经验,我们拥有十几位在计算机录文岗位上工作了近10年的操作员,但实际情况却出乎我们的意外,《赵城藏》原本中出现的大量手写字、异体字、通假字、生僻字等都打不出来,因而使我们的录文工作举步维艰。

我们提出的第一个解决方案是:将录文过程中打不出来的字一律检出存档,制作成字表,然后转换为规范体繁体字;无法转换的生僻字则采用造字或组字法处理。但这种办法不仅给录入人员,也给之后的校对工作带来麻烦,因为他们把握不好哪些是规范字,哪些是异体字、通假字。最常见的字体如——若∵𠰥;为∵为;唯∵惟;幷∵并∵并;嗔∵瞋;床∵床;睹∵覩;妒∵妬;净∵净;尔∵尒;挂∵挂∵罣;秘∵秘;炼∵炼等。

这样就使打出来的文字难于统一,而校对后文本的定稿难度也随之加大。在这种情况下,校对人员要求我们制定统一的校对标准。2006年10月,经过反复研究之后,在慧海中心召开的一次专家研讨会上统一了认识,最终确定了以原藏字形为标准的校对原则,录文和修改也都遵循这一原则。这样,又回到了起点,所有的难题又集中在如何处理计算机无法录入的那些字的问题上。这时,我们得到了中华佛典宝库网站在软件技术方面的指导与帮助,我们采用了Unicode字库及宝库专为佛典电子化录入研发的菩提五笔输入法。

Unicode最新字库配以菩提五笔输入法,可以输入75814个汉字字形,这就解决了我们录文过程中的大部分问题。过去无法录入的异体字、俗体字、通假字以及一些奇形怪状的字,现在基本上都能录入计算机,如:

𢙣∵𡧐∵𦛁∵𡧱∵𨐫∵𨚿∵麞∵臰

丙∵𢘤∵𡊬∵𢱅∵㦯∵𡰱∵𣐈∵𧴥

𠯣∵囙∵㝎∵𧺫∵蝅∵𠫤∵𢇁∵𣱵

但是,如同《高丽藏》、《大正藏》电子版制作过程中出现的情况一样,《赵城藏》文本中仍有一些异体字和字形特殊的字形无法输入,大致有以下四种情况:

1、字形与字库中的字稍有差异,或多一笔,或少一笔等,我们采取计算机能够输入、字形接近的字代替,如(第一行为原藏图形,第二行为录入字体):

4、原藏模糊或缺损处,字形难以辨识。由专家组按照文意一起讨论确定一个字来代替,以确保原藏经意圆满流畅,如:

制作《赵城藏》电子文本,疑难字问题给我们带来很大困扰,同时也给我们带来不小的收获。制作过程中遇到无法输出的字形,我们会随时记录该字在原稿中的具体位置(如出自哪部经书,具体位于第几卷、第几页、第几栏、第几个字等),便于日后查核。同时,我们会查阅各种辞典与工具书,尽量找到与该字对应的通用字,也一起记录下来,并制成电子表格。最重要的是,每个字在原藏中的不同字形都能集中反映出来。暂时无法输入的字形,截取原藏图形记录下来,避免了抄写时的错误和变形,而且更能反映字形原貌。经过三年多的积累,我们的疑难字表内容已经相当丰富,其中包括疑难字的截图,在原藏中的位置,以及它所对应的通用字等。这份字表可以按读音或输入法排序。目前我们已经收录2270个疑难字。

从忠实反映原藏字形的标准版转换成流通版,也需要制作一张转换字表,我们将录入字形与标准字形一一对应,列在字表之中,用程序来完成转换。

此外,为了在标准版与竖排版中实现全文检索目标,我们还需要制作一张对应字表:《赵城藏》原藏同一字可能有多种写法,比如“舍”字,原藏中或作“舍”,或作“舎”;如“为”字,或作“为”,或作“为”;如“隐”字,或作“隐”,或作“隠”,或作“𨼆”;如“貌”字,或作“貌”,或作“皃”,或作“𧳖”等。在检索时,输入国家规范字体(舍、为、隐、貌),就能检索出这个字不同写法(舍、舎;为、为;隐、隠、𨼆;貌、皃、𧳖)的全部信息。

这三张字表是《赵城藏》电子化工作的附带成果,为藏经研究专家和文字学家的研究提供了版本依据,也为制作汉字统一编码的机构提供了准确的造字依据。

第二个问题是校对和断句。如上所述,正因为在处理录文中缺字这个最关键的问题上,我们曾有过规范化的方案,使校对工作也随之走了一段弯路。在统一认识,确定以原藏字形为标准的校对原则后,我们对校对者就只有一个要求:即以《赵城藏》扫描本为标准,在录入文本上标出一切与扫描本不相符合的内容,包括不同的字形,录错的字词及其它符号。我们的目标是,经过三个校次,使文本与扫描本达到一致,复原《赵城藏》原藏样貌。

五个校次的工作分别由不同的校对者承担。承担初校者中有招聘的专门校对人员,但多数是在网上结交的热心于弘传佛法的志工,他们分布于全国各地,已经形成北京、上海、沈阳、长春、大连等志工校对小组。文字三个校次的任务是校出录文中打错的字词及一切与扫描本不相符合的地方。标点断句二个校次请具有一定古文基础和佛教知识的人士参加,校对人员多为北京高校佛教及文科专业的研究生及佛学业余爱好者。他们的任务是给经文加句读,即用“。”这一个标点符号对经文进行标点。这是电子版《赵城藏》新增加的内容,也是一种大胆的尝试。最后的定稿,我们邀请佛教专业的学者来承担任务。

确立了以原藏字形为标准的校对原则后,我们还制定了更为严谨的质量管理措施:

一、抽校。五个校次均有抽校跟踪,不合要求者退回重校,或请他人再校。

二、核红与抽核。修改人员要改正红样中的每个错误,原稿不清之处要找数据查证核实。在发放校样修改时,负责人员先在工作记录表中进行经名、操作方式、发放时间、修改人登记,并交代、督促修改人认真收集、总结疑难字形,制成表格,作为该经的文字信息数据存盘。同时,在修改中发现原藏有错、脱、倒、衍等问题时,及时集中在加注信息表中,以备需要时摘用。文稿修改好后,连同文字信息表、加注信息表交与负责人员以备抽核。文字三个校次修改稿,一般按稿件的十分之一进行抽核,错改率不得超过万分之一,字形漏改不得超过万分之三,否则,即返给修改人重改;终审稿要全篇核红,确保每一个标红处都准确无误地修改过。有了这些管理措施,校对文稿的质量也就有了保证。

除了校对文字,还有一个问题,就是断句,断句工作难度很大。日本《大正藏》开大藏经断句之先河,给读者读经提供了极大的方便,影响很大,但《大正藏》的错断之多也曾带来学界朋友的批评。

为了保证电子版《赵城藏》的断句质量,我们对参与断句的校对人员和志工提出一些具体的要求,为了防止错断,我们提出“宁粗勿错”的原则,即在断与不断无法确定的情况下宁可不断等。

2006年10月,在慧海中心召开的专家研讨会上通过了《〈赵城藏〉句读要求》,在《〈赵城藏〉句读要求》中,有较为明确的句读说明,包括“断句符号说明”、“句读点断要求”、“句读错漏判定标准”三个部分,“句读点断要求”又列出了七条具体说明:⑴、文句意义已完整处需有断句符号断开。⑵、文句较长,虽意义未完但中间需有语气停顿处可断开。⑶、提示引语的字词如“曰”等之后需断开。⑷、文句前及其中的人名呼语后需断开,但人名若不是作呼语而是做主语,则不可和后面的文句断开。⑸、表达完整概念的名词与词组连续排列适当断开。⑹、韵文于韵字处断开。⑺、句读风格及标准要统一,相同情况下可断可不断的地方要全篇统一,即或者全部断开,或者全部不断。应尽量避免出现太长的句子,但也要避免断得太碎。“句读错漏判定标准”也提供了三条标准:⑴、文句意义已完整处未和其后面的文句断开及上述其它需断开处未断开,判定为漏断。⑵、将属于前一部份结尾的内容断为属于后一部分,或属于后一部分开头的内容断为属于上一部份,此两种都为错断。⑶、文句内语气停顿需断开处,如断在一个表达完整概念的词或词组之间,判定为错断。

为了方便校对者处理句读,在《〈赵城藏〉句读要求》基础上,2006年11月,慧海中心又公布了由李富华执笔的《〈赵城藏〉文本校编句读说明与范例》。在这篇文章中,从此前的校对文稿中找到具体例证,一一说明如何处理判断错断之处,如何处理当断不断、不应断处反而断开等情况,对于如何处理前后句型相同处、排列较长的佛教名词等,也做了详细说明。

有了这两篇说明,校对人员在处理句读之时,确实轻松了许多。但是佛教典籍的特殊性要求断句者必须具备一定的佛学基础,对佛经中出现的大量名词术语拥有初步辩识能力,以及对佛教基本义理具有较强的理解能力等。正因为这样,第二个标点校次在断句方面还是出现了不少的错误,应断而不断、不应断处则断开等问题依然存在。

鉴于这种情况,我们邀请北京佛学界的学者参加《赵城藏》电子化全文本的终审工作。目前,我们邀请的学者有中国人民大学的张风雷、张文良、温金玉、魏德东、宣方,北师大的徐文明,中国社科院的华方田、周广荣,民族大学的谢路军、刘成有,首师大的程恭让,政法大学的俞学明,中国佛教文化研究所的伍先林、北京信息科技大学的韩剑英、上海师范大学的徐时仪、浙江大学冯国栋等共16位专家教授。

他们都是目前佛学界崭露头角的教授级专家,在佛学研究的某一个领域取得了一定的成就。我们邀请这些专家,就是让他们在自己研究领域所涉及的那部分经论典籍的点校方面为我们把关,负责终审工作,以确保电子版《赵城藏》的质量。今后,我们还将邀请国内有一定佛学造诣的法师和居士大德参加电子版《赵城藏》的终审工作。

电子版《赵城藏》工程已走过了三年多的路程,我们是在克服重重困难中走到了今天。我们知道,在今后的几年里,还有更多新的难题需要我们去解决,比如即将面临的经文中悉昙字的录入问题,我们还没有找到解决方法,虽然已经有了悉昙字库,但却没有相应的输入法;我们还面临着检索系统的设置等许多问题。就是说,我们要学习的东西还很多,但我们有信心,在佛教界和学术界朋友们的支持下,在预定的时间里完成全部工程,向佛教界和学术界展示一份可以在计算机上兼容并国际通行的电子版《赵城藏》的成果,以追赶国际佛典电子化的潮流。

四、关于佛典电子化问题的思考

《赵城藏》电子化工程自2006年4月正式启动,至今已走过了一年多的历程,三年多的经验告诉我们,制作电子版《赵城藏》绝不是一家之力就能完成的。我们还借助了前人的经验,特别是***CBETA的成果和大量从网上得到的已成熟的计算机软件技术。现在,我们还在密切关注国际佛典电子化的进程和最新的软件技术的开发现状,因为我们的工作刚刚开始,我们还面临着大量的技术问题需要解决。

制作一部电子版大藏经,是一项需要大量资金和人力资源投入的工程,重复劳动可以说是最大的浪费。在信息化时代的今天,资源共享、技术共享是容易实现的目标。为了共同的弘法事业,我们希望全球同仁能协调发展,避免重复劳动和大量财力的浪费。

日本、美国、韩国和***地区都是佛典电子化的先行者,软件技术的开发也走在了世界前面;我国大陆近年来也在急起直追,在某些方面甚至已经达到或超过了国际水平。为了共同的事业,就大家共同关心的软件技术的开发,可以展开国际合作,比如开发更好的适合不同文种的国际编码和转码软件,解决佛典电子化中的缺字问题,建立统一的检索系统等等。

出于上述几方面的原因,我们提出如下几点想法,供各国各地区的电子佛典组织参考。

①∵加强国际合作。现在,在国际间已经有了以兰卡斯特教授为创办人的国际电子佛典推进协会(EBTI),作为一个国际性的组织,EBTI组织应该加强在全球范围内的活动。我们建议EBTI组织加强与包括我国大陆在内的相关组织的联系与合作,全面了解和掌握各国各地区佛典电子化的计划和进度,并科学地纳入全球佛典电子化计划之中,加以协调和指导,使佛典电子化的进程更有利于全球化的协调发展,避免重复劳动。

②∵各国各地区的电子佛典组织,都应建立并公开自己的网站,定期在网上公布电子化工作的进程和软件技术开发的最新成果,以便相互交流,及时推广新技术;打破那种电子佛典各有各的内码、彼此间互不兼容的隔绝状态,逐步做到资源共享、技术共享。

③∵建立全球化的软件开发的协作机制,以通讯方式展开活动;着重于开发全球范围内通用的兼容各种文字的统一字符集和标准化的标记语言,使佛典电子化中的缺字问题,互不兼容的内码问题,不同平台之间共享资源问题等得到最好的解决,以推进佛典电子化的进度,提高电子文本的质量。

以上几点想法是否妥当,请与会学者指点。

∵(照诚∵中国佛教协会副秘书长、上海市佛教协会副会长)

点赞(0)

评论列表 共有 0 条评论

暂无评论
立即
投稿
发表
评论
返回
顶部