找回密码
 注册
搜索
热搜: 超星 读书 找书
查看: 1932|回复: 3

[【原创资源】] 汉文史资料库

[复制链接]
发表于 2005-3-5 16:29:21 | 显示全部楼层 |阅读模式
汉文史资料库简介
  
  文化传信集团的“汉文史资料库”,为全球首个独一无二的“电子”中国古文献资料库。资料库将涵盖先秦时代至清道光20年(1840年)以前的所有重要文献,并以经、史、子、集的原则来进行有系统的分类,而到目前止已收录逾1亿1千万字、6,698卷古典文献和68,429幅图片,对于古文献之考证及学术研究有莫大的贡献。
  “汉文史资料库”结合了栾贵明先生、田奕女士、以及文化传信副主席朱邦复先生数十年来刻苦经营的研究成果。栾贵明先生及田奕女士在过去数载,一直努力不懈地对中国古文献进行庞大的资料汇辑、编纂整理和研究考证等工作,并连系众多海内外学者,致力将中国古文献重新整理和电子化。而因发明仓颉输入法及而被喻为中文电脑之父的朱邦复先生,一向对于保留及宏扬中国文化不遗余力。他穷半生之精力于研究“汉字基因理论”,最终发明“字形产生技术”,使古文献中的古字也能于电脑萤幕中颢示,不受现存中文字库最多只能颢示3万2千个汉字所限。
  文化传信盼望能藉着“汉文史资料库”,以科技保存及宣扬传统汉文化,实现中国古典文献资料库系统化的理想,并推动香港成为研究和考证汉文化的学术中心。

资料库的特色:

(一)文献资料 完整齐备
  “汉文史资料库”涵盖中国历代重要的重要文献,并按经、史、子、集,有系统地进行全面的电子化分类,当中包括:


周易、尚书、毛诗、周礼、仪礼、礼记、春秋左氏传、春秋公羊传、春秋谷梁传、尔雅、孝经、大学、中庸


史记、汉书、后汉书、三国志、晋书、宋书、南齐书、梁书、陈书、南史、魏书、北齐书、周书、北史、隋书、旧唐书、新唐书、旧五代史、新五代史、宋史、辽史、金史、元史、明史


论语、孟子、墨子、晏子春秋、管子、新语、法言、淮南子、枹朴子、世说新语、荀子、韩非子、商君书、慎子、孙子、吴子、尹文子、吕氏春秋、老子、庄子、列子、盐铁论、论衡、新序、说苑、申盐、潜夫论、颜氏家训、龙藏(部份)


先秦两汉魏晋南北朝诗、全唐诗、全宋诗(主要部分)、全唐文、全宋词、全金元词、全上古三代秦汉三国六朝文、历代书法全集(全图、全文)


  当中的《全唐文新编》的电子书和印体版已全面完成。它囊括近二百年来对《全唐文》遗文的搜集和整理的成果,对《全唐文》诸多讹误流漏,严格甄别,予以厘正。《全唐文新编》汇集300年来多位学者研究成果,是研究唐代文化和历史不可或缺的巨典。

(二)选本精良 制作谨慎
  “汉文史资料库”选用的底本,皆为优秀、可靠及古老的版本,例如《全唐诗》的制作,就选用了清康熙年间(300多年前)的《扬州诗局本》为数据制作的底本,因这三百年间再印制《全唐诗》,皆由这一版本所衍生。这样,一来可以避免创建资料时的错误,二来可在此良好的基础上,充分吸收三百年间有关唐诗研究的成果,横向校正,保持原貌,去伪存真,以保证每条数据的正确。
  “汉文史资料库”其中的宗旨,为保持古籍的原貌。对于古籍的改动,编者皆采取慎之又慎的态度,必须有确凿资料的情况下,才作改动;若遇有疑问之处,而没有资料证明的情况下,编者将严格地保存原貌,并罗列出各种情况给他人再作考订。

(三)电子检索 便捷详尽
  资料库内的内容皆全面电子化。透过资料库内的“汉文化考证检索系统”,用户只需输入简单字词,历代相关的文献、校勘、补注、引用、评论等一一罗列出来,对中国文化和历史的考订和研究有莫大裨益。
  另外,用户亦可用任何一个称谓进行资料检索,包括姓名、字、号、室名、别名、称号、封号、谥号、昵称等,以取得完整资料。
  对于考订人与人的关系上,资料库也能提供非常完备的检索功能。例如只需搜寻二十四史中的胶东王太后,即可知道她与历代哪一个胶东王有关。

(四)文献古字 准确显示
  朱邦复先生研究“汉字基因理论”所发明的“字型产生技术”,为资料库提供了完整的、准确的汉字平台,使古典文献中的古文字可准确无误地显示出来,不会因珼时中文字库的限制,而危及了这庞大中国古典资料库的可靠性。由此可见,此系统完全建立于最稳定准确的基础上,对于珍贵的古文化遗产的保存及传播,以至中国文化的研究及发展,有重大的贡献。

中华文化传承的鸿图──汉文史资料库概论
  
  我们的汉文化,已经不间断地延续了五千年。约二十亿字、一万种中华古籍是举世公认最珍贵的文化宝库,因为它记载着人类进步、友爱、矛盾和冲突的历程。更重要的是,汉文化至今仍有着强劲的生命力和深邃的自洁作用,还在继续发展。上个世纪末,随着电子技术的发展,中华古籍以数字化形式载入电脑,汇入全人类文明的洪流,必将展示其内在的强大魅力并焕发新的风采。

一.汉文史资料库概况
  近年来,汉文史资料的数字化作业,取得了许多重大进展和成果。80年代的起步阶段,以中国社科院为首制作了《论语》和《全唐诗》等数据库,并编辑出版了数十种古籍机制书本索引,获得了学术界的好评,于91年获得国家科技奖,这是电子古籍首次入围国家奖项。98年1月曾举办过一次全国优秀多媒体光盘的评选,其中涉及古籍的有山东和武汉制作出版的《四库全书》扫描版。99年12月举办“首届国家电子出版物奖”,从1995-1999年的全国三千多种报评的电子出版物中,初评出的120余种,终评10个国家级奖。其中初评出线的电子古籍有两部《四库全书》、第三种是广西制作的《古今图书集成》、第四种《唐诗三百首》。最终上海人民出版社的标题索引版《四库全书》获奖。在评审过程中,并未因《四库全书》严重先天缺欠而否定该项目的意义,但着重指出,重复投入钜额资金制作同一部书,应引起严重的关注。据我所知,除申报的两个《四库》之外,实际上还有一个《四库》扫描版,是湖南岳麓出版社制作的。我们可以粗略估算一下,仅扫图一项,就要超过250万幅以上,一百个人扫一年就算是高速度了。投入资金高则五、六千万,少则也不低于一千万。参评的两种《四库》,底本均为台北影印的文渊阁本。其技术虽各有所长,但都建立在微软中文平台上,并使用叠加有限的造字库。从内容上看,既未顾及其它版本,特别是现存的文津阁、文渊阁等《四库》,更未充分采集对《四库》的研究和考辩成果,例如余嘉锡先生的《四库提要辨证》就根本未被提及。据此后报载,这两部《四库》的电子版销售数量仅在百部左右,用户多在海外。在大陆方面,武汉版被盗,漫天飞舞,已大大超过他们在当年送评表栏中填写的销售数字。150张的《四库》扫描版,仅售人民币500-700元。最大的古籍电子版,前有债主,后有盗贼,遭遇可谓苦不堪言。

二.目前古籍电子版存在的问题
  总括来看,当今汉文史古籍的数字化工作,尚存在许多技术性问题。诸如对电脑操作平台和汉字系统的选择,缺乏全面论证;项目设立重复叠加,分配不均匀;底本选择不严不准,校对不精;具体制作过程多属照本重录,既不能充分利用相关的考辨成果,更不能充分发挥电脑的基本功能。电子版多以单本单部书为单位,使大量文史资料处于各自孤立、不相关联的态势,其实用价值大打折扣。至于制作中侵犯他人著作权的情况,时有发生,同时又存在被盗版以至巨额资金无法回收的恶性循环,从而严重影响电子版古籍的健康发展。

三.汉文史资料库的基础
  文化传信集团着手建设规模浩大的“汉文史资料库”已近两年,我现在就其建设的总体规划、设计原则及当前进展情况,向各位专家报告,并请诸位不吝赐教,共襄盛举。

  就我个人来说,用电脑装载汉文史资料,始于1984年,那是钱钟书先生给我出的题目。当时遇到的第一个问题,是对电脑操作平台、汉字系统的选择,突出的问题是是否应该采用通行简化字的问题。实际上,这个问题至今在大陆仍然还存在。严格来说,汉文史资料是属于历史文献的范畴,对于使用的载体──汉字,应严格遵照古已有之的传承。要搞普及、要搞市场,要造出一些仿制品,仅取短显的目标,人各有志,只要不强加于人,也便罢了。我认为,使用通行的简化字系统,实际上是对古籍的一种改编,虽然不太可能再次引起今古文经之争,但肯定会造成古籍的新疑问、新困难。实际上查一下汉字简化方案,对古籍和涉外宣传,规定是可以不使用简化字的。但最近大陆方面,一位古籍界的权威人士在报上说:“恐怕16年后很少有人认得繁体字了!”这应该说是一个数学的隐喻,根据大陆人口?#123;查统计,人口平均寿命大约是74岁,减掉16,就是说,现年58岁左右的人士那时都作古了,于是留下来的只有认识简化字的人了。汉字会随着认识它的人死去而消亡,这是非常奇特的命题,勿须辩驳。我认为把汉字分为简、繁两体之说,便是不能成立的浮泛之论。简化字,古已有之,也是汉字,只是一部分原属于古今字,一部分原属于异体字。至于汉字简化方案将某些简化字定为1:X关系,很多简化字主张者认为?恍枰?粩嘣黾印稘h字简化方案》的注释,纠正那些错字、别字和意义混淆的字,就可以解决。但他们忘记了,注释多了,特例多了,简化的结果祇能是更繁的繁化。正确的简化字,不应与古已传用的所谓“繁体字”相对立,这也应该是简化者的初衷。搞汉字简化的理由最重要的有两条,一个是为了保证信息交换的现代化;一个是为了减少文盲。经过近半个世纪的实践,其结果是不尽人意的。信息交换因使用简化字而简化了,还是复杂了,大家都是内行,不必我多说。至于文盲问题,我只想举一例子,政府界定“非文盲”的识字数,原是二千,后改为一千五,听说最近又要降低。标准的下滑,当然可以遏止绝对数量的上升。令人吃惊的倒是增加了文盲的新品种:年岁大,不认识简化字的;年岁小,不认识所谓繁体字的;年岁不大不小,繁简体都认识不全的;不拘年岁,让由简转繁、由繁转简以及推理简化字,搞得莫名其妙的读者,他们一旦醒悟过来,不再进书店,而勾奔医院,因为笑掉了大牙。钱钟书先生告诉我,古籍进入电脑,只能走严肃、认真的负责之路。他说,“我们是裁缝,只能量体裁衣。不能做外科医生。”

  在这种情况下,我带领几个年轻人,其中包括将向大家报告《全唐文新编》的田奕小姐,还有现在很有名气的WPS著作人求伯君先生,经过深入的?#123;查研究并得出结论,只有朱邦复先生的汉字系统及输入法,可以作为这项事业的主要技术支持。朱邦复先生的苍颉输入法和中文平台开创了电脑中文的新天地。特别是朱先生的汉字基因理论,为汉字的自然排序、检索及其它待发展的诸多高级功能,奠定了坚实的基础。于是,我们毫不客气地登上了他的肩膀。在此后的日子里,我们逐渐感受到,他为汉文化传承发展的无私的奉献精神,令人高山仰止。在他精粹技术后面,这种鞭策和鼓舞我们的人格魅力,无可比拟。

  事情到今天,统治全球电脑业的微软老板比尔盖茨先生,先后推出C、P两个视窗系统,表面上对两岸的中国人似乎各自恩宠有加,实际上每个使用者都知道,把国际标准ISO-10646加以割裂,重新组合为两套内码系完全不同的中文系统,人为地使这二者各不相通,在他为自己创造大量财富的同时,也算是为分裂中国做了一项可以载入史册的实业。这种东西我们只能利用,绝不依赖。

四.建设汉文史资料库的原则、方法、过程
  汉文史资料库的建设,只能在附合中华古籍的实际状况,以民族化的技术为基础实现。下面我谈谈其它具体原则。

  对汉文史资料的分类,十分重要,因为它决定着这个资料库的自然结构。1988年国家公布了“中国图书分类法”,简称“中图法”,它是借鉴了西方的学科分类方法制订的。实事求是地说,它不适合中国古代一万余种古籍的实际情况。我仅举一例,如在“哲学”类下,首先分成两大类,一是“唯物主义”,一是“唯心主义”。这种分类方法,拿到今天,分架藏书,不但可行,而且合法。但我们把它放到古代,硬要把某些著作区别出是“哲学”“非哲学”就很困难了,因为古代文籍的作者绝不能按千余年后西方的分类标准创作。再者,孔子、老子说他们是唯心还是唯物,就难上加难。就说孔子、老子,有人五十年前说他们是唯心,五十年后说他们唯物;又有人说找到了新解释、新证据、新版本说他们是唯心、唯物两元论,于是乎有了一个人“白天做儒家”,“晚上做道家”的新鲜论述。为古代典籍寻找新解,引入新证据,进行深入研究,是必要的。但如果是为了让孔老夫子,老老夫子穿上新式服装,甚至意大利皮鞋,于我们民族,特别是鉴别能力尚不强的年轻一代,有什么好处呢?采取现代的洋模式来装载}杂而博大的民族精髓,是不折不扣的洋相。我们认为可行的分类法,便是经受了千余年研磨、公认的传统方式,即以“四部”为基础的经、史、子、集的老方法,当然我们并不鼓吹墨守旧规,陈陈相因。

  汉文史资料制作过程,必须分清主次。依四部分类原则,主要内容是经中的十三经;史中的廿四史;子中的诸子百家;集中的诗文别集归?#123;的总集。建设的方法是,由远及近,逐步完成。要坚持准确、严密、合理、实用。同时要有可修正及可补充的功能。对内容浩大、结构复杂的资料,并无现成可以应用的数据程式可以应用,必须在朱先生的中文平台上依四部的主次制作。

  我们建设这个资料库开始于1986年,到92年已做了多项试验,取得了一些成绩,其中比较成功的部分是唐诗和宋词,均得到了国家和社科院的多种奖项。其间1989年,我第一次见到朱邦复先生,我如实谈了我们的计划和实施情况,得到了他的肯定并鼓励我们坚持下去。令人遗憾的是,到93年,一次意料外的灾祸使我在社科院的全部成果灭失,当时胡绳、钱钟书院长挽救不及,为之痛惜不已。于是我利用在社科院工作的经验,并克服各种困难,召集了我的许多学生,还得到了许多志士大德的支持,重新开始文史资料库的建设。经过八年多的努力,现在第一期工程──先唐基本文史资料库已告完成,其中包括十三经、诸子百家、二十四史、全先秦两汉魏晋南北朝诗文和全唐诗文、全宋词和部分诗文,总字数已超过一亿字。

五.汉文史资料库的主要内容
  对于以上资料,首先是一定要选采优秀可靠的底本,比如十三经,我们用的是阮元的《十三经注疏》,二十四史用《百衲本》的,《先秦文》是严可钧的,《先秦诗》是用逯钦立的,《全唐诗》用扬州诗局的,《全唐文》用的是我们自己编的《全唐文新编》等等。现分别说明如下:

  1、经部
  十三经,我们目前只收经文,将众多注疏,移至注疏人本人名下,作为专着出现。这就是我们利用电脑的联系便利,革一下“四部”的命。如《诗经》下的《毛诗正义》置入毛亨名下;《毛诗疏》等二种归入陆玑名下;《毛诗指说》归入成伯玙名下;《毛诗本义》归入欧阳修名下;《诗集传》归为苏轼名下;另一部《诗集传》归入朱熹名下等等。这样便可借助电脑将它们有机地牵连起来,不致正文、注文混为一体,眉目不清。而通过经文的正文,可以高效、准确地综合查询注文、考证、引用地及其它正文等等。
  2、史部
  廿四史采用“百衲本”作为底本,也是经过充分周到考虑的。百衲本,无疑是古史中最系统最优秀的版本。它较之标点通行本,没有过多人为干扰的因素,最可靠。二是它已无著作权问题。时间证明,“百衲本”也有极高的文物价值。
  3、子部
  我们采用的基本版本是《诸子集成》,除进行了相应的精校外,还参以近代学人的诸多研究成果。例如《论语》和《孟子》,都汲取了杨伯俊先生两本《译注》的成果。另外,把秦汉前后若干著作,归入如屈原、郑玄、孔安国等个人著作,还包括《大藏经》和《道藏》等重要部分,都依例编入子部。
  4、集部
  首先将诗文别集重新编入为总集,进行必要的考订及辑佚,再行?#123;入汉文史资料库。
在底本选定之前,必须深入了解该书的版本细节,对著作权问题不可忽视,必须合法地正确处置。所选的底本,从原则上讲应该是加工的底本,经过录入、多次校核、考订、查重等步骤后,形成我们自己的新版本,以纯文本方式存入电脑。

六.汉文史资料库的应用
  对资料库的检索源,有韵联追N:人名、地名、书名、时代、字词、语句等。
主要源是人名,其基本内容包括:正名、原名、字号、别号、封号、谥号、俗称、昵名等,以上称谓在资料库内部要有明确的链接关系。其下再立生卒时代、仕族世系、亲属乡里、主要履历、全部著作名称及籍载事实概要等。该资料库的古代人名,目前已突破120万条,人数则已超过40万,这应该说是汉文史资料库的神经系统。
  地名和书名部分,以正史、艺文志及权威目录,如四库总目、崇文总目、直斋书录解题等作为制作依据,形成次要的检索源。其它一般地名、书名可采取全文逐字检索解决。时间作为检索源,目前尚不能完全实现,暂以朝代方式,即以年号为基础的检索方式解决,用年代数字并辅以干支法还有待研究。
  词字和词语的检索,是以即时性的逐字检索方式实现的,如《全唐文新编》的检索的完满解决。而对所收古籍,今存善本者,则择优以图形方式存储,如《百衲本二十四史》、扬州诗局的《全唐诗》等,配合实现对应的全文检索。
  我们的资料库的建设,将向两个方向发展,一方面由宋代向后推进,仍采取先主干再铺开的方针;另一方面需要补充先唐部分未完成的次要部分。后者将在一年半内全部完成。
  目前,文化传信集团主持文史资料库建设,准备在今年底前后实现先唐部分资料能够挂机投入运行,主要用于新资料的深入查考、补正,同时逐步有计划地补充新资料,完成一部挂接一部,规模逐步扩大,估计三年左右便可投入全面运行。
  香港文化传信集团汉文史资料库的建设,就简要报告到此,希望诸位专家、学者、多多赐教,谢谢!

——————————————————————
该资料库已于今年11月对外公布查询网址,内容包括“作者查询”、“朝代查询”和“四库全书总目提要”查询。匆匆试用了一下,内容十分丰富,但检索界面很怪异,一时还不大习惯。

资料库网址

http://www2.cbflabs.com/beijing/ieframe.php
回复

使用道具 举报

发表于 2005-9-6 21:44:22 | 显示全部楼层
Access forbidden!
You don't have permission to access the requested directory. There is either no index document or the directory is read-protected.
If you think this is a server error, please contact the webmaster

Error 403
www2.cbflabs.com
Tue Sep 6 21:56:26 2005
Apache/2.0.40 (Red Hat Linux)


怎么上不去
回复

使用道具 举报

发表于 2005-9-7 19:26:11 | 显示全部楼层
Object not found!
The requested URL was not found on this server. If you entered the URL manually please check your spelling and try again.
If you think this is a server error, please contact the webmaster
Error 404
www2.cbflabs.com
Wed Sep 7 19:40:16 2005
Apache/2.0.40 (Red Hat Linux)
回复

使用道具 举报

tmc880 该用户已被删除
发表于 2005-9-10 23:33:03 | 显示全部楼层
http://www2.cbflabs.com/beijing/
---------------------------------------------------------------
下面是引用wwfx于2005-09-06 21:44发表的:
Access forbidden!
You don't have permission to access the requested directory. There is either no index document or the directory is read-protected.
If you think this is a server error, please contact the webmaster

Error 403
.......
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|网上读书园地

GMT+8, 2024-11-8 06:16 , Processed in 0.219840 second(s), 6 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表