[原创]黄永年先生《树新义室笔谈》CX文本版错误之一斑
前几天整理硬盘时看到了黄永年先生的《树新义室笔谈》,就将本书的序和卷八读了一遍,着实令我大吃一惊!我所看的这44页书,据我不完全统计,错误达83处之多!而且全都是平常的字眼,全非难字,大多为形近而讹,有点像OCR未经校对时的样子。这与作者肯定是没有关系的。下面附上我看到的一些错误:
自序
页1倒数行4 传到应为转到
倒数行2 某个对期应为某个时期
页2行4 陆故翁应为陆放翁
段2行4 彦或先生应为彦威先生
段2行6 文索应为文字
卷八 (目录中将师门错为碑门)
页286段3行7 方而应为方面
段3行9 头绪不请应为头绪不清
倒数行6 讲议应为讲课
页287行5 面作应为而作
页288段2行8 人选应为入选
页289行6 惭慌应为惭愧
段2行9 清唐五代史应为隋唐五代史
段2行11 前而应为前面
倒数行2 还来问世应为还未问世
页291行4 陈寅格应为陈寅恪
倒数行7 较本应为校本
页293段2行4 先华大学应为光华大学
段2行5 第七请应为第七册
段2行11、12 或为应为成为
倒数行3 使们应为他们
倒数行1 权或应为权威
页295行13 深人应为深入
页297倒数行12 精神而貌应为精神面貌
页298倒数行2 启藏应为启蒙
倒数行1 大平郅治应为太平至治
页299行9 感情上族通不过似应为感情上确通不过
倒数行9、8 见固应为见面
页300倒数行4 命计师应为会计师
倒数行3 学教应为学校
倒数行2 财教部应为财政部
倒数行1 章大炎应为章太炎
页301倒数行7 列人应为列入
页302行6 模写应为撰写
段2行1 日术应为日本
倒数行6 大寝似应为大概
页303段2行4 所谱应为所谓
页305行4 意先生应为童先生 (本页的童似都讹成了意,共7处)
行9 版而应为版面
倒数行7 像改应为修改
页307段2行6 注童应为注重
页308倒数行1 是初应为最初
页309行4 当而应为当面
倒数行1 进他回府应为送他回府
页310行2 面被错划应为而被错划
页311段2行2 健康请况应为健康情况
页312段2行3 命出来应为拿出来
倒数行3 揭写应为撰写
页314段2行4 意建应为重建
页315行13 反面应为反而
段2行9 宋成事实应为未成事实
倒数行4 后宋应为后来
倒数行2 重推本业似应为重操本业
页316行6 面先生应为而先生
段2行5 备实先应为鲁实先
段2行6、10 备公应为鲁公
页319行8 请刻本应为清刻本
段2行1 请光绪应为清光绪
段2行4 一巨请应为一巨册
段2行10 面把原书应为而把原书
段2行12 可请应为可惜
倒数行5 学校面应为学校而
页320行10 很货应为很贵
倒数行3 小借应为小楷
页321行5 童见应为意见
倒数行7 请较应为请教
倒数行4 面已应为而已
倒数行2 学较应为学校
页322行9 数伪应为敌伪
行9 虚伪像作应为虚伪做作
页323行7 聘秉南应为蒋秉南
行8、9 聘先生应是蒋先生
行12 目景应为目录
页324倒数12 了戊稿应为丁戊稿
我看的书是PDF的,虽然像图像版的,但很可能是文本格式虚拟打印的?
根据天人兄的提醒,我特意去中美百万下了看看,原来真不误!!
我本喜欢PDG的格式,认为可保存原貌,但PDF也是退而求其次。现在看来,有些PDF是不可靠的!!尽管像图像版,但实为文本版的!
请TXM以我为戒!!
发的内容就不删了,作个纪念吧:)) 楼主看的超星文本书吧?论坛很多很多人(呵呵,也包括俺,呵呵。)都发表过超星文本是垃圾的言论了。
所以,轻易下判断,实在不是件好的事情。
就自序的第一页而言,都没有兄提到的问题。
附图如下: CX文本错成这样啊……真够夸张的。
比正宗的盗版书质量都差,呵呵。 我是不敢以CX文本书作为依据的,我的似为CX图像版虚拟PDF打印的。
当然,如果是我所据版本的问题,那真是罪过! 旧贴既然已经成为历史,还是不修改的为好。否则别人再看的时候,很是摸不着头脑。
楼主如果文件小于7.52m,肯定是文本书。因为05h的,就是这么大。
而且楼主也不是对比黄先生的以前文章,来发现错误。只是根据自己的想法来猜测改动,实乃大忌。
比如已经删除掉的“旧日论文”,实际是“依旧用论文”。
比如“页2段2行6 文索应为文字”
哪里有什么“文字”,只是文章二字。
Re:[原创]黄永年先生《树新义室笔谈》印刷错误之一斑
楼主认真读书并进行校對无疑是难得的!比仅仅下书或读而不求其详好多了。不过,注意版本也很重要。我不清楚你是啥本子,我贴一页给你看看好吗? 我的的确只有7.36M,看来我从网上当下来的硬盘中的PDF格式书,还得留心点。希望不要再出类似笑话了:))
我的文件里边我觉得也应该是图像版的,连一些别人写的记号都在。如上图。 再问一下天人兄和hong君,是否05H快速版的CX也会有类似错误?
因为我觉得如果是文本版的,打印成PDF可能不会有7M多呢 楼主的版本我觉得应该不是文本的吧。看着不像,另外图片的如果是7.5M,文本的不会只少100多k啊?(但一般pdg转pdf不是应该变大些才对吗?奇怪……)另外图像快速不快速应该不影响里边的文字的,就是分辨率差点吧?
很有意思,莫非超星扫了本盗版书?——这书还真有人盗版?——另外,朗润上只查到一个本子——质量好的那个——会不会是发现是盗版然后替换了?(这样的话我还是真的要pf超星了……另外CX多是找的图书馆藏书来扫(楼主后来贴的图里有个编号,不知道什么东西,编目似乎没有把号写在那儿的吧),这个图书馆的进书渠道看来不大保险,呵呵。)
天人兄指出来楼主得出结论的方法,实在很值得注意,因为有别本参校和仅凭“理校”改动原文,在性质上是很不一样的,而说明也十分必要。想来楼主手头没有可以对校的材料,而只能用后一种办法,那么能够得到这么多接近实际的结果,已经充分体现了你的认真,甚至学识,这一点我觉得是值得很多人学习的。天人兄所举例子里,“依旧用论文”那句,按照楼主手上的本子(“写作方式则像旧用论文”)来凭空推想,我觉得怀疑“用”字有误的人会远比怀疑“像”字的人多,要从“像”字逆推出“依”字或者类似的字的话,就更具难度了。所以,似乎毋庸苛求,更不必说到“大忌”的程度,只是希望楼主以后对于“理校”能更为谨慎,并且在作文时说明吧。
另外,天人兄指出不要随便改帖这一点也很重要,既然有了讨论,最好是不要改动原帖了,要不然后来的人一头雾水,本来能帮上忙的或许也无从下手了(当然这次并不是这样)。 一般来说,文本书是超星图影书用特殊软件转过来(如汉王、尚书之类),错误是不少,如果转过来,不做校对,那写文章时真要小心引用。
引用第7楼zsjcj112于2007-06-13 16:33发表的 :
再问一下天人兄和hong君,是否05H快速版的CX也会有类似错误?
因为我觉得如果是文本版的,打印成PDF可能不会有7M多呢
只要是图影书,无论快速和清晰与否,不存在错误,只是清晰度差异。。 引用第8楼parivraj于2007-06-13 17:45发表的 :
楼主的版本我觉得应该不是文本的吧。看着不像,另外图片的如果是7.5M,文本的不会只少100多k啊?(但一般pdg转pdf不是应该变大些才对吗?奇怪……)另外图像快速不快速应该不影响里边的文字的,就是分辨率差点吧?
很有意思,莫非超星扫了本盗版书?——这书还真有人盗版?——另外,朗润上只查到一个本子——质量好的那个——会不会是发现是盗版然后替换了?(这样的话我还是真的要pf超星了……另外CX多是找的图书馆藏书来扫(楼主后来贴的图里有个编号,不知道什么东西,编目似乎没有把号写在那儿的吧),这个图书馆的进书渠道看来不大保险,呵呵。)
.......
谢谢兄台为我辩护!但无论如何,我还是出了错。从这点看,我应该更谨慎。
我也真像parivraj兄那样怀疑CX上有的加盟图书馆扫了D版书,但用我自己的卡上查不到这本书,自己学校的超星图书馆又进不去,所以没有别的办法:)) 刚才我又仔细想了想,我在6楼上传的序言页中那个记号,在朗润的试读中也是如此,那这两者应该出自同一本书,但朗润上内文则没有错。这样得出的结论应该就是我那本PDF是文本版打印的,但我所有的文本版PDF的版面上都没有这样或那样的记号,这又像是图像版的。
我查了下我的记录,我这书是2005年5月间下载的PDF,是不是存在CX重新扫过,或者将盗版的图影下架,这也真难说。
另外,中美百万下载的书上没有序言页上的记号。我原先一直觉得这两个网站渊源颇深的,现在看来也不尽然:))
似乎是做些无用的不可能有结果的考证,但如果真的是CX的加盟图书馆有扫D版的书,那也便变成有用的了。
希望无用! 越发的有趣了。
那两个记号对比了一下,位置、形状……还真是看不出什么不一样…… 引用第8楼parivraj于2007-06-13 17:45发表的 :
楼主的版本我觉得应该不是文本的吧。看着不像,另外图片的如果是7.5M,文本的不会只少100多k啊?(但一般pdg转pdf不是应该变大些才对吗?奇怪……)另外图像快速不快速应该不影响里边的文字的,就是分辨率差点吧?
很有意思,莫非超星扫了本盗版书?——这书还真有人盗版?——另外,朗润上只查到一个本子——质量好的那个——会不会是发现是盗版然后替换了?(这样的话我还是真的要pf超星了……另外CX多是找的图书馆藏书来扫(楼主后来贴的图里有个编号,不知道什么东西,编目似乎没有把号写在那儿的吧),这个图书馆的进书渠道看来不大保险,呵呵。)
天人兄指出来楼主得出结论的方法,实在很值得注意,因为有别本参校和仅凭“理校”改动原文,在性质上是很不一样的,而说明也十分必要。想来楼主手头没有可以对校的材料,而只能用后一种办法,那么能够得到这么多接近实际的结果,已经充分体现了你的认真,甚至学识,这一点我觉得是值得很多人学习的。天人兄所举例子里,“依旧用论文”那句,按照楼主手上的本子(“写作方式则像旧用论文”)来凭空推想,我觉得怀疑“用”字有误的人会远比怀疑“像”字的人多,要从“像”字逆推出“依”字或者类似的字的话,就更具难度了。所以,似乎毋庸苛求,更不必说到“大忌”的程度,只是希望楼主以后对于“理校”能更为谨慎,并且在作文时说明吧。
另外,天人兄指出不要随便改帖这一点也很重要,既然有了讨论,最好是不要改动原帖了,要不然后来的人一头雾水,本来能帮上忙的或许也无从下手了(当然这次并不是这样)。
.......
呵呵,我在回哪个贴的时候,写了一大堆的。就是说这个理校的问题,还敲进去了陈老先生的名言,“最高妙者此法,最危险者亦此法”连带前后的一大句。不过一发送,忘记拷贝一下,就直接消失在数字空间了。呵呵。再次写的时候,就提不起兴趣了,匆匆写了几句。所谓大忌,其实是说用理校的方法是大忌,到是没有直接批评楼主的含义(间接的应该说有),呵呵。
不过此书很是诡异啊。我的05h,应该是汕头大学的那个老服务器上的。 呵呵,真不幸,不然就又可以拜读天人兄的高论了。陈先生的这句话说得实在是精确。理校只能是留到最后的一手搏命招术,太早地运用,既露了破绽又损了元气,就成了大忌了,呵呵。
至于那本书,实在是奇怪得很。那一个记号在两种版本上一模一样,就是靠描的也不能这么像啊…… 这个不是文本不文本的问题,而是非清晰版本的05H格式基于djvu方式压缩成有损保存时候带来的后遗症,原图象是正确的,但是压缩时候字体会变形,djvu的基础是OCR,压缩识别的时候容易梨代桃缰,比如人与入的区别! 多谢slonecn兄解释啊。但是弱弱地再问一声:像依>像这样,也是这个过程里出的问题吗?图象格式的ocr是怎么一回事呢?楼主用的文件是pdf的,跟djvu方式又有什么关系呢?另外如果djvu都是要ocr的话,是不是别的djvu图像书也这样出错呢? 我相信slonecn兄说的,但应该有两种情况。
中美百万上那一本《树新义室笔谈》,分辨率是相当于05H格式的,但同样是图像格式的,用DJVUEDITER打开后,右键菜单中是“复制图像”,无法从菜单项中复制文本;
而我的另外一本DJVU书,的确是可以直接右键“复制文本”的,但同样在原书中不存在类似错误。当然,将文本复制出来后,问题就太多了,下面是复制后的文本:
世祖光武皇帝讳秀①,字文叔,南阳蔡
阳人②,高祖九世之孙也。出自景帝生长沙
定王发,发生春陵节侯买③,买生郁林太守
外④,外生拒鹿都尉回,回生南顿今钦⑤,
钦生光武。光武年九岁而孤,养于叔父良。身
长七尺三寸,美须眉,大口,隆准⑥,日
角⑦。性勤于稼稿,而兄伯升好侠养士⑧,
常非笑光武事田业,比之高祖兄仲⑨。
王莽天凤中,乃之长安,受《尚书》,略
通大义。莽末,天下连岁灾蝗,寇盗锋起⑩。
地皇三年,南阳荒饥,诸家宾客多为小盗。
光武避吏新野,因卖谷于宛@。宛人李通等 我的意思是,我还是不太相信这种能复制文本的DJVU格式书籍会存在压缩后文字形状讹变的问题:))
而且我将这两种文本虚拟打印成PDF后,也并未存在任何形变问题:)) 等着,我请专业人士老马来解惑