|
发表于 2009-5-26 16:19:51
|
显示全部楼层
英国国家语料库 软件,2cds, iso, 1.2G
英国国家语料库是九十年代最具代表性的当代英语语料库之一.该语料库书面语与口语并用,其光盘版词次超过一亿,其中书面语语料库9千万词,口语语料库1千万词.它采用国际通用标准化标注体系SGML,使用三级赋码标注,使标注错误率由3%减少到1%.在应用方面,该语料库既可用其配套的SARA检索软件,也可支持多种通用检索软件,并可直接进行在线检索。
British National Corpus(以下簡稱BNC)為一英語平衡語料庫,廣泛收錄20世紀後半的文本與口語資料,其中文本約佔九成,包含全國與地方性的報紙、各種類別的期刊、學術論文、已出版或未出版之書信與手稿…等;口語部份約佔一成,包含大量非正式的日常對談、較正式的商業與政府會議、甚至於廣播節目與聽眾來電,日常對談的部份則徵求義工錄製而成,對談內容跨各年齡層、地區與階層。
以語料庫的類型來說,BNC為單語語料庫,收錄以現代英式英語為主之語料,而非歷史性之英語,內容方面則不設限,平衡並多元收錄各式不同語料。
BNC是由一產學界共同組成的集團運作,產業界包括牛津大學出版、朗文出版(Addison-Wesley Longman) 、樂思出版(Larousse Kingfisher Chambers);學界則包括牛津大學計算中心(Oxford University Computing Services, 簡稱OUCS)、蘭卡斯大學計算語言中心(University Centre for Computer Corpus Research on Language, 簡稱UCREL)與大英圖書館研究與創新中心(British Library’s Research and Innovation Centre)。 |
|