学术活动
《综合型语言知识库》通过技术鉴定
2007-04-05
北京大学计算语言学研究所完成的研究成果《综合型语言知识库》于
鉴定委员会听取了俞士汶教授的研制报告、孙斌博士的技术报告、测试组组长孙茂松教授的测试报告以及用户报告,审查了相关资料,并进行了认真的讨论。鉴定委员会对该项成果的鉴定结论如下:
1、北京大学计算语言学研究所自1986年以来,在863、973、自然科学基金、社会科学基金等国家计划的支持下,历时20多年,建成了《综合型语言知识库》。
2、其中,《现代汉语语法信息词典》包括34个数据文件,收录词语8万条,描写的语法属性总项数超过360万项,是目前国内外最有影响的汉语词汇知识库;《汉语短语结构知识库》包含600余条汉语短语规则,涵盖了汉语基本短语结构的各种合理组合;《中英文概念词典》实现对词网中近10万个英文概念的汉语对应,是全球多语词网建设中具有标志性的一项成果;《现代汉语大规模基本标注语料库》切分标注的总量超过5千万字,《汉英双语对齐语料库》规模达80万句对,规模大、质量高。
3、《综合型语言知识库》是一个在逻辑上有机联系的整体。在语言基础资源方面,提出并制定了一系列规范,使得各成员之间的属性互相参照对应,知识库中既包含词、短语、句子、篇章等不同语言单位,又涉及汉语、英语等不同语言,并从词法、句法和语义等不同角度进行信息描述,而信息描述融合了词典中的显性知识和语料库中的隐性知识,是语言信息处理的基础资源和重要保证,在工程实践中又进一步发展了面向语言信息处理的汉语语法理论体系。
4、在这些资源基础上,开发的基于语料库的双语词典编纂平台实现了语料库处理技术和词典编纂技术的整合,有利于辞书编纂手段的现代化;通过对汉语词语切分、词性标注和命名实体识别等关键技术创新,研制了文本信息提取系统。
5、《综合型语言知识库》已得到广泛应用,并向国内外大公司和研究机构转让许可使用权150余次,取得了显著的经济效益和社会效益。
鉴定委员会认为:《综合型语言知识库》开创性地实现了汉语词语的大规模归类与属性描述,很好地处理了基础研究与应用研究的关系,形成了基础资源建设与应用系统开发相互支撑、相互促进的良性模式,其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平,一致同意通过鉴定。
建议继续推进语言知识库的研究与开发,进一步推广应用。