中国中文信息学会2012年重点学术活动预告 

活动名称

主要内容

时间

规模

地点

联系人

第八届亚洲信息检索学术会议
The Asia Information Retrieval Societies Conference (AIRS)
信息检索模型;查询反馈;用户建模;大规模数据处理;自然语言处理;系统演示等
12月17-19日
100人
天津
侯越先
第十二届中日自然语言处理联合促进会议
自然语言处理
7月17-18日
50人
哈尔滨
赵铁军
第四届全国少数民族青年自然语言处理学术研讨会
少数民族语言信息处理相关标准与技术规范;语言资源开发与语料库建设的理论与方法;词法分析、句法分析和语义分析方面的理论方法;少数民族语言处理的应用技术或系统等
8月6-7日
80人
西宁
才让加
第九届自然语言处理青年学者研讨会
促进青年学者之间的学术交流,加强与国际学术界的交流,加强学术界和企业界的联系
8月16-17日
100人
深圳
陈清财
第八届全国机器翻译研讨会
机器翻译模型、技术及系统;多种语言机器翻译系统评测
9月20-21日
100人
西安
杜金华
第八届全国信息检索学术会议
Web信息检索;事件抽取;文本分类与聚类;文本过滤;问答式检索和自动文摘;信息安全;信息检索计算法;机器学习与用户模型等
11月29-30日
200人
南昌
王明文
第六届全国青年计算语言学研讨会
计算语言学的理论基础、语料库语言学、词法分析、句法分析和语义分析;自然语言处理的应用技术及系统等
11月17-18日
80人
上海
赵海

CIPS-SIGHAN联合组织的有关中文资源和评测的学术会议(CLP2012)


CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP2012)

2012年评测任务如下:

  • 微博领域的汉语词语切分
  • 汉语命名实体识别与歧义消解
  • 汉语句法分析(简体和繁体)


        会议时间地点:2012年12月20~21日,在天津大学召开(AIRS2012)

        评测报名请参考会议网站:http://www.cipsc.org.cn/clp2012/bakeoff-cn.html

ACL 2012会议报道


1.概况

        计算语言学学会( The Association for Computational Linguistics,ACL) 旗下的ACL年会是国际上最具影响的计算语言学及自然语言处理学术会议。2012年,第50届ACL年会与计算语言学学会的另一顶级学术会议EMNLP(Empirical Method for Natural Language Processing)于7月8~14日在韩国济州岛(Jeju)联合召开。济州岛是韩国的旅游胜地,位于朝鲜半岛南端,是韩国最大的岛,方圆1825平方公里,居民51.45万,是个由火山喷发而形成的火山岛。围绕济州岛,周围还有8个有人岛和55个无人岛。岛中央海拔1950米的汉拿山,号称韩国第一高峰,因受近海暖流的影响,全年气候温和,有"韩国的夏威夷"之称。除ACL、EMNLP主会议外,还有11 个专题研讨会(Workshop ) 和6 个专题讲座( Tutorial)同期举行。


2.专题讲座(Tutorial)

今年ACL的Tutorial共包含6个讲座,讲座的信息如下表所示:


题目

讲者

Qualitative Modeling of Spatial Prepositions and Motion Expressions

Inderjeet Mani, James Pustejovsky

State-of-the-Art Kernels for Natural Language Processing

Alessandro Moschitti

Topic Models, Latent Space Models, Sparse Coding, and All That: A Systematic Understanding of Probabilistic     Semantic Extraction in Large Corpora

Eric Xing

Multilingual Subjectivity and Sentiment Analysis

Rada Mihalcea, Carmen Banea, Janyce Wiebe

Deep Learning for NLP (without Magic)

Richard Socher, Yoshua Bengio, Christopher D. Manning·

Graph-based Semi-Supervised Learning Algorithms for NLP

Amarnag Subramanya, Partha Pratim Talukdar

表1. Tutorial概况


        由于近年来以Topic Model为代表的图模型算法在NLP领域得到了广大的应用,大大推动了这一领域的发展,因此来自CMU的副教授Eric Xing所讲述的关于Topic Model在面对大规模数据下语义分析的基本模型、算法和应用引起了很多与会者的兴趣,同时Eric Xing教授对于Topic Model与Sparse Coding的结合进行了概述性的介绍,而Eric Xing教授在EMNLP会议的Keynote Session上对于这一部分进行了更为详细的介绍。此外,由于近几年Deep Learning 在语音识别领域获得巨大的成功,越来越多的研究者试图将Deep Learning用于文本分析的各个任务中,因此来自Stanford的Manning教授等人所带来的"Deep Learning for NLP (without Magic)"专题报告也在与会者中引起了强烈的反响。


3.论文

        每年的ACL 论文,尤其是主会议长文(Full Paper) ,基本反映了自然语言处理领域的最新研究进展、代表了本领域最高研究水平。今年的主会议论文投稿数达到了940篇,其中长文571篇、短文369 篇。被录用的长文有83 篇oral、29篇poster,录用率为19 %;短文被录用77篇,录用率20 %。

        在今年的会议中,程序委员会专门对于所录用的长文题目中的关键词进行了统计,如下:


entity 5、evaluation 5、hierarchical 5、information 5、joint 5、syntactic 、、topic 5、discriminative 6、lexical 6、statistical 6、chinese 7、dependency 7、machine 8、modeling 8、models 8、language 10、word 10、parsing 11、model 12、learning 14、translation 15

表2. 论文关键词统计


        从统计结果中,我们可以看出NLP的传统研究领域:机器翻译、句法分析,包括统计学习仍然是会议的热点研究问题。另外,本次会议增设了Social Media领域,反映了自然语言处理对新兴Web 2.0研究热点的关注和在社交媒体下自然语言的处理问题。

        此外,本届ACL是第50届,因此此次会议的两个Keynote Speech都与ACL的50周年活动相关,同时也增加了Anthology Session,从而对于ACL的Anthology建设工作进行介绍。Keynote Speech包含Philadelphia大学的ARAVIND K. JOSHI带来的"Remembrance of ACLs past"以及Macquarie University的Mark Johnson教授带来的"Where do we go from here?"两个报告。其中ARAVIND K. JOSHI对于ACL过去50年的重要事件,并且对于研究方向的发展、语言学与AI等领域的关系等问题提出了自己的看法。Mark Johnson教授从自身的角度对于可能爆发的研究点进行预测,提出了自己的看法,并对年轻人在进行科研工作时科研方向的选择方面给出一些建议和忠告。


        从国家分布来看,美国所发表的论文数量仍然占据第一位。在中国大陆方面,有北京大学、清华大学、中科院自动化所、中科院计算所、哈尔滨工业大学等单位共发表论文15篇。此外,商业机构中的百度公司和微软亚洲研究院也有论文发表。其他发表论文较多的国家有日本、新加坡、德国、加拿大等。


        今年的所有录取论文中共有两篇论文获得了最佳论文以及最佳学生论文奖,其中清华大学计算机系博士生布凡的论文(合作老师:李航,朱小燕)"String Re-writing Kernel"被评为大会最佳学生论文。论文提出了一种新的核方法,可以在不使用句法分析器的前提下快速鲁棒地度量句子对之间的结构相似度。该方法可以被应用到同义句识别,句子蕴含关系识别以及相似问题检索等许多自然语言处理以及信息检索的任务中。另外,大会的最佳论文来自日本的NTT通讯科学实验室(NTT Communication Science Laboratories),第一作者为Hiroyuki Shindo。该文章提出了一种基于符号改良的树替换语法,并将其用到句法分析中。该工作可以将传统的树替换语法和符号改良整合到一个统一的框架下,并自动地从训练数据中进行学习。该方法可以在宾大树库的相关测试集上取得92.4%的F1值,获得了当前在这个数据集上的最好的效果。


4.总结与其他

        总的来说,ACL是自然语言处理一年一度的顶级会议,在会场亲眼目睹了国际学者们的风采,也领略了顶级自然语言处理的研究水平。同时也感受到了华人在自然语言处理、信息检索、语言技术领域中地位的迅速提升。相信随着时间的推移以及中国的不断发展,人类语言技术领域必将会有华人更大的舞台。


(中国科学院自动化研究所刘康供稿)
 

EMNLP-CoNLL 2012会议报道


1.概况


        自然语言处理实证方法会议(The Conference on Empirical Methods in Natural Language Processing, 简称EMNLP)自1993年开始举办,迄今已成为自然语言处理领域极具影响力和规模的顶级会议。该会议的主题涵盖了语用学、语义学、信息抽取、问答系统、情感分析、机器翻译、自然语言处理、文本挖掘、文档摘要等主题。EMNLP会议每年召开一次,有超过500人参加。该国际会议以其世界一流的学术水平,受到学术界和产业界的高度关注,历届会议都曾给自然语言处理的创新发展带来启示。


        自然语言学习会议(the Conference on Natural Language Learning)是ACL SIGNLL的年度会议。除大会之外,自1999年起,每一年CoNLL都会组织一个自然语言的共享任务(shared task),通过提供训练和测试数据来推动相关任务的发展。历届CoNLL的共享任务(从NP Chunking、Clause Identification、Named Entity Recognition、Semantic Role Labeling、Dependency Parsing一直到今年的Multilingual Unrestricted Coreference), CoNLL都在以其独特的方式推动着自然语言处理的发展。


        2012年,EMNLP-CoNLL 2012联合会议于7月12~15日在韩国济州岛成功召开。济州岛是韩国最大的岛屿,风景秀丽,岛中央是通过火山爆发而形成的海拔1951米的韩国最高峰———汉拿山(Mt.Halla),同时也有世界新七大自然奇观之一的日出峰。


2.论文


        在投稿方面,EMNLP-CoNLL 2012共收到606篇投稿(其中有36篇被撤回或者不经过审稿直接拒稿)。最终共有99篇论文被接受为口头报告,40篇被接受为张贴报告,总体论文录取率为24.8%。


        为了展示Oral论文的录用领域,我们总结了所有Oral论文的录用领域,并呈现在表1中。我们可以看到,机器翻译仍然是EMNLP最大的领域,共有12篇口头报告论文被录用,机器学习、信息抽取领域紧随其后,都有超过10篇论文被录用。传统的NLP领域如Parsing、Semantics、Dialogure、POS、WSD等领域录用论文都在6篇左右。在新兴领域方面,Social Media成为了最大的新兴热点,共有6篇论文录用,这也表明了NLP领域对社会化媒体如微博的关注。我们也看到,随着IBM的Watson系统和苹果公司的Siri系统的发布,研究人员对问答系统的兴趣也在回归,这一届会议共有3篇问答的论文被录用。


领域

Oral录用

Machine Translation

12

Machine Learning

11

Information Extraction

10

Parsing

9

Semantics

8

Social Media

6

Dialogue

6

POS, WSD

6

Sentiment & Opinion

6

Discourse

5

Summarization

3

Phonemes, Words and Speech

3

Question Answering

3

Large-Scale NLP Algorithms

3

Information Retrieval

3

NLP Applications

3

Evaluation

2

TOTAL

99

表1. EMNLP-CoNLL 2012分领域Oral长文录用情况


        今年的EMNLP中,大陆的研究人员多有斩获。因此在参会人员中,经常可以看到大陆学者,包括来自于北京大学、清华大学、复旦大学、苏州大学、中科院自动化所、中科院软件所、中科院计算所、百度和微软亚洲研究院等单位的研究人员。同时除了上述中国大陆学者的情况外,来自中国香港和中国台湾、 新加坡、 日本及欧美各国的华人学者也在 EMNLP 2012上展示了强大实力。


3.特邀报告


        今年的两个特邀大会报告分别从技术方面和Web的信息获取模式演化方面关注了NLP的发展方向。第一个特邀报告题目是由卡内基梅隆大学的Eric Xing教授做的"On Learning Sparse Structured Input-Output Models", 主要展示了如何学习Sparse Structured Input-Output Model(SIOM)的技术。SIOM指的是:(1)模型的输入变量具有丰富的结构特性,例如文档中词汇由于句法和语义依存所带来的丰富结构;(2)模型的输出变量同样具有一定的结构,例如句法分析树和topic结构的表示。Eric Xing报告了用于学习SIOM的相关模型、算法和理论,并且展示了积累具有非常高维输入/输出空间的模型例子。


        与第一个报告关注技术不同,由Microsoft Research的Patrick Pantel所做的第二个特邀报告"The Appification of the Web and the Renaissance of Conversational User Interfaces"主要从Web的信息获取模式变革角度探讨了NLP发展的挑战和机遇。Patrick Pantel认为,当前用户获取信息的模式正从传统的中心化获取模式(以搜索引擎为主要代表)转换为高度定制化的功能获取模式。由于这些功能通常存在于许多个相互独立的的应用中,信息获取的碎片化是一个严重的问题。例如,当我们计划旅游时,我们会需要携程来预订酒店、地图应用来查询交通、旅游攻略应用来计划旅游路线等等。这就需要有技术能够高效的整合和解决当前以应用为中心的信息获取模式的碎片化问题。在报告中,Patrick Pantel展示了一种以实体为中心的对话机制来解决上述问题。基于以实体为中心的对话机制,用户的交互信息被解释为实体及可加之于其上的动作,并最终可以以此为基础安排不同的网页和应用来满足用户的需求。


4.最佳论文


        今年EMNLP的最佳论文共有三篇,分别是德国马普研究所的"PATTY: A Taxonomy of Relational Patterns with Semantic Types"、UC Berkeley的"Training Factored PCFGs with Expectation Propagation"和UPenn的"A Coherence Model Based on Syntactic Patterns"。这三篇论文分别研究了关系抽取模板的构建及语义类别对模板获取的帮助、如何使用Expectation Propagation来解决PCFG训练中语法的指数增长问题、以及如何使用文本中的内在话语结构来帮助共指消解。


(中国科学院软件研究所韩先培供稿)

SIGIR 2012国际会议录取的部分国内论文列表


所有文章列表请参阅:http://www.sigir.org/sigir2012/papers.php,以下是部分国内论文列表:

题目

作者

机构

Adaptive Query Suggestion for Difficult Queries Yang Liu
Ruihua Song Yu Chen
Jian-Yun Nie
Ji-Rong Wen
北京理工大学
微软亚洲研究院
蒙特利尔大学
微软亚洲研究院
Manhattan Hashing for Large-Scale Image Retrieval Weihao Kong
Wu-Jun Li
上海交通大学
Mining Query Subtopics from Search Log Data Yunhua Hu
Yanan Qian
Hang Li
Daxin Jiang
Jian Pei
微软亚洲研究院
西安交通大学
微软亚洲研究院
微软亚洲研究院
西蒙弗雷泽大学
Multi-Aspect Query Summarization by Compositing Query Wei Song
Qing Yu
Zhiheng Xu
Ting Liu
Sheng Li
Ji-Rong Wen
哈尔滨工业大学
微软
中国科学院
哈尔滨工业大学
哈尔滨工业大学
微软
Supporting Efficient Top-k Queries in Type-Ahead Search Guoliang Li
Jiannan Wang
Chen Li
Jianhua Feng
清华大学
清华大学
加州大学欧文分校
清华大学
Group Matrix Factorization for Scalable Topic Modeling Quan Wang
Zheng Cao
Jun Xu
Hang Li
微软亚洲研究院
上海交通大学
微软亚洲研究院
微软亚洲研究院
Fighting against Web Spam: A Novel Propagation Method based on Click-through Data Chao Wei
Yiqun Liu
Min Zhang
Shaoping Ma
Liyun Ru
清华大学
清华大学
清华大学
清华大学
清华大学
Learning Hash Codes for Efficient Content Reuse Detection Qi Zhang
Yan Wu
Xuanjing Huang
复旦大学
复旦学学
复旦大学
Modeling Concept Dynamics for Large Scale Music Search Jialie Shen
HweeHwa Pang
Meng Wang
Shuicheng Yan
新加坡管理大学
新加坡管理大学
合肥工业大学
合肥工业大学
What Reviews are Satisfactory: Novel Features for Automatic Helpfulness Voting Yu Hong
Jun Lu
Jianmin Yao
Qiaoming Zhu
苏州大学
苏州大学
苏州大学
苏州大学
Modeling User Posting Behavior on Social Media Zhiheng Zu
Qing Yang
中国科学院自动化研究所
中国科学院自动化研究所
Collaborative Personalized Tweet Recommendation Chen Kailong
Chen Tianqi
Guoqing Zheng
Jin Ou Yong Yu
上海交通大学
上海交通大学
上海交通大学
上海交通大学
See-To-Retrieve: Efficient Processing of Spatio-Visual Keyword Queries Chao Zhang
Lidan Shou
Ke Chen
浙江大学
浙江大学
浙江大学
Top-k Learning to Rank: Labeling, Ranking and Evaluation Shuzi Niu
Jiafeng Guo Yanyan Lan
Xueqi Cheng
中科院计算技术研究所
中国科学院
中科院计算技术研究所
Dual Role Model for Question Recommendation in Community Question Answering Fei Xu
Zongcheng Ji
Bin Wang
中科院计算技术研究所
中科院计算技术研究所
中科院计算技术研究所