学术活动
ACL 2012会议报道
EMNLP-CoNLL 2012会议报道
SIGIR 2012国际会议录取的部分国内论文列表
中国中文信息学会2012年重点学术活动预告
The Asia Information Retrieval Societies Conference (AIRS) |
|||||
CIPS-SIGHAN联合组织的有关中文资源和评测的学术会议(CLP2012)
CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP2012)
2012年评测任务如下:
- 微博领域的汉语词语切分
- 汉语命名实体识别与歧义消解
- 汉语句法分析(简体和繁体)
会议时间地点:2012年12月20~21日,在天津大学召开(AIRS2012)
评测报名请参考会议网站:http://www.cipsc.org.cn/clp2012/bakeoff-cn.html
ACL 2012会议报道
1.概况
计算语言学学会( The Association for Computational Linguistics,ACL) 旗下的ACL年会是国际上最具影响的计算语言学及自然语言处理学术会议。2012年,第50届ACL年会与计算语言学学会的另一顶级学术会议EMNLP(Empirical Method for Natural Language Processing)于7月8~14日在韩国济州岛(Jeju)联合召开。济州岛是韩国的旅游胜地,位于朝鲜半岛南端,是韩国最大的岛,方圆1825平方公里,居民51.45万,是个由火山喷发而形成的火山岛。围绕济州岛,周围还有8个有人岛和55个无人岛。岛中央海拔1950米的汉拿山,号称韩国第一高峰,因受近海暖流的影响,全年气候温和,有"韩国的夏威夷"之称。除ACL、EMNLP主会议外,还有11 个专题研讨会(Workshop ) 和6 个专题讲座( Tutorial)同期举行。 |
|
2.专题讲座(Tutorial)
今年ACL的Tutorial共包含6个讲座,讲座的信息如下表所示:
题目 |
讲者 |
Qualitative Modeling of Spatial Prepositions and Motion Expressions |
|
State-of-the-Art Kernels for Natural Language Processing |
|
Topic Models, Latent Space Models, Sparse Coding, and All That: A Systematic Understanding of Probabilistic Semantic Extraction in Large Corpora |
|
Multilingual Subjectivity and Sentiment Analysis |
|
Deep Learning for NLP (without Magic) |
|
Graph-based Semi-Supervised Learning Algorithms for NLP |
由于近年来以Topic Model为代表的图模型算法在NLP领域得到了广大的应用,大大推动了这一领域的发展,因此来自CMU的副教授Eric Xing所讲述的关于Topic Model在面对大规模数据下语义分析的基本模型、算法和应用引起了很多与会者的兴趣,同时Eric Xing教授对于Topic Model与Sparse Coding的结合进行了概述性的介绍,而Eric Xing教授在EMNLP会议的Keynote Session上对于这一部分进行了更为详细的介绍。此外,由于近几年Deep Learning 在语音识别领域获得巨大的成功,越来越多的研究者试图将Deep Learning用于文本分析的各个任务中,因此来自Stanford的Manning教授等人所带来的"Deep Learning for NLP (without Magic)"专题报告也在与会者中引起了强烈的反响。 |
|
3.论文
每年的ACL 论文,尤其是主会议长文(Full Paper) ,基本反映了自然语言处理领域的最新研究进展、代表了本领域最高研究水平。今年的主会议论文投稿数达到了940篇,其中长文571篇、短文369 篇。被录用的长文有83 篇oral、29篇poster,录用率为19 %;短文被录用77篇,录用率20 %。
在今年的会议中,程序委员会专门对于所录用的长文题目中的关键词进行了统计,如下:
entity 5、evaluation 5、hierarchical 5、information 5、joint 5、syntactic 、、topic 5、discriminative 6、lexical 6、statistical 6、chinese 7、dependency 7、machine 8、modeling 8、models 8、language 10、word 10、parsing 11、model 12、learning 14、translation 15 |
从统计结果中,我们可以看出NLP的传统研究领域:机器翻译、句法分析,包括统计学习仍然是会议的热点研究问题。另外,本次会议增设了Social Media领域,反映了自然语言处理对新兴Web 2.0研究热点的关注和在社交媒体下自然语言的处理问题。
此外,本届ACL是第50届,因此此次会议的两个Keynote Speech都与ACL的50周年活动相关,同时也增加了Anthology Session,从而对于ACL的Anthology建设工作进行介绍。Keynote Speech包含Philadelphia大学的ARAVIND K. JOSHI带来的"Remembrance of ACLs past"以及Macquarie University的Mark Johnson教授带来的"Where do we go from here?"两个报告。其中ARAVIND K. JOSHI对于ACL过去50年的重要事件,并且对于研究方向的发展、语言学与AI等领域的关系等问题提出了自己的看法。Mark Johnson教授从自身的角度对于可能爆发的研究点进行预测,提出了自己的看法,并对年轻人在进行科研工作时科研方向的选择方面给出一些建议和忠告。 |
|
从国家分布来看,美国所发表的论文数量仍然占据第一位。在中国大陆方面,有北京大学、清华大学、中科院自动化所、中科院计算所、哈尔滨工业大学等单位共发表论文15篇。此外,商业机构中的百度公司和微软亚洲研究院也有论文发表。其他发表论文较多的国家有日本、新加坡、德国、加拿大等。
今年的所有录取论文中共有两篇论文获得了最佳论文以及最佳学生论文奖,其中清华大学计算机系博士生布凡的论文(合作老师:李航,朱小燕)"String Re-writing Kernel"被评为大会最佳学生论文。论文提出了一种新的核方法,可以在不使用句法分析器的前提下快速鲁棒地度量句子对之间的结构相似度。该方法可以被应用到同义句识别,句子蕴含关系识别以及相似问题检索等许多自然语言处理以及信息检索的任务中。另外,大会的最佳论文来自日本的NTT通讯科学实验室(NTT Communication Science Laboratories),第一作者为Hiroyuki Shindo。该文章提出了一种基于符号改良的树替换语法,并将其用到句法分析中。该工作可以将传统的树替换语法和符号改良整合到一个统一的框架下,并自动地从训练数据中进行学习。该方法可以在宾大树库的相关测试集上取得92.4%的F1值,获得了当前在这个数据集上的最好的效果。 |
|
4.总结与其他
总的来说,ACL是自然语言处理一年一度的顶级会议,在会场亲眼目睹了国际学者们的风采,也领略了顶级自然语言处理的研究水平。同时也感受到了华人在自然语言处理、信息检索、语言技术领域中地位的迅速提升。相信随着时间的推移以及中国的不断发展,人类语言技术领域必将会有华人更大的舞台。
EMNLP-CoNLL 2012会议报道
1.概况
自然语言处理实证方法会议(The Conference on Empirical Methods in Natural Language Processing, 简称EMNLP)自1993年开始举办,迄今已成为自然语言处理领域极具影响力和规模的顶级会议。该会议的主题涵盖了语用学、语义学、信息抽取、问答系统、情感分析、机器翻译、自然语言处理、文本挖掘、文档摘要等主题。EMNLP会议每年召开一次,有超过500人参加。该国际会议以其世界一流的学术水平,受到学术界和产业界的高度关注,历届会议都曾给自然语言处理的创新发展带来启示。
自然语言学习会议(the Conference on Natural Language Learning)是ACL SIGNLL的年度会议。除大会之外,自1999年起,每一年CoNLL都会组织一个自然语言的共享任务(shared task),通过提供训练和测试数据来推动相关任务的发展。历届CoNLL的共享任务(从NP Chunking、Clause Identification、Named Entity Recognition、Semantic Role Labeling、Dependency Parsing一直到今年的Multilingual Unrestricted Coreference), CoNLL都在以其独特的方式推动着自然语言处理的发展。
2012年,EMNLP-CoNLL 2012联合会议于7月12~15日在韩国济州岛成功召开。济州岛是韩国最大的岛屿,风景秀丽,岛中央是通过火山爆发而形成的海拔1951米的韩国最高峰———汉拿山(Mt.Halla),同时也有世界新七大自然奇观之一的日出峰。
2.论文
在投稿方面,EMNLP-CoNLL 2012共收到606篇投稿(其中有36篇被撤回或者不经过审稿直接拒稿)。最终共有99篇论文被接受为口头报告,40篇被接受为张贴报告,总体论文录取率为24.8%。
为了展示Oral论文的录用领域,我们总结了所有Oral论文的录用领域,并呈现在表1中。我们可以看到,机器翻译仍然是EMNLP最大的领域,共有12篇口头报告论文被录用,机器学习、信息抽取领域紧随其后,都有超过10篇论文被录用。传统的NLP领域如Parsing、Semantics、Dialogure、POS、WSD等领域录用论文都在6篇左右。在新兴领域方面,Social Media成为了最大的新兴热点,共有6篇论文录用,这也表明了NLP领域对社会化媒体如微博的关注。我们也看到,随着IBM的Watson系统和苹果公司的Siri系统的发布,研究人员对问答系统的兴趣也在回归,这一届会议共有3篇问答的论文被录用。
领域 |
Oral录用 |
Machine Translation |
12 |
Machine Learning |
11 |
Information Extraction |
10 |
Parsing |
9 |
Semantics |
8 |
Social Media |
6 |
Dialogue |
6 |
POS, WSD |
6 |
Sentiment & Opinion |
6 |
Discourse |
5 |
Summarization |
3 |
Phonemes, Words and Speech |
3 |
Question Answering |
3 |
Large-Scale NLP Algorithms |
3 |
Information Retrieval |
3 |
NLP Applications |
3 |
Evaluation |
2 |
TOTAL |
99 |
今年的EMNLP中,大陆的研究人员多有斩获。因此在参会人员中,经常可以看到大陆学者,包括来自于北京大学、清华大学、复旦大学、苏州大学、中科院自动化所、中科院软件所、中科院计算所、百度和微软亚洲研究院等单位的研究人员。同时除了上述中国大陆学者的情况外,来自中国香港和中国台湾、 新加坡、 日本及欧美各国的华人学者也在 EMNLP 2012上展示了强大实力。
3.特邀报告
今年的两个特邀大会报告分别从技术方面和Web的信息获取模式演化方面关注了NLP的发展方向。第一个特邀报告题目是由卡内基梅隆大学的Eric Xing教授做的"On Learning Sparse Structured Input-Output Models", 主要展示了如何学习Sparse Structured Input-Output Model(SIOM)的技术。SIOM指的是:(1)模型的输入变量具有丰富的结构特性,例如文档中词汇由于句法和语义依存所带来的丰富结构;(2)模型的输出变量同样具有一定的结构,例如句法分析树和topic结构的表示。Eric Xing报告了用于学习SIOM的相关模型、算法和理论,并且展示了积累具有非常高维输入/输出空间的模型例子。
与第一个报告关注技术不同,由Microsoft Research的Patrick Pantel所做的第二个特邀报告"The Appification of the Web and the Renaissance of Conversational User Interfaces"主要从Web的信息获取模式变革角度探讨了NLP发展的挑战和机遇。Patrick Pantel认为,当前用户获取信息的模式正从传统的中心化获取模式(以搜索引擎为主要代表)转换为高度定制化的功能获取模式。由于这些功能通常存在于许多个相互独立的的应用中,信息获取的碎片化是一个严重的问题。例如,当我们计划旅游时,我们会需要携程来预订酒店、地图应用来查询交通、旅游攻略应用来计划旅游路线等等。这就需要有技术能够高效的整合和解决当前以应用为中心的信息获取模式的碎片化问题。在报告中,Patrick Pantel展示了一种以实体为中心的对话机制来解决上述问题。基于以实体为中心的对话机制,用户的交互信息被解释为实体及可加之于其上的动作,并最终可以以此为基础安排不同的网页和应用来满足用户的需求。
4.最佳论文
今年EMNLP的最佳论文共有三篇,分别是德国马普研究所的"PATTY: A Taxonomy of Relational Patterns with Semantic Types"、UC Berkeley的"Training Factored PCFGs with Expectation Propagation"和UPenn的"A Coherence Model Based on Syntactic Patterns"。这三篇论文分别研究了关系抽取模板的构建及语义类别对模板获取的帮助、如何使用Expectation Propagation来解决PCFG训练中语法的指数增长问题、以及如何使用文本中的内在话语结构来帮助共指消解。
SIGIR 2012国际会议录取的部分国内论文列表
所有文章列表请参阅:http://www.sigir.org/sigir2012/papers.php,以下是部分国内论文列表:
题目 |
作者 |
机构 |
Adaptive Query Suggestion for Difficult Queries |
Yang Liu Ruihua Song Yu Chen Jian-Yun Nie Ji-Rong Wen |
北京理工大学 微软亚洲研究院 蒙特利尔大学 微软亚洲研究院 |
Manhattan Hashing for Large-Scale Image Retrieval |
Weihao Kong Wu-Jun Li |
上海交通大学 |
Mining Query Subtopics from Search Log Data |
Yunhua Hu Yanan Qian Hang Li Daxin Jiang Jian Pei |
微软亚洲研究院 西安交通大学 微软亚洲研究院 微软亚洲研究院 西蒙弗雷泽大学 |
Multi-Aspect Query Summarization by Compositing Query |
Wei Song Qing Yu Zhiheng Xu Ting Liu Sheng Li Ji-Rong Wen |
哈尔滨工业大学 微软 中国科学院 哈尔滨工业大学 哈尔滨工业大学 微软 |
Supporting Efficient Top-k Queries in Type-Ahead Search |
Guoliang Li Jiannan Wang Chen Li Jianhua Feng |
清华大学 清华大学 加州大学欧文分校 清华大学 |
Group Matrix Factorization for Scalable Topic Modeling |
Quan Wang Zheng Cao Jun Xu Hang Li |
微软亚洲研究院 上海交通大学 微软亚洲研究院 微软亚洲研究院 |
Fighting against Web Spam: A Novel Propagation Method based on Click-through Data |
Chao Wei Yiqun Liu Min Zhang Shaoping Ma Liyun Ru |
清华大学 清华大学 清华大学 清华大学 清华大学 |
Learning Hash Codes for Efficient Content Reuse Detection |
Qi Zhang Yan Wu Xuanjing Huang |
复旦大学 复旦学学 复旦大学 |
Modeling Concept Dynamics for Large Scale Music Search |
Jialie Shen HweeHwa Pang Meng Wang Shuicheng Yan |
新加坡管理大学 新加坡管理大学 合肥工业大学 合肥工业大学 |
What Reviews are Satisfactory: Novel Features for Automatic Helpfulness Voting |
Yu Hong Jun Lu Jianmin Yao Qiaoming Zhu |
苏州大学 苏州大学 苏州大学 苏州大学 |
Modeling User Posting Behavior on Social Media |
Zhiheng Zu Qing Yang |
中国科学院自动化研究所 中国科学院自动化研究所 |
Collaborative Personalized Tweet Recommendation |
Chen Kailong Chen Tianqi Guoqing Zheng Jin Ou Yong Yu |
上海交通大学 上海交通大学 上海交通大学 上海交通大学 |
See-To-Retrieve: Efficient Processing of Spatio-Visual Keyword Queries |
Chao Zhang Lidan Shou Ke Chen |
浙江大学 浙江大学 浙江大学 |
Top-k Learning to Rank: Labeling, Ranking and Evaluation |
Shuzi Niu Jiafeng Guo Yanyan Lan Xueqi Cheng |
中科院计算技术研究所 中国科学院 中科院计算技术研究所 |
Dual Role Model for Question Recommendation in Community Question Answering |
Fei Xu Zongcheng Ji Bin Wang |
中科院计算技术研究所 中科院计算技术研究所 中科院计算技术研究所 |