一、学会新闻

第二十届全国信息检索学术会议(CCIR2014)在昆明召开

    第二十届全国信息检索学术会议(CCIR2014)由昆明理工大学承办,于2014年8月8日至10日在昆明举行。会议得到了包括昆明能讯科技有限责任公司、云南云电同方科技有限公司、北京拓尔思信息技术股份有限公司、北京创新乐知信息技术有限公司、北京秒针信息咨询有限公司、百度、北京捷通华声语音技术有限公司、昆明英捷机电工程有限责任公司、北京搜狗科技发展有限公司大力支持。

    本届会议共收到论文315篇。通过通信评审和程序委员会会议复审两个阶段,最终确定录用论文181篇,录用率约为57%,录用的论文总体反映了国内在信息检索领域的最新成果。会议评出5篇优秀学生论文,并颁发优秀学生论文奖证书。

    来自全国从事信息检索理论与应用的研究机构和高校代表300余人参加了会议。本届会议不仅包含传统的会议论文,海内外知名学者的大会特邀报告,还包括青年学者论坛、热点研究问题的专题讲座(Tutorial)。同时,会议还举办"第六届中文倾向性分析评测"(COAE2014)。大会有幸邀请到香港科技大学杨强教授、微软亚洲研究院刘铁岩研究员、美国伊利诺大学香槟分校(UIUC)翟成祥教授、美国加州大学圣克鲁兹分校(UCSC)张奕教授做大会特邀报告,邀请到微软亚洲研究院窦志成博士、武汉大学李晨亮博士、中国科学院自动化研究所刘康博士、中国科学院计算技术研究所沈华伟博士、苏州大学熊德意博士、百度赵世奇博士做青年学者报告。还邀请到清华大学朱军博士和IBM苏中博士分别做关于Big Learning with Bayesian Methods和From Big Data to Cognitive Computing的Tutorial。

    全国信息检索学术会议关注国内外信息检索领域的最新进展,在针对本领域研究工作中提出的种种挑战性问题展开学术交流的同时,兼顾国家级战略需求,力争为提升我国信息检索学术研究的整体水平做贡献,努力将其办成本领域国内权威和国际知名的专业学术会议。


中国科学院自动化研究所喜获COLING2014 Best Paper Award

    近日,国际计算语言学领域顶级会议COLING2014 Best Paper公布,中科院自动化所赵军老师研究组的论文"Relation Classification via Convolutional Deep Neural Network (作者:Daojian Zeng , Kang Liu, Siwei Lai, Guangyou Zhou and Jun Zhao)"从被录用的221篇论文中脱颖而出,被评为大会最佳论文奖(最佳论文共两篇,另一篇是"A context-based model for Sentiment Analysis in Twitter"),其中刘康博士为CIPS青工委执行委员。该论文针对自然语言处理中的关系分类问题,利用卷积深层神经网络(Convolutional Deep Neural Network)自动学习表征实体关系的词汇特征、上下文特征以及实体所在的句子特征等,相对于以往关系分类方法,该方法不需要利用NLP处理工具(POS、NER、Parsing等)抽取特征,极大的改善了特征抽取过程中多个处理环节所带来的误差累积问题。实验结果表明,该方法相对于已有state-of-the-art方法在关系分类任务上性能有显著的提升。

    详细事宜请参考学会网站

二、学术活动
中国中文信息学会2014年活动计划
序号 活动名称 主要内容 时间 规模(人) 地点 联系人
1
中国中文信息学会战略研讨会
4月18-19日
40
贵阳
陈笑蓉
2
促进青年学者之间的学术交流,加强与国际学术界的交流,加强学术界和企业界的联系
5月16-17日
120
乐山
金澎
3
Web信息检索;事件抽取;文本分类与聚类;文本过滤;问答式检索和自动文摘;信息安全;信息检索计算法;户模型等
8月8-10日
300
昆明
余正涛
4
第九届中国中文信息学会暑期学校(CIPS Summer School in Human Language Technology )
中文信息处理相关学科的前沿技术讲座
8月15-17日
150
天津
王博
5
语音识别,语音合成,说话人和语种识别,言语工程中的语音学,自然语言处理与口语对话,语音和语言应用系统
9月12-14日
150
新加坡
郑方
6
第五届全国少数民族自然语言处理青年论坛
全国从事少数民族语言信息处理的青年科技工作者论坛
9月19-21日
80
洛阳
毕玉德
7
第十四届中日自然语言处理 共同促进会
中日自然语言处理专家研讨
10月11-14日
60
成都
宗成庆
8
第二届全国中文知识图谱研讨会
中文知识图谱构建与应用
10月17日
100
武汉
孙乐
9
计算语言学的理论基础: 语料库语言学、词法分析、句法分析和语义分析;机器翻译技术、系统及评测方法;自然语言处理的应用技术及系统等
10月18-19日
300
武汉
何婷婷
10
中文信息处理相关的技术评测会议
10月20-21日
100
武汉
孙乐
11
各国速记协会的工作情况分享;各成员国举办国际速联比赛问题;2015-2017年国际速联工作计划等
10月22-24日
200
上海
廖青
12
第八届全国汉字信息处理技术研讨会(CIPT2014)
汉字信息处理技术最新动态和发展;汉字信息处理的前沿技术;汉字字形的专业设计等
10月27-28日
60
北京
赵敏
13
面向社会媒体的自然语言处理;社会网络分析与复杂系统;社会媒体挖掘、预测与推荐;社会多媒体分析与可视化等
11月1-2日
300
北京
张华平
14
机器翻译模型、技术及系统;多种语言机器翻译系统评测
11月4-6日
150
澳门
黄辉
15
中国中文信息学会学术2014年会暨钱伟长中文信息处理科学技术奖颁奖大会(CIPS 2014)
促进中文信息处理领域的理论创新、技术交流与产学研合作
12月3-4日
300
北京
孙乐
三、学会通知
中国中文信息学会优秀博士学位论文评选通知

    为推动中国中文信息处理领域的科技进步,鼓励创新性研究,促进青年人才成长,在北京拓尔思(TRS)信息技术股份有限公司的大力支持下,特设立中国中文信息学会(CIPS)优秀博士学位论文(以下简称"优秀博士论文")。本奖项每两年评选一次,每届由CIPS评选出不超过5篇优秀博士论文。

    参选条件

    1. 论文作者在攻读博士学位期间,在中文信息处理技术及其相关领域的基础理论或应用研究中取得重要成果,或在关键技术或应用技术创新等方面成果显著。

    2. 论文作者在申报受理日期当年和前两年获得博士学位。

    重要日期

    受理材料:2014年7月22日 ~ 9月1日

    格式审查:2014年9月1日 ~ 9月10日

    初审阶段:2014年9月10日 ~ 10月15日

    终审阶段:2014年10月15日 ~ 11月15日

    颁奖仪式:2014年12月5日

    详细事宜请参考学会网站

关于申报2014年"钱伟长中文信息处理科学技术奖"的通知

    为调动我国从事中文信息处理技术研究的专家和学者的积极性,推动信息产业的发展,根据《钱伟长中文信息处理科学技术奖奖励条例》,以及《钱伟长中文信息处理科学技术奖奖励条例实施细则》,即将开展2014年度"钱伟长中文信息处理科学技术奖"评审奖励工作。

    自2006年起,中国中文信息学会已经成功举办四届"钱伟长中文信息处理科学技术奖",分别设立一、二、三等奖,下设"汉王青年创新奖",每两年评奖一次,对推动我国中文信息处理领域的科技发展与进步,激发科研人员的创造性起到了积极的作用。参评条件、推荐办法、评选程序等具体内容可参考学会网站

    重要日期

    受理材料:2014年7月1日 - 8月31日

    初审阶段:2014年9月1日- 9月30日

    终审阶段:2014年10月1日- 10月31日

    颁奖仪式:2014年12月5日

中国中文信息学会会员发展工作的通知

    为推进学会的改革,建立以会员为主体的管理体制,健全会员管理制度,按照中国科协《关于规范全国性学会个人会员登记号的通知》的要求和规定,结合本会的具体情况,建立个人会员登记制度。

会员登记的简要流程:

    1.下载会员申请表,填写完成后发送至学会邮箱:[email protected]

    2.收到会员信息确认函后缴纳学会年度会费, 完成会员资格认证。

2014年度"中国中文信息学会"个人会员收费标准:

    个人会员:120元/年    学生会员: 60元/年

    会员经注册并缴费后,将获得会员登记号和会员证。在参加学会主办的各类学术活动时,凭会员证将享受会费优惠;定期获赠中国中文信息学会会员通讯(电子版)。

    为鼓励更多学者加入学会,完成2014度会员登记的全体会员和部分学生会员(以缴费顺序,先到先得,赠完为止),将获赠2014年度全年《中文信息学报》(纸质版)。

四、学术动态

2014 CIKM Competition任务:查询意图分类

    数据源自百度某一天内的近百万条真实热门查询,带有session和click信息。竞赛现已开始报名,10月1日截止。注册后即可下载数据。

    详细事宜请参考网站

CNNIC发布第34次《中国互联网络发展状况统计报告》

    2014年7月21日,中国互联网络信息中心(CNNIC)在京发布第34次《中国互联网络发展状况统计报告》(以下简称《报告》)。《报告》显示,截至2014年6月,中国网民规模达6.32亿,其中,手机网民规模5.27亿,互联网普及率达到46.9%。网民上网设备中,手机使用率达83.4%,首次超越传统PC整体80.9%的使用率,手机作为第一大上网终端的地位更加巩固。2014上半年,网民对各项网络应用的使用程度更为深入。移动商务类应用在移动支付的拉动下,正历经跨越式发展,在各项网络应用中地位愈发重要。互联网金融类应用第一次纳入调查,互联网理财产品仅在一年时间内,使用率超过10%,成为2014年上半年表现亮眼的网络应用。

    报告下载地址:http://www.cnnic.net.cn/gywm/xwzx/rdxw/2014/201407/W020140721559080702009.pdf

五、学术资源

    论文:SIGIR 2014年论文集
    http://dl.acm.org/citation.cfm?id=2600428

    论文:EMNLP 2014 accepted paper list
    http://emnlp2014.org/papers.html

    论文:AAAI 2014 论文集
    http://www.aaai.org/Library/AAAI/aaai14contents.php

    论文:Annual Review of Statistics and Its Application
    http://www.annualreviews.org/toc/statistics/1/1
    各领域统计前沿的应用回顾,涉及物理、地理、生物、经济、政治、金融各个领域。

    SIGIR获奖论文
    SIGIR2014最佳论文: Partitioned Elias-Fano indexes
    最佳学生论文: Towards better measurement of attention and satisfaction in mobile search
    SIGIR十年最佳论文奖:Beyond independent relevance: methods and evaluation metrics for subtopic retrieval

    论文:大数据综述文章Toward Scalable Systems for Big Data Analytics: A Technology Tutorial
    http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=6842585
    大数据综述文章,涵盖数据生成,获取,存储,及分析等主要技术的综述。

    Tutorial:2014年七月CMU举办的机器学习夏季课
    http://www.mlss2014.com
    有近50小时的视频、十多个PDF版幻灯片,覆盖深度学习,贝叶斯,分布式机器学习,伸缩性等热点话题。

    学习:线性代数的学习及相关资源
    http://52opencourse.com
    汇集了资源,包括电子版教材

    机器学习库:Torch7
    http://torch.ch/
    Torch7是一个支持机器学习算法的科学计算框架,由Facebook AI Research发布。

    机器学习库:GraphLab Create
    http://graphlab.com/products/create/overview.html
    一个用于图数据、结构化数据和文本数据的大规模机器学习平台。

    数据清理工具:OpenRefine
    https://github.com/OpenRefine/OpenRefine
    OpenRefine是一个数据清理的优秀工具。它根源于MIT David Karger实验室的研究。该实验室在交互式数据处理的前沿。David Huynh把这个研究带到MetaWeb,也即Freebase团队。被Google收购后,工具改称Google Refine。后来开源成为OpenRefine。

    图数据库:Cayley:Google员工开发的开源图数据库
    https://github.com/google/cayley
    Cayley是由 Google 员工开发的一个开源图数据库,受 Freebase 和Google 的知识图谱背后数据库的启发。其目的是成为开发者在 Linked Data 和图数据(语义网络、社交网络等)的工具之一。

    资源:12个大数据可视化工具合集汇总
    http://bigdata.memect.com/?tag=survey+visualization
    12个大数据可视化工具合集汇总,涵盖超过50个可视化工具(表格,地图,时间轴,动态图表,树,有向图等),大约80% javascript包,例如d3.js,timeline.js,Springy.js。

    资源:工信部《2014 大数据白皮书》
    http://vdisk.weibo.com/s/zm_eIVP-nkFAe
    工信部发布了《2014 大数据白皮书》

    资源:麦肯锡《中国数字转型》报告
    http://www.mckinsey.com/insights/high_tech_telecoms_internet/chinas_digital_transformation

    数据集:Common Crawl Data Available
    http://commoncrawl.org/blog/
    由Common Crawl基金会抓取的互联网网页数据集,共包含26亿网页,大小183TB 。

六、中文信息学报
《中文信息学报》第28卷,第3期2014年5月目录
题 目 作 者 页 码
>语言分析与生成
基于规则的汉语名名组合的自动释义研究 魏 雪,袁毓林 1
衔接性驱动的篇章一致性建模研究 徐 凡,朱巧明,周国栋,王明文 11
动词引出新支话题的语用功能研究 季 翠,卢达威,宋 柔 22
英语情态句的情感倾向性分析 陈仲帅,刘 洋,禹晓辉 28
基于条件随机场的汉语框架语义角色自动标注 宋毅君,王瑞波,李济洪,李国臣 36
汉语框架网中未登录词元的框架选择 陈学丽,李 茹,王 赛,王智强 48
>信息检索及社会计算
微博信息传播网络的结构属性分析 王晓明,王 莉,杨敬宗 55
中文微博客的垃圾用户检测 李赫元,俞晓明,刘 悦,程学旗,程 工 62
基于传播模拟的消息流行度预测 万圣贤,郭嘉丰,兰艳艳,程学旗 68
长尾查询搜索性能评价方法的研究 霍 帅,张 敏,刘奕群,马少平,金奕江,茹立云 75
>机器翻译
机器翻译自动评价综述 李良友,贡正仙,周国栋 81
>少数民族语言信息处理
TSRM藏文拼写检查算法 珠 杰, 李天瑞,刘胜久 92
基于FUG的藏语句法形式化描述 扎西加, 多 拉 99
藏文构件元素识别算法研究 边巴旺堆,卓 嘎,陈延利, 武 强 104
一种维吾尔语联机手写识别系统 热依曼·吐尔逊, 吾守尔·斯拉木 112
>语音识别与分析
基于能量变化率的汉语塞音检测算法 张连海,陈 斌,屈 丹,李弼程 116
语音声学参数自动标注/提取系统简介 周学文,呼 和 123
话题转换方式和句子长度对边界声学参数的影响 吴 倩,王 蓓 129
>信息提取和文本挖掘
基于语义分类的比较句识别与比较要素抽取研究 周红照,侯明午,侯 敏,滕永林 136
面向动态主题数的话题演化分析 方 莹,黄河燕,辛 欣,魏骁驰,庄 琨 142
评价文本中意见分布规律研究 许延祥,罗铁坚,周 佳,王 竹 150