论文:SIGIR 2014年论文集
http://dl.acm.org/citation.cfm?id=2600428
论文:EMNLP 2014 accepted paper list
http://emnlp2014.org/papers.html
论文:AAAI 2014 论文集
http://www.aaai.org/Library/AAAI/aaai14contents.php
论文:Annual Review of Statistics and Its Application
http://www.annualreviews.org/toc/statistics/1/1 各领域统计前沿的应用回顾,涉及物理、地理、生物、经济、政治、金融各个领域。
SIGIR获奖论文
SIGIR2014最佳论文: Partitioned Elias-Fano indexes
最佳学生论文: Towards better measurement of attention and satisfaction in mobile search
SIGIR十年最佳论文奖:Beyond independent relevance: methods and evaluation metrics for subtopic retrieval
论文:大数据综述文章Toward Scalable Systems for Big Data Analytics: A Technology Tutorial
http://ieeexplore.ieee.org/xpl/articleDetails.jsp?arnumber=6842585 大数据综述文章,涵盖数据生成,获取,存储,及分析等主要技术的综述。
Tutorial:2014年七月CMU举办的机器学习夏季课
http://www.mlss2014.com 有近50小时的视频、十多个PDF版幻灯片,覆盖深度学习,贝叶斯,分布式机器学习,伸缩性等热点话题。
学习:线性代数的学习及相关资源
http://52opencourse.com 汇集了资源,包括电子版教材
机器学习库:Torch7
http://torch.ch/ Torch7是一个支持机器学习算法的科学计算框架,由Facebook AI Research发布。
机器学习库:GraphLab Create
http://graphlab.com/products/create/overview.html 一个用于图数据、结构化数据和文本数据的大规模机器学习平台。
数据清理工具:OpenRefine
https://github.com/OpenRefine/OpenRefine OpenRefine是一个数据清理的优秀工具。它根源于MIT David Karger实验室的研究。该实验室在交互式数据处理的前沿。David Huynh把这个研究带到MetaWeb,也即Freebase团队。被Google收购后,工具改称Google Refine。后来开源成为OpenRefine。
图数据库:Cayley:Google员工开发的开源图数据库
https://github.com/google/cayley Cayley是由 Google 员工开发的一个开源图数据库,受 Freebase 和Google 的知识图谱背后数据库的启发。其目的是成为开发者在 Linked Data 和图数据(语义网络、社交网络等)的工具之一。
资源:12个大数据可视化工具合集汇总
http://bigdata.memect.com/?tag=survey+visualization 12个大数据可视化工具合集汇总,涵盖超过50个可视化工具(表格,地图,时间轴,动态图表,树,有向图等),大约80% javascript包,例如d3.js,timeline.js,Springy.js。
资源:工信部《2014 大数据白皮书》
http://vdisk.weibo.com/s/zm_eIVP-nkFAe 工信部发布了《2014 大数据白皮书》
资源:麦肯锡《中国数字转型》报告
http://www.mckinsey.com/insights/high_tech_telecoms_internet/chinas_digital_transformation
数据集:Common Crawl Data Available
http://commoncrawl.org/blog/ 由Common Crawl基金会抓取的互联网网页数据集,共包含26亿网页,大小183TB 。
|