大数据研究正在改变公司与机构的运营方式。大数据运用广泛,能对正在发生的事进行统计,还能提出预测——消费者想购买什么,公民会怎样投票,哪类人更容易得心脏病等等。
随着人们对新数据集及数据分析技能的需求不断增长,上海纽约大学数据科学研究中心力图成为中国顶尖数据科学教育与研究机构之一,研究并开启中国信息的相关数据平台。
上海纽约大学计算机与工程学部主任、数据科学研究中心联合主任Keith Ross教授说,“中心全力支持教师的研究,以及本科的数据科学专业。中心最新建成开放的数据库,供来自全球的研究者使用。”
新专业
“现在,人类对新知识的渴求,带动了对数据科学家的需求。作为创新型大学的一部分,上海纽约大学数据科学专业正在积极推动跨学科研究和教学。”上海纽约大学商学部主任、数据科学研究中心联合主任陈宇新说。
新开设的数据科学专业和辅修专业,综合了计算机科学、数学、统计学以及经济学的课程,让学生在计算机编程、统计学及数据挖掘领域打下坚实基础。
陈宇新说,“数据科学并不只是研究纯数字,这是计算机科学领域的典型数据。我们会处理大量的非结构化数据,包括图像、视频、文本,并会使用由计算机科学家和人工智能开发的算法,独立于传统的统计方法。”
通过学习数据结构导论、多变量微积分、信息可视化及数据库等课程,学生得以结合多种工具,解决社会科学、物理科学及工程学等各领域学科的问题。
陈宇新说,“数据科学可以广泛地用于为企业制定营销策略。例如腾讯、阿里巴巴、百度这些大企业,一直在这一领域投入巨资。等你登录社交媒体,看到不同类型的广告时,可以留意一下数据科学是如何发挥作用的。”
中国数据开放平台
二月,研究中心启用一崭新在线中文数据开放平台,向公众开放了中心有关中国的数据和外部数据资源目录。这一免费、公开的平台,是数据科学研究中心助理洪霖、图书馆教育技术评估专员戴赟,以及大学传播部数字信息主管郑俊通力合作六个月的成果。
Ross教授说,“现在,很多人都想使用和掌握数据,不管是做进一步的研究调查,还是尝试不同算法,从而对数据产生新的认识。美国有一些这样的网站,而我们只关注和中国相关的数据,并引导用户使用这一丰富资源。”
中文数据开放平台提供了多种可供搜索的类别,包括:生物科学、商业与金融、教育学、地球科学、历史、语言学、政治学、公共卫生与心理学、社交媒体,以及社会经济发展。在这个数据平台上,用户可以查找到从2006年至2009年间的上千万条推特帖文;中国健康与营养调查等等数据。每个数据集及其来源均有简要描述,并会指明该资源是否可以立即使用,还是需要注册或登录应用程序获得访问权限。
Ross教授说,“上海纽约大学每一门学科的老师——数学、全球中国研究、政治学等等,都对中国研究深感兴趣。我们希望这个数据平台能对他们的研究助一臂之力。”
平台上还包括一个软件工具数据库,可用于分析中文文本数据。目前的软件工具大多和西方语言兼容,功能强大,可从文本里识别、抓取所有的名字,或是分析、判断一篇影评所带有的感情色彩。
Ross教授说,“有了合适的工具,人们就可以分析诸如‘纽约时报报道男性多一些,还是女性多一些’的问题了。就数据科学研究中心来说,我们可以将中文报纸里的所有报道作为一个数据集。”
--
点击了解中文数据开放平台。
想了解更多人工智能信息,请报名参加2月24日的“预测学习与人工智能的未来”讲座。主讲人Yann LeCun,Facebook人工智能实验室首席官,纽约大学数据科学、计算机科学、神经科学、电子工程学Silver教授。