mla论文引用格式 引用次数最多的七篇深度学习论文出自谁手?Hinton、Yoshua榜上有名

2017/4/3 23:11:19

小明AI两会功能,最直接的体现是改变传统的交互模式,主要以照片、语音形式进行交互,同时也提供了文字输入方式。

专访光明日报、三角兽和码隆科技,看中央机关报如何利用 AI 完成升级

mla论文引用格式 引用次数最多的七篇深度学习论文出自谁手?Hinton、Yoshua榜上有名

我们了解到,"小明AI两会"的后台技术主要由三角兽科技以及码隆科技提供。

据悉,为快速识别代表委员,AI小明项目组抓取了数万张照片对小明进行模型训练;与此同时,三角兽科技为了让"小明"了解代表委员的履职情况,分析了 40 多万篇有关媒体报道和官方报告对其进行训练,从 29 万个词汇中挖掘出近 5000 个与两会相关的关键词,并据此整理出针对每一位代表委员的个性化报道。

mla论文引用格式 引用次数最多的七篇深度学习论文出自谁手?Hinton、Yoshua榜上有名

光明日报为何要尝试人工智能?

当下不少媒体面临内容再消化问题,文章发出后的时效性往往较短。光明网希望借助 AI 的能力不断把过往的经典内容再次挖掘出来,并在合适的场景中重现。其中小明 AI 两会就是一个让过往两会内容再消化的典型案例。

mla论文引用格式 引用次数最多的七篇深度学习论文出自谁手?Hinton、Yoshua榜上有名

小明AI两会功能是光明日报小明在人脸识别、图像识别、大数据方面的一次探索与自身技能的完善,小明还具备语音沟通、天气查询、机票预订等功能。小明是光明日报在 2016 年 11 月推出的国内首款人工智能新闻信息服务平台,项目开始之初,无论是人员还是资源投入都非常之多。大力招收相关人才,同时广泛联系人工智能领域公司展开合作。

mla论文引用格式 引用次数最多的七篇深度学习论文出自谁手?Hinton、Yoshua榜上有名

"AI 与媒体相结合的产品以什么样的形式呈现给读者和用户会比较好?"这个棘手的问题摆在了光明网面前。

媒体的首要任务是提供信息服务,即便是推出新兴的 AI 产品,也一定不能离开媒体的信息服务本身。光明网认为,不管产品与多少新技术结合,其核心功能仍旧是提供新闻,AI 只是一种辅助手段帮助他们获得更好的新闻阅读体验和交互方式。

mla论文引用格式 引用次数最多的七篇深度学习论文出自谁手?Hinton、Yoshua榜上有名

如果把新闻资讯集成在聊天机器人里面,用户不仅可通过小明直接查看新闻,同时也可与机器人聊天,丰富与用户沟通。

在经过一段时间开发后,于 2016 年光明小明问世。

mla论文引用格式 引用次数最多的七篇深度学习论文出自谁手?Hinton、Yoshua榜上有名

当用户用文本或语音的形式对小明说"我要看时政新闻",它便会提供当天的时政要闻。此外,"光明小明"还能为用户提供查天气、订机票、搜电影等生活信息服务,也可以完成闲聊形式的陪聊。

mla论文引用格式 引用次数最多的七篇深度学习论文出自谁手?Hinton、Yoshua榜上有名

两会前夕对 AI 的新需求

两会期间,各家媒体要从较为同质的相关报道以及内容分发中脱颖而出并不容易。在内容创新难度较大的前提下,形式上的创新便成了提升竞争力的重要因素。如南方日报在两会期间采用了非常炫酷的 H5 做宣传,在视觉呈现效果上与此前火热的 H5 《吴亦凡即将入伍》相似。

mla论文引用格式 引用次数最多的七篇深度学习论文出自谁手?Hinton、Yoshua榜上有名

专访光明日报、三角兽和码隆科技,看中央机关报如何利用 AI 完成升级

光明网也早早开始筹备两会报道的创新形式。去年年底,光明网同三角兽进行"小明AI两会"功能的对接,三角兽CTO亓超说,第一次与光明网碰面时,他们对两会功能提出了自己的想法。三角兽根据 AI 技术的现状和两会话题,对提出的需求做出一定修剪。

2 月 6 号开始,AI小明项目组开始着手开发"小明AI两会"功能。

mla论文引用格式 引用次数最多的七篇深度学习论文出自谁手?Hinton、Yoshua榜上有名

通过输入自然语言或图像识别的方式跳转到代表和委员的详细页面。

下图为两会委员和代表的页面,主要技术均由三角兽提供,这里以雷军为例:

mla论文引用格式 引用次数最多的七篇深度学习论文出自谁手?Hinton、Yoshua榜上有名

专访光明日报、三角兽和码隆科技,看中央机关报如何利用 AI 完成升级

亓超介绍到,人物图谱是把人物属性比较相近的群体进行计算,通过语料和个人资料来计算他们之间的关系。除了雷军的关系图之外,也有其他人之间的关系网络。

专访光明日报、三角兽和码隆科技,看中央机关报如何利用 AI 完成升级

下图则为通过算法挖掘的雷军关注领域的关键词。

专访光明日报、三角兽和码隆科技,看中央机关报如何利用 AI 完成升级

第三部分是相关新闻和热点新闻。该功能背后的本质新闻搜索,根据人物关键词和自己所关注的领域挖掘人物跟两会相关的报道。

专访光明日报、三角兽和码隆科技,看中央机关报如何利用 AI 完成升级

两会热点通过对热点词和相关报告进行挖掘,除了今年两会的报道外,还包括往年所有两会的上百万篇报道和百科资料以及政府网站报告。总共挖掘的词有几十万,通过数据清洗和迭代把有用的数据保存。

在谈到"光明AI两会"功能的最大难点在哪里时,亓超主要提到两点:准确和有力,尤其是两会相关的报道一定要匹配准确,容不得半点差错。在"有力"层面,AI 抓取的内容尽量做到要和人为采编有所不同,发挥机器的优势。

而背后几十万篇报道的筛选,这内部涉及到一个排序问题。排序方式与根据传统搜素中的"焦点"、"关键词"、"位置"、"权重"、"时间"、"来源"类似,同时内容必须紧扣两会主题。整个过程纯粹靠机器来完成,然后靠人力来抽查。当然,在面对大量数据时也不可避免地会遇到格式错误和抓取失败等问题。经过大量的技术研究和沟通,对面临的问题进行了解决。

AI 赋予"小明"未来

光明网产生对于光明日报刊载图片识别的需求后,找到了在图像识别领域有着深厚积累的码隆科技。

码隆科技 CEO 黄鼎隆向雷锋网(公众号:雷锋网)透露:码隆和三角兽都是微软创投加速器孵化的企业,彼此前期就有所了解,因此三角兽向《光明日报》推荐了我们,合力开发这个功能。

在问到这个功能"小明AI两会"功能如何时,黄鼎隆说到:

我对它最满意的地方是易用性。因为整个酷炫识别功能的实现,是光明网的同事自己在我们的人工智能平台上搭建起来的,并不需要我们进行过多定制化的开发。其实人工智能技术要想落地、商业化,很重要的是要使普通人,也就是不一定懂得高深科技的人也能轻松使用。

我们创造 ProductAI 这个平台的初衷就是希望把领先的深度学习和计算机视觉技术,通过搭建这个云端平台,使开发者们不需要懂得很复杂的技术原理,只需要进行很简单的对接,就可以把最先进的人工智能技术植入到他们的产品中。小明AI两会的案例就充分说明了这一点。

在面对中央机关报拥抱 AI 这件事上,黄鼎隆也不禁感慨到 AI 的影响力已经开始渗透到传统企业当中,而且此次两会政府也把"人工智能"写进工作报告当中,可见 AI 已不仅仅是一个纯粹的科技话题了。包括很多传统领域的大机构、大企业,比如说中国纺织信息中心、《光明日报》都是非常积极地拥抱和尝试最新技术。

小明AI两会功能成功推出后,多家媒体找到了码隆科技,也想体验这样的图像识别服务。根据黄鼎隆介绍,此次合作,从开发到提供服务,只花了一个周末,这在以往如果是客户方自己开发相关功能,成本非常高昂,而现在以 API 的形式接入服务,显然要划算很多。

传媒将如何深化 AI 的应用

光明网方面表示:小明 AI 两会功能,是光明网在推出小明机器人后的进一步探索,也是对小明技能、本领的进一步完善,接下来还将不断优化,持续发现类似的新功能。

亓超在采访过程中提出:传统机构对人工智能了解程度可能不够深入,但这完全不妨碍他们提出一些非常妥当的落地功能和场景。同时也会同光明网展开更多的合作,其中包括内容体系和对话系统的升级。

内容分发形式的升级

针对不同类型的文章如科技、军事、时政等板块进行深度挖掘,从而完成可定制的、个性化的内容分发。分发的内容不仅仅局限于文本,还包括图像、音频、视频等形式。

对话系统的升级

三角兽也将会对光明日报小明的对话系统进行再升级。

在对话系统方面,由于当下聊天机器人给用户回复的话语内容并不是非常严谨和正统,且机器回复内容过于零散,因此三角兽接下来需要做的事情就是把机器给人回复的每一句话都进行更严格筛选和训练。

亓超说到,这里面临最大的挑战是,在接下来的项目中,对话机器人给用户回答的所有话语均来自专业的媒体报道和官方报告,而非传统的对话语料库。这其中涉及到纯文本理解。

新闻和报告是一种纯文本的、非结构化数据,这类严肃的报道中没有"某人问一个问题,另外一个人回复"这样现成的问答数据。

这种情况下需要给机器喂一些文章,让它去自动消化,然后把它转化成对话式数据。

我们知道,一篇新闻里由很多句话组成,每句话周围的文本信息,其实都是用来表述这句话使用的背景。因此在线上对话时,第一步都需要用线上对话的文本跟新闻中这句话周围的文本去做计算,把它应用在适合它的场景中。

第二步是将每句输出的话都和上下文做计算,计算出回复这样一句话是否合适。

举个例子,以纯聊天为例,当对方回答"谢谢"两字,我们一定要回复与谢谢相等或约等的对话如:谢谢、非常感谢、谢谢你。传统对话中,我们通过抓取人为语料库中的对话数据来实现,在面对"谢谢你"时可能反应的是不用谢、不客气。这时候就会把谢谢你和不用谢、不客气做一个计算,看两者可否做一个语义一致性的回复。

回到从新闻中抓取信息然后应用在对话系统中的应用,每句话周围的话代表问题,周围那句话是否合适,需要经过上述两个步骤进行计算。

以小孩子学习举例,小孩学习语言是通过两个渠道完成的:在他不认字的初始阶段,需要靠听父母以及别人之间的对话来进行学习。长大以后他通过阅读的方式去消化内容,从而把阅读中获取的内容转化成自己的一种表达。

通过周围环境中人物的对话进行学习,可以理解为传统的聊天机器人做法:去拿一问一答的数据,然后应用在对话系统中。

而通过阅读的方式来学习,其实就属于刚才提到的新闻消化和周边语句计算。

亓超对说到:目前市场上很少有这样的对话系统,虽然极具挑战,但非常有意思。

就在采访结束后,光明日报客户端又解决了"深度链接"的问题,不得不再次感慨这家机关报对新技术的接受度远高于同类机构。