搜狗武健：从机器人看人工智能(5)

时间:2017-05-25 14:53:39 来源:钛媒体

　　我们来看几个例子，2005年，google的机器翻译使用跨越学术界一万倍的数据，一举成名，搞定了翻译界多年都搞没有定的翻译的准确率难题。Google 2009年收购的reCAPTCHA，这个器材是通过一个巧妙的产品设计，让用户在网页登录输入验证码的同时，为OCR练习提供了大量的练习样本，办理了疑难字的识别答题。在AI期间之前，没有管是商品的推荐照样电影的推荐，都是基于item之间的相似性来实现的。但自从有了大量用户产品，并且用户在这些产品里产生了充足多的数据后，厂商们现在都是行使用户行为确立推荐模型，商品的推荐进入了协同过滤期间。这是一个非常典型的通过产品上的数据积累改变了行业玩法的例子。

　　以是可以看出，要想做差AI，产品和数据才是重中之重。在产品和数据方面，要形成闭环，尽迟让一个功能上线到产品中去累积数据，进而没有停去推动手艺的进步。

　　我想再用搜狗举一个真实的例子。搜狗今朝语音识别本领和翻译本领黑白常出色的。在我们项目初期冷承动阶段，我们其实行使Google的语音识别API，做出了搜狗输入法的语音输入功能，并且投放上线。随着用户使用该功能的频次渐渐增长，我们很快就积攒了一批原始数据，然后就最先了自己的建模和练习工作，在很短的时间内就用自己的模型取代了Google API，完成了自立化。在接下来很短的时间内，随着原始语料的不时积累，手艺模型的不时演化，线上语音识其它精确率提升稀奇迅速。

　　今朝，从手艺方法本身上，搜狗不独特的地方，练习平台我们有跨越1000块GPU的体量，据我相识百度可能有2000块GPU的体量，但我们的优势是什么呢？就是线上量大。我们拥有优异的产品，给我们带来了大量优质的数据。现在搜狗输入法每天语音输入哀求能达到2.5亿次PV，每天产生20万小时的语料，在这20万小时的语料中，还包含着天下各个区域用户的语料数据。

　　刚才提到的只是数据积累的部分，其实你联合用户产品，我们完全可以做得更多，比如说去年搜狗输入法上线了语音修改功能：当你说错了一句话时，从前你要用手自己在屏幕上定位，然后删除，输入新的字，现在你就完全可以跟用语音修改功能说把什么字改成什么字，再哪哪加一个标点这个功能。最初我们用输入法用户的行为形成了一万条修改的文法，这个语音纠错功能刚上线的时辰，修改的成功率仅仅只有40%，可是你可以通过不时的迭代和数据反馈，以是我们仅仅用了一个月的时间就把成功率提升到了80%。可以看出：通过差的用户产品形态和数据，我们就可以让产品本身显露的更智能，映射到自然交互上它就顺理成章地变得更差了。

　　刚才我们提到了手艺是扩散的，计算力是增加的，唯有产品和数据可形成壁垒，绝没有是说手艺是没有重要的，产品和手艺之间其实也是有非常大的关系的，因为新的手艺肯定可以给你带来新的产品形态，同时差的产品形态肯定会加速手艺的进步，这两个器材肯定是相辅相成，一路往前推动了整个行业往前进步。

　　智能机器人的思索本领

　　思索本领是一个很宽泛的定义，到底做到了什么样的程度才算有了思索本领？是满足了加减乘除？照样满足了肯定的功能相应或图灵测试？到现在也是不确定的局限。在这里我就想提出个人的一些看法，在我来看，在当下若是一个机器人有了答问本领，就可以算是有了思索本领，就可以被称为智能机器人了。

　　当然答问本领本身照样一种比较宽泛的说法，这里我把答问分成三类：

搜狗武健：从机器人看人工智能(5)

你遇到过鬼打墙吗，科学家给出了合理的解释！

南京杰岛：自动二级热脱附解析系统，设计精巧，精准度高

2020全球无人机应用及防控大会即将举办，助推无人机产业乘风破浪

新iPhone发布时间确定但是这两点并不被看好

小米主题回应侵权存在个别情况系三方作者自主上传

贝索斯正式离婚 25年发妻为何比不上新闻女主播？

搜狗武健：从机器人看人工智能(5)

你遇到过鬼打墙吗，科学家给出了合理的解释！

南京杰岛：自动二级热脱附解析系统，设计精巧，精准度高

2020全球无人机应用及防控大会即将举办，助推无人机产业乘风破浪

新iPhone发布时间确定 但是这两点并不被看好

小米主题回应侵权 存在个别情况系三方作者自主上传

贝索斯正式离婚 25年发妻为何比不上新闻女主播？

新iPhone发布时间确定但是这两点并不被看好

小米主题回应侵权存在个别情况系三方作者自主上传