王小川首秀搜狗语音纠错：突破语音识别最后3%

来源：大中时尚周刊作者：杜学君更新时间：2020-08-29 14:18:04阅读：

本篇文章4595字，读完约11分钟

2016年7月16日，极客公园“奇点创新者峰会”在上海举行。包括特斯拉联合创始人jb straubel和超高速铁路hyperloop one高级副总裁george o'neal在内的数十位国内外科技企业和学术界领袖就虚拟现实和人工智能等前沿技术主题发表了演讲并进行讨论。

搜狗公司首席执行官王小川出现在上午的压轴戏中，他以人工智能应用为主题发表了精彩的演讲“我们应该用人工智能创造什么”，成为唯一一位现场演示人工智能技术的演讲者。利用搜狗公司的语音识别技术，实时显示王小川的语音内容，视觉准确率达到95%以上。同步字幕引起了观众的极大兴趣，并站起来拍照。语音结束后，语音识别结果立即生成完整的语音，观众可以通过扫描二维码来阅读。

王小川首秀搜狗语音纠错：突破语音识别最后3%

王小川邀请观众上台体验搜狗输入法的新功能“语音修改”。用户对着手机说了一段话后，他用自然语言纠正了语音识别错误，赢得了现场的热烈掌声。王小川介绍道；“目前，搜狗的手机输入法每天有超过1.4亿次语音输入通话，是中国最大的语音识别引擎，语音识别的准确率已经超过97%。然而，目前的人工智能技术仍然不能使语音识别达到100%的准确率。在这方面，搜狗开发了语音修改功能，以自然语言交互的形式修改输入文本，不仅解决了语音识别准确率的最后3%差距，而且解放了用户的双手。提高用户输入效率。"

王小川首秀搜狗语音纠错：突破语音识别最后3%

在王小川看来，“用技术找到市场”和“在找到市场时失去技术”都是不可接受的。“根是技术，干是产品，真正的开花是最后的市场。”目前，人工智能企业更重要的任务是抢占市场，深挖技术，创造出连接市场和技术的优秀产品，而搜索引擎本身就是这样一种人工智能。搜狗的使命是让信息更容易表达和获取，真正成为人类生活的助手，这也是人工智能未来最重要的发展方向。

王小川首秀搜狗语音纠错：突破语音识别最后3%

以下是讲话的全文:

大家好，我是人工智能的倡导者。当每个人都谈论互联网时，我们开始谈论产品；当每个人都谈论产品时，我们开始谈论技术；当每个人都开始谈论技术的时候；我们已经开始谈论人工智能了。那么今天每个人都在谈论人工智能。我想谈什么？

王小川首秀搜狗语音纠错：突破语音识别最后3%

多亏了李志飞。事实上，我非常喜欢他的演讲。我非常感谢他完成了我想说的一切。许多理解是相同的。最后，李志飞说:“我今天没有带你们去示威，但是搜狗带了。”请看看大屏幕！我们预计今天可能会出现网络故障，所以我们将服务器移到了现场！

王小川首秀搜狗语音纠错：突破语音识别最后3%

所以当我们谈论人工智能的时候，我会谈到一些反思，因为今天我们可能高估了人工智能的未来。今年上半年，我倡导阿尔法围棋作为一项跨世纪的比赛，比分是4: 1。在那之后，它就像一个启蒙运动。所有公司的投资都把目光投向了人工智能，世界上的投资非常活跃，中国也是如此。在这个时候，我想多谈谈，我们必须小心陷阱在哪里，真正的人工智能的未来在哪里。

王小川首秀搜狗语音纠错：突破语音识别最后3%

就在一个月前，我去谷歌与阿尔法戈的工程师进行了深入的交流。有一件事我必须告诉你，阿尔法戈没有停止它的研发，并继续取得进展。但当我与他们交谈时，我谈到了机器仍然无法赢得与李石图下棋的第四局。我很惊讶已经过了三个月了，所以我告诉他们，什么样的算法可以改进来赢得第四场比赛？谷歌的工程师给了我一个苦笑，说我们已经尝试了你提到的所有方法。

王小川首秀搜狗语音纠错：突破语音识别最后3%

回到我们深入的研究。今天，我们都知道有一个很大的危险，因为传统的人工智能专家预测深度学习有一些缺点，它的稳定性是不够的。在一些需要可靠性的场景中，没有完整的数学计算和证明。因此，即使在这种情况下它是99%正确的，它也可能带来不确定性。例如，在无人驾驶汽车中，这1%的不确定性可能会导致汽车熄火，我不知道如何纠正它。因此，我们今天会知道，深度学习可以做很多事情，但是到目前为止，我们的人类技术还比较肤浅。然后我还谈到了语音识别的话题。今天，语音识别已经达到了很高的准确率，接近实际应用，但仍有许多局限性。例如，我们需要一个安静的环境。当有噪音时，当有两个人同时说话时，机器就不能运转了。我们的方法是，例如，在汽车环境中，预先记录发动机的声音，或者将噪音添加到识别中，然后将从未见过的环境转换为机器可以看到的环境，以便可以识别。

王小川首秀搜狗语音纠错：突破语音识别最后3%

但是我和工程师谈过了，如果有两个人在其他环境中交谈呢？总有一个人的声音听不见？我们的解决方案是使用麦克风矩阵。有一个麦克风可以识别方向。如果两个人在不同的位置有不同的声音，声源可以分开。人们是这样的吗？人们用两只耳朵固定他们的声音吗？如果只有一只耳朵，或者两个人朝同一个方向说话，会发生什么？人们是可以辨认的，对吗？这台机器做不到。所以我给你看这张照片。我还询问了从事神经科学的人。他们说人和机器之间有本质的区别。如果两个人在不同的位置说话，人们可以分开。如果他们在同一个位置，一个人可以大声分开，一个人可以低声分开。如果两个人有相同的声音，一个是男性声音，另一个是女性声音。如果他们都是男性的声音，如果一个人说中文，一个人说英文，他们可以分开。因此，人们处在一个环境中，只要他们能找到机会发现两种声音之间的区别特征，他们就能被动态地分离。但是很抱歉，我们声称今天全世界在语音识别方面已经取得了巨大的突破，但是我们仍然不能解决这样的问题，所以我们知道今天的计算机仍然离人类很远。

王小川首秀搜狗语音纠错：突破语音识别最后3%

因此，除了技术本身的瓶颈之外，当我们开始创业时，许多领先的技术公司会面临什么样的瓶颈呢？一个非常危险的可能性是拥有这项技术，并利用这项技术找到市场。例如，当我们进行人脸识别时，我们开始想象如何使用人脸识别。我去寻找市场的方向，但如果在这个过程中找不到，我们公司很可能会倒闭。还有一种可能是，在寻找市场的过程中，我们花费了大量的精力来建立我们的销售团队，我们试图与各个领域进行整合，但是此时我们忘记了技术的来源，因为技术是不断重复和更新的。如果我们跟不上高效和尖端的技术，我们可能偶尔会发现一点市场，但我们的技术已经落后了。如今，在中国的人工智能领域，许多从事语音识别和图像处理的公司都陷入了这样的陷阱。因此，这条创业之路对我来说并不容易告诉投资者，而且技术本身也不那么可靠。即使技术可靠，也可能没有市场，即使有市场，我的技术也可能已经丢失。

王小川首秀搜狗语音纠错：突破语音识别最后3%

对我们来说还有另一条路，它已经有了一个巨大的市场。搜狗的输入法和搜索已经被数百万用户使用。在这种情况下，我们在寻找技术时会更加务实。所以我在这里画了一棵简单的树，就是市场技术和产品的关系:根是技术，干是产品，真正的开花是最后的市场。因此，在某些情况下，当我们有根的时候，我们应该尽最大努力长出一个长长的树干，当它能够开花结果的时候，中间有很多困难。仍然有很大的困难，如果我们有这样的成果，当我们有市场的时候，或者当我们认为我们有市场的时候，我们就会失去我们的基础。

王小川首秀搜狗语音纠错：突破语音识别最后3%

人工智能与大学和学术界有很多联系。中国需要的不是从国外留学回来后做技术，也不是忘记这样的研发进展后去市场，而是跟上技术的前沿。例如，李志飞必须让他的工程师团队阅读论文，甚至在其中撰写自己的论文，以便跟上前沿。人工智能创业不像互联网创业，而是不断改变技术。

王小川首秀搜狗语音纠错：突破语音识别最后3%

然后，这篇文章还提到了一个命题。我们如何讨论技术和幸福之间的关系？我画了一个草图，左边是我们提到的一些技术，包括语音识别、人脸识别、人机交互、服务机器人等等。你认为这个词和幸福有关吗？这里的大多数人都不从事技术，因为每个人都崇拜技术，所以我们会过度想象它在技术中的无限光环。其实，这与幸福无关，而是因为我们的不理解、恐惧和向往带来了误解。看右边，这些声音对我来说很酷，自动驾驶，能够理解我，诊断疾病，一键送咖啡。听起来怎么样？有幸福吗？你看到左下角的单词了吗？活捉皮卡丘。你知道我要说什么吗？最近，非常流行的虚拟现实游戏不是像左边那样谈论虚拟现实，而是把一个活生生的卡通形象呈现在我们面前，这就是我们看到的快乐。

王小川首秀搜狗语音纠错：突破语音识别最后3%

因此，对比左右人物，无论是企业家、媒体人士还是投资者，我们都应该看到，当我们的技术能够让我们开心的时候，它更有可能成为一种技术、一种产品以及在市场上的成功应用。告诉你我们对搜狗科技和幸福之间关系的理解。事实上，当一个朋友跟我谈起搜索时，他说:“王小川，你今天非常引人注目，你一直在谈论人工智能。”你想变成人工智能吗？”我说不，搜索本身就是一种人工智能，而且它是带着幸福的人工智能，因为它能让每个人变得更强。

王小川首秀搜狗语音纠错：突破语音识别最后3%

有时我和90后一起散步，我发现他非常强大，无所畏惧，因为他知道他可以用搜索解决所有问题。上面的搜索有一个答案，所以今天的年轻人用科技和搜索变得更强，有更大的幸福感。

然后再加一句话，为什么要搜索人工智能？先看图表。搜索的第一部分是让用户先搜索一个关键词，然后给它提供10个链接。这是搜索当今产品操作的基本方法。但是这个关键词是我们最好的输入方式吗？今天，每个人都习惯了。我回顾了1999年到2000年，那时搜索首次出现。那时，每个人都更愿意键入整个句子，但发现机器无法识别它，所以每个人都被训练使用这样的关键词。这就像在电脑中使用鼠标一样。每个人都习惯了使用鼠标，但今天我们发现乔布斯告诉我们，更好的方法是用手指直接在屏幕上戳，所以与自然语言的输入相比，关键词的输入需要改进，就像鼠标和用手指自然表达一样。因此，搜索引擎的向下发展方向是把人们对一个关键词的思考变成人们对一个完整句子的表达，而机器找到中间的意思。同样的10个链接不是我们最想使用的方式。相反，我们应该直接通过用户的问题给出答案或命令，机器将执行它们。

王小川首秀搜狗语音纠错：突破语音识别最后3%

因此，今天搜索的发展对搜索引擎公司来说是一个渐进的过程，就像谷歌一样。他已经提到他已经从一家移动互联网公司变成了一家人工智能公司，那么他为什么不这样做呢？听起来不错，不是吗？因为今天全人类的技术，距离可以让机器理解人，它可以变成一句话来给出答案，但是我们一直走在这条路上。人工智能的引入不是一个颠覆性的市场，而是对原有需求的逐步改善。同样的逻辑也适用于谷歌和我们，包括百度。

王小川首秀搜狗语音纠错：突破语音识别最后3%

因此，我们提到搜索公司本身正在做人工智能。如果你认为搜狗还不够，你可以看看谷歌。他已经代表了当今人工智能应用的巅峰。因此，在目前的应用中，我们的梦想是拥有像siri这样的其他交互功能，我们认为这个未来属于搜索公司。好，让我们给你看一个我刚才提到的精彩动画。我相信每个人都看过这部电影，它实际上代表了我心目中人工智能的未来方向，搜索公司的未来方向也在这里发展。

王小川首秀搜狗语音纠错：突破语音识别最后3%

当我们谈论声音输入时，今天它是一个特别严肃的领域，每个人都在发声，它也是我们发展中的一个重要环节。你可能不知道搜狗是中国语音识别用户数量最多的应用。我们每天有1.4亿次语音识别，准确率超过97%。搜狗输入法的用户刚刚提到语音识别是不够的。我们还能做什么？让我给你看一段视频。我们怎样才能继续提高97%？搜狗在当前语音输入的基础上增加了自然语言修改功能，允许用户以更直观、自然的方式修改当前技术无法实现的3%。同时，解放的双手确实给用户的生活带来了便利。

王小川首秀搜狗语音纠错：突破语音识别最后3%