我要投稿

对话AI科学家何晓冬老师：大模型时代的业务探索和个人发展

发布日期：2024-07-21 07:43:14 浏览次数： 2125

特邀嘉宾 | He Xiaodong

访谈编辑 | Yuan Shaozu

【导读】非常荣幸能与何晓冬老师进行一个小时的深入交流，这次对话让我学到很多。何老师主要分享了大模型带来的机遇、业务探索的过程，以及个人在大模型时代的发展路径。现将对话内容整理成文字版，为方便阅读，部分内容有所删减和调整。

何老师简介

何晓冬曾就职于美国微软雷德蒙研究院十余年，担任首席研究员及深度学习技术中心负责人。同时，他也是IEEE Fellow、华盛顿大学教授及博士生导师，中国人工智能产业发展联盟副理事长。在自然语言处理和多模态智能等人工智能领域，何老师拥有超过二十年的研究经验，是该领域的世界级科学家之一，曾荣获吴文俊人工智能杰出贡献奖。他发表过200多篇学术论文，被引用超过5万次，并多次获得ACL杰出论文奖和IEEE最佳论文奖等重要奖项。

01 大模型技术展望

问题1：大模型在过去一年多的时间里，对我们的业务和技术方向产生了非常大的影响，您对此有哪些感受以及对未来有哪些期待？

何老师： 大模型的发展已经进入了一个关键节点。从2022年11月底ChatGPT问世到现在，已经过去了一年半的时间。我们在大模型领域也在快速建立自己的优势和护城河。言犀的版本从1.0到2.0，再到即将发布的3.0，我们的模型也已经来到了千亿参数的规模。这一趋势和技术潮流是不可阻挡的，我们必须扎实推进。

而大模型的应用落地有两种方式：一种是普适型的，即水涨船高型的，它作为一种能力开放给整个集团，比如客服、金融、风控等领域都能从中受益。然而，这种方式很难量化其价值，尤其是在当前外部市场价格战激烈的情况下。尽管如此，从内部来看，这是一个关键能力，尤其是在安全和效率方面。金融领域尤其需要自己的大模型，因为核心机密信息不可能外传。

另一个就是我们希望能推出一些标志性产品。技术如果能定义一个时代，最终一定会有一个跨时代的产品出现，比如iPhone之于移动互联网。AI时代的标志性产品还在探索中。虽然我们在业内已经有了一定的影响力，但这可能只是早期阶段，真正的大规模颠覆性产品还在路上。

从技术角度来说，技术突破到产品出圈通常需要三到五年时间。比如ChatGPT在2022年出现，而GPT-3是在2020年发布的，达到1750亿参数，其实如果从研究角度来说的话，Transformer在2017年就提出了。像Midjourney是2023年做文生图，其实文生图的早期的学术上的论文的突破其实也是2017、2018年的事了。技术的发展周期性很强，未来可能会更快。大家要放开眼界，未来三五年可能会有新的爆发。

问：对，您当时也提出著名的AttnGAN。

何老师： 对，我们当时也出了一个画鸟的模型是吧？那时候也应该是2017年的工作，2018年发表的，所以周期性确实存在，未来可能会更快，所以鼓励大家放开眼界，现在有什么东西，也许三五年之后会出现爆发。

问：技术的特点就是永远会有新的机会。

何老师： 对，其实你想5年前2018年的时候，当时如日中天的CV四小龙。现在出了新的大模型四小龙是吧，又有新项目了。反正技术永远很难垄断，技术永远在往前滚动，只是说你跟不上，那么别人就会走到前面去了。

问：这个也是AI的魅力所在。

何老师： 是魅力，所以年轻人永远有机会。

问题2：之前邱志杰老师（央美院长）来交流diffusion时，我提了个不成熟的想法，说可以结合Transformer来做。当时何老师也认为这个想法过于简单直接，但后来Sora验证了这种方法在海量数据的加持下确实有效。针对工业界越来越倾向于这种“暴力美学”方法，何老师您怎么看？

何老师： 其实我个人并不反对“暴力美学”。某种意义上，我认为暴力美学确实是一种美学。机器的智能和人类作为生物体的智能发展路径不同。暴力美学的基础逻辑和第一性原理并不是暴力本身，而是当前时代最高效、最廉价的资源。

目前，最便宜的资源是数据和算力。尽管大家经常抱怨数据不够、算力难买，但实际上，这两个资源还是最便宜的。算力按照摩尔定律，每一年半就翻番，成本减半。很少有商品能做到指数级成本下降，而且这种趋势已经持续几十年，未来十年可能还会继续。数据我估计也是基本上按照指数增长的一个东西，相应的它的成本就在指数下降了。

所以你设计的算法和设计模型，如果能够吃下这些资源，那么你的成功的概率会很大。这其实是一种工业思路，与个人的聪明才智关系不大。工业界就是这样看待问题的。

举个例子，现在大家都在用电动车，之前是油车。油车的兴起是因为地球上有大量石油。如果换个星球没有石油，即使发明了油车也无法使用。类似地，电动车的发展是因为技术进步和电池的改进，而不是某个发明者的个人能力。

问：大家会有种担心，这种趋势会不会导致以后算法同学能够做的事情越来越少？

我们需要聚焦在具体的应用和问题上，而泛泛的担心其实没有太大用处。通过具体的应用场景，我们能够展示NLP的强大功能和实际效果。这是我们未来需要继续努力的方向。这种思路也适用于学术界，很多学术问题以前可能没有想到，但在产品的推动下，学术界的动力会更大。因此，我们在工业界，从产品角度反观技术领域，确实能找到很多突破点。

问题3：提到学术，之前我们发表过很多学术论文。但最近有一个趋势，大家似乎不再特别注重论文的发表了。很多先进的工作可能只是以技术报告的形式发布，而不再注重发表成型的论文。对此，何老师您怎么看当今技术论文的价值？

何老师： 其实，论文的最大价值在于传播思想和知识。这也是为什么我们通常更关注论文的创新性，而不是它发表在哪个期刊上。创新性反映了论文的传播和被接受程度，以及它被引用的情况。所以，论文的价值依然存在。不论是通过搜索引擎下载还是通过其他平台，大家还是会去阅读和引用这些论文。

论文在技术界相当于是一个标志，一个里程碑。并不是说内容不重要，而是说有影响力的论文比发表在哪里更重要。真正重要的是论文中蕴含的技术和领先思想，以及它的影响力。比如说，现在我们发布一篇论文，即使只是放在网上，大家也会去阅读和跟进，因为它的影响力确实很大。

当然，顶级会议和期刊的论文也很重要，因为不是每个人都能在这些地方发表。但你会发现，每年在顶级会议如CVPR上发表的论文数量非常多，真正能够脱颖而出的其实并不多。比如说，能够被大量引用的论文，一年可能也就一百篇左右。

这也反映了一个趋势：技术的输出形式不一定非要严格按照传统的投稿流程。技术报告、产品发布等形式也可以是有价值的。如果大家能接受这些形式，它们同样有传播价值。比如，ChatGPT的发布，它就是一个产品，但却迅速被全世界使用和认可。

问：随着学术界跟工业界正变得越来越紧密，边界可能也没那么清晰了。

何老师： 这其实是好事，相当于每个人都可以有机会把自己的最好的想法拿出来，同时接受整个世界的检验。论文本身还是有它专业的一面，就是说你要有特定规范，保证它的严谨性，保证它的可传承性，引用和参考有据可循，这一系列要求是它严谨的地方，跟写篇博客还是不一样，我觉得还是很重要性的。

02 何老师谈AI业务探索

问题1：现在我们团队具备了很多不同的技术方向，如大模型、自然语言处理、语音技术和数字人AIGC等。大家在做单点业务时，可能对整体的感知不是那么强，您怎么看待这种多技术团队的协作？

何老师：其实，我们的能力可能还不够多。任何一个产业，如果要形成一个完整的产业链，它一定是多种能力组合在一起的。比如，手机产业不仅需要通信技术，还需要相机、传感器、定位系统等各种功能的支持。现代工业需要把很多能力组合在一起，才能产生一个完整的产品。

我们应该以产品为导向，反过来看我们需要哪些能力。如果希望我们的工作对社会有影响，往往是以产品的形态呈现的。以产品为牵引，我们可以发现自己在哪些方面还需要提升。例如，早期的语音合成技术只追求自然度，但现在我们需要在不同场景下传递不同的情绪，这就提出了新的技术挑战。

每个团队成员可能只负责一个小块，但从产品角度来看，我们会发现很多新的改进空间。比如，语音合成不仅要让用户听得清楚，还要传递情绪。数字人技术也是如此，需要更加饱满和自然的表达。

从产品角度出发，我们可以发现很多新的问题和挑战，这些问题往往具有学术意义。工业界的需求可以推动学术界的研究，反过来促进技术的进步。因此，我们应该从产品角度反思自己的技术领域，找到更多的突破点。

问题2：何老师，最近数字人“采销东哥”上了热搜，引起了广泛关注。您能否谈谈数字人技术对业务的提升？

何老师：当然可以。实际上，NLP在数字人技术中扮演了非常重要的角色。比如，在“采销东哥”与用户的交互过程中，如何回答问题就涉及到NLP技术。“采销东哥”的成功某种意义上是一个开创性的节点。在此之前，很多公司都在做数字人，但大多数只是展示一个demo，没有特别惊艳的地方。

“采销东哥”在感染力和表现力上达到了一个新的高度，让观众感到非常惊讶和兴奋。比如，在4月16日和18日的几场直播中，观众反馈非常好，大家都没想到数字分身可以如此逼真，各种小动作和表达都非常自然。这让整个业界迅速接受了数字人技术。

为什么这很重要呢？因为我们在人工智能领域经常提到“恐怖谷效应”。当一个机器人或数字人接近95%的人类相似度时，会让人感到不舒服或恐惧。但如果我们能跨过这个恐怖谷，让数字人达到更高的逼真度，人们就会开始接受它，觉得可以正常交流和互动，从而产生商业效应。

“采销东哥”在感染力和表现力上成功跨过了恐怖谷效应。无论是第一场直播还是后续的几场直播，效果都非常好，反馈也很积极。这标志着行业的一个重要里程碑。可能多年以后回头看，这会被视为数字人商业化的一个重要节点。

问：对，“采销东哥”肯定是一个标志性的事件。

何老师：是的，因为有了这个开创性的示范，更多的企业总裁在618期间找到我们，希望也能使用数字人技术。很多总裁愿意为自己的产品带货，但由于时间或语言障碍无法亲自参与。通过数字分身，这些问题得到了很好的解决。在618期间，总裁数字人直播也取得了非常好的效果，带来了巨量的销售额，这说明商家和用户都在迅速接受这种新的形态。

接下来，我们希望与NLP团队一起，进一步提升数字人的自然度和交互能力。不仅仅是简单的问答交互，而是像董宇辉或罗永浩那样，有个性、有幽默感、有文采的深度交互。通过这种更自然、更丰富的互动，我们可以传递情绪、认知，甚至是世界观和人生观。

问：这是一个全新的AI展示方式，作为算法能参与其中也很感到非常激动。

何老师（笑）：好好好，还是靠你们年轻一代把技术一个个来落实。

问题3：何老师，自从“采销东哥”推出后，我也关注了一些数字人相关的技术。现在这一领域非常火热，技术上百花齐放，比如Wav2Lip、NeRF、MuseTalk等，国外数字人公司HeyGen也很受欢迎。您觉得在落地这些技术时，难点主要体现在哪里？

何老师：你提到的这些技术确实代表了当前数字人技术的主要路线。比如，NeRF的出发点是用神经网络重建光场来呈现形象，而其他一些视频生成类的数字人技术则是通过直接渲染，可能中间还涉及三维建模和二维渲染等步骤。

简单来说，现在的技术环境中，各种基础技术都在不断发展。无论是深度学习还是其他技术路线，选择哪一个方向和目标非常重要。比如，通用的计算资源和专用的数字视频生成技术在选择技术路线和实际应用上会有所不同。

数字人技术的难点不仅在于技术本身，还在于如何将这些技术转化为一个综合性的产品体验。学术界可能更关注单一技术的突破，比如声音合成或图像对齐等问题，但在工业界，我们需要从更高的层次来看待这些技术，确保整体体验足够好。

要实现极致的用户体验，我们需要在多个方面做到最好，比如表现力、灵活性、空间关系处理等。同时，还要考虑成本，包括计算成本、带宽成本和渲染时间等。这些都是技术上的挑战，最终需要综合成一个成熟的产品。

问：确实，相比单点技术，产品化带来了更大的挑战，需要兼顾各个层面。

何老师：是的，就像iPhone一样，用户不会只看中某一个功能，而是需要整体的完整体验。在实验室中，单点技术的突破当然重要，但要把这些技术组合成一个成熟的产品，让每个人都能使用，这才是最终的目标。

从产品角度反推技术也是一种有效的方法。比如，设想一个理想的产品，然后思考需要哪些技术来实现它。这样可以更清晰地确定每个技术点的目标。

问：这种从产品到技术的反推是一个很值得学习的思路，所以我们的产品目标一定是更高的。

何老师：比如，我们可以设想一个聊天机器人，它不仅能和你谈论人生观、世界观、价值观，还能深入交流文化背景和思想理念。这种更深度的交流体验是我们应该追求的目标。

问：哪天能做出一个像何老师这样的分身，我今天过来就和分身交流就行了，何老师就去忙别的事情。

何老师（笑）：当然，这也涉及到许多治理和伦理问题，但从技术角度来说，这确实是非常令人激动的方向。智能技术是人类三大终极问题之一，探索智能的本质和来源是一个终极难题。

问题4：何老师，对于言犀团队未来三年，您有什么展望或目标愿景吗？

何老师：言犀团队在过去几年里不断进步，逐渐在行业内树立了良好的声誉，这些成绩都是通过一个个扎实的产品展示出来的。展望未来三年，我希望我们能够真正成为行业内最好的AI团队。我们要通过卓越的产品和技术说话，成为第一和最好的团队。

在AI领域，虽然有很多PR宣传，但我认为真正有价值的地方还是在于基础核心技术。我们需要在这方面拥有独特的技术优势。同时，我们还要推出真正颠覆性或行业引领性的产品。这两个方面是我们团队的立足之本。如果我们能在这两方面做到最好、做到极致，那么我们就能成为行业最顶尖的AI团队。

我们不应把时间浪费在低价值的二次开发或短期的集成项目上，这些只是暂时的泡沫，很快就会消失。我希望团队能聚焦在核心技术和颠覆性产品上，快速迭代，形成强大的技术和产品优势。

03 何老师聊个人发展

问题1：您在微软从事科研工作时，您的工作方式是怎样的？

何老师： 在微软工作时，我们的方式更偏向学术。首先，我们会阅读大量的论文并进行学术交流，然后提出自己的想法并进行实验和分析。完成这些步骤后，我们会与微软的产品团队沟通，看看是否能将这些新技术真正应用到业务中。

举个例子，当年我们开发了一个叫DSSM（深度结构语义模型）的模型。完成后，我们与微软的搜索团队和广告团队进行了沟通，最终成功落地。这是一个从最初的想法到最终应用的完整过程。我们不仅要读论文、参加学术交流，还要进行实验和分析，最后把成果发表，并与微软的各个部门合作，确保这些技术能在工业上实际应用，而不仅仅是发表一篇论文。

问：既要兼顾学术研究，又要注重实际应用。

何老师： 对，正是如此。

问题2：您平时是如何平衡个人工作和生活的呢？有时候感觉很难做到这一点。

何老师： 其实也没有特别的平衡之道。首先，你得对自己做的事情有真正的投入和热情。如果你对工作有兴趣，你就不会太在意这是工作时间还是非工作时间。乔布斯曾说过，不可能每一分钟都热爱自己的工作，但如果你连续三个月都不喜欢自己在做的事情，那么你可能需要考虑换个工作或环境。他的意思是，我们不可能永远只做自己最喜欢的事情，但也不能长时间做自己不喜欢的事情。如果你长时间做自己不喜欢的事情，就需要反思是不是要改变这个环境或者改变自己。

问题3：最后一个小问题，您取得今天这样的成就，过去做的哪些事情或哪些品质对您来说是特别重要的？

何老师： 这可能很难一概而论，因为我的经历也比较多。但我认为有几点很重要。首先，要设定一个高目标并聚焦在真正有影响力的事情上。你可以在事前想象一下这个项目成功后的情景，如果成功后不会让你特别兴奋，那么就不要做了，这样可以筛选掉很多无用的项目。

其次，要有一个志同道合的朋友圈和合作伙伴。在工作过程中肯定会遇到低潮，互相鼓励非常重要，特别是在前沿科技创新领域，它没有一个定式。某种程度像打猎一样，有的人善于发现猎物，有的人枪法好，有的人会看天气。每个人都有不同的特长，互相合作能更好地解决问题。

最后，要关注当前时代的趋势。为什么刚刚说“暴力美学”成功了，因为互联网和半导体的发展，数据成为这个时代最充沛的资源。你选择算法这个项目就最能符合这个时代的趋势，成功的概率会更大。

问：总结起来就是热爱、合作、高目标和关注时代趋势。非常感谢何老师的精彩分享。

致谢

我们非常感谢何老师在百忙之中抽出时间，分享宝贵的经验和见解。同时，也感谢珊姐和海哥的精心组织。此外，感谢此刻仍在南洋理工大学访问的乐主编，对文稿的写作提供了悉心指导和校对，确保了文稿的质量。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业