我要投稿

微软首次公开"Copilot宇宙"，要用AI爆改人类工作流，Altman称新模型即将上线

发布日期：2024-05-23 07:46:55 浏览次数： 2114 作者：智能涌现

文｜陈斯达李苗

编辑｜李然

封面来源｜视频截图

如果说Build 开发者大会前发布的Copilot+ PC，是为大众消费者准备的开胃菜，那么大会本身发布的系列产品，则是给所有开发者端上的主菜。

当地时间5月21日，微软 Build 2024 开发者大会召开。微软 CEO Satya Nadella 问道，能不能让计算机理解我们，而不是我们去理解计算机？基于如此庞大的数据，计算机能不能帮助我们更高效地推理、计划、行动？

为了实现这两个目标，微软的雄心在此显现——让Windows成为最适合AI开发的平台。

硬件方面，除了Copilot+PC之外，微软还针对开发者推出了适用于Windows的Snapdragon开发套件，为开发人员提供所需的优秀性能。

软件方面，借助Windows Copilot Runtime，Microsoft Copilot 堆栈被扩展到 Windows。Windows Copilot Runtime 包含的 Windows Copilot Library 中，有Windows自带的40多个端侧模型及API。

40多个模型之一的Phi-Silica，专为Copilot+ PC 中的神经处理单元 (NPU) 设计，下月开售的Copilot+ PC都会内置。它仅有 33 亿个参数，微软称其为小模型里的SOTA。

而借助人工智能框架和工具链，开发人员可将前述端侧模型引入Windows。

通过DirectML，微软在 Windows 上引入对 PyTorch 的本机支持，数千个 Hugging Face 模型得以在 Windows 上运行；将 Web 神经网络 (WebNN) 开发者预览版，也被引入 Windows。Web 开发人员能利用芯片能力在其 Web 应用程序中提供高性能的 AI 功能，并在 Windows 生态系统中扩展 AI 方面的投入。

而在大会的尾声，Sam Altman也登场为微软站台，预告了OpenAI新的模型不久后将会放出，这也代表着微软基于OpenAI模型建立的产品性能又会有大幅提升。坐实了微软已经成为OpenAI的IT部门的说法

Altman还再次声称，在他看来，AI可能是一个互联网级别的机会，号召开发者们不要再等待了，赶快投入到AI应用的开发中来。

Copilot全家桶，成为微软AI时代的拳头产品

作为最重要的事情，微软在Build开发者大会上首先着重介绍了Windows Copilot Runtime。

微软称“希望将突破性人工智能体验民主化”。因此 Windows 若想成为最开放的 AI 开发平台，不仅仅需要新的芯片或模型，还需要将整个系统从上到下重新构想。

而新的 Windows Copilot Runtime 正是这个系统。开发人员可以通过多种方式运行Windows Copilot 运行，既可以通过简单设置切换访问的更高级别 API，也可以引入自己的机器学习模型。

事实上，关于Copilot各类酷炫的实时应用功能，在前一天的Copliot+ PC发布里提到了。如果说之前的剧透更多的是针对轻量化的个人使用场景，Build大会上发布的内容就更“硬核”，它不仅可以成为企业里每个员工的助理，同时也是统筹经理。

Team Copilot

团队版Team Copilot将Copilot for Microsoft 365 从幕后个人 AI 助手“拉入群聊”，变成团队中能干的同事。Team Copilot可以在 Teams、Loop、Planner 软件里调用，它的身份可以是：

会议主持人：Copilot 可以管理会议议程，以及参与合作撰写在线文档，使会议讨论更加富有成效。
群组协作者：Copilot 会帮助个人从聊天中获得更多信息、高亮最重要的信息、跟踪操作项目并解决未解决的问题。
项目经理：Copilot 可以创建和分配任务、跟踪截止日期以及在需要支持时通知团队成员，确保每个项目顺利进行。

这样一来，帮忙抢会议室和做会议记录的活儿就不用丢给实习生做了。

Microsoft Copilot Studio

微软构建了Copilot Studio，开发人员可以构建主动响应数据和事件、针对特定任务和功能量身定制的Copilot 。通过利用记忆和背景知识、对操作和输入进行推理、根据用户反馈进行学习并在遇到他们不熟悉的情况时寻求帮助来独立管理复杂、长期运行的业务流程。

Copilot Extention 让用户可以将新数据源和应用程序链接到 Microsoft Copilot 连接到来增强 Microsoft Copilot，扩展其功能。

Copilot Agent

Microsoft Copilot Studio中的新功能可以让用户自定义Copilot Agent，这个智能体有如下功能：

对长期稳定运行的业务流程完成自动化流程。
对操作和用户输入进行推理。
利用记忆功能带入上下文。
根据用户反馈进行自主学习。
记录异常请求并寻求帮助。

在扩展中提到的GitHub Copilot简直是程序员的福音。在传统的工作流中，代码工作者要花费大量的时间和精力定位Bug，反复在多个平台和版本中切换。

然而，GitHub Copilot作为微软推出的扩展功能之一，可以利用自然语言交互来提高开发速度。

你可以直接将需求“讲”给Copilot听，它就会真的变成一台会自己写代码的成熟电脑。

通过 Copilot Chat 使用扩展功能，开发人员可以对 Azure 资源进行搜索和管理，还可以排除故障、查找相关日志和代码。

GitHub Copilot像是给每个程序员配了一个熟手助理：你只需要关注代码本身，其他事情可以交给你的同事。这位同事对流程和资源了如指掌，你跟他提需求他就会帮你整合工作流，帮你在多平台信息中切换并且调用必要的工具，如果你遇到问题，他可以实时帮你解答。

最重要的是，这位“高手”没有下班时间、不会觉得疲倦、不会不耐烦，也不会嫌弃你笨。

Phi-3小模型家族迎多模态，GPT-4o登陆Azure

OpenAI才发布的GPT-4o，Azure AI Studio这边已经能用了（API也可用）。不过比起GPT-4o，微软自家的小模型，才是更加亮眼的新品。

4月23日时，微软就已经推出开源轻量级AI模型Phi-3系列。本次会上，纳德拉揭晓Phi-3系列的后3款新品，继续宣告微软“在小模型领域的领先地位”。

新成员加入Phi-3系列，包括Phi-3 Vision、Phi-3 Small 7B、Phi-3 Medium 14B，目前都能在Azure上使用。加上之前的Phi-3-mini，Phi家族在Hugging Face上也都发布了。

官网称，Phi-3已经是现有功能最强大、最具成本效益的小语言模型，在各种语言、推理、编码和数学基准测试中，都优于相同大小甚至更高大小的模型。

最值得关注的是Phi-3首个多模态模型——4.2B参数大小的Phi-3-Vision。比起Claude-3 Haiku、Gemini 1.0 Pro V、GPT-4V-Turbo等模型，作为小模型的Phi-3-vision在多项基准测试上都毫不逊色。

基于Phi-3-Vision，用户能输入图像和文本获取响应。既可以针对图表提问，也能针对特定图像提出开放式问题。

会场屏幕上，给Phi-3-Vision一张不同年龄段人群AI工具使用的图表，就能得到详尽的解析。不过，在分析图像外，Phi-3-vision尚不能生成图像。

Phi-3-small和Phi-3-medium也表现不凡。

‍

加上最新发布的几款，Phi-3家族成员来到4位，包括：

Phi-3-vision：4.2B 参数多模态模型，兼具语言和视觉功能。
Phi-3-mini：3.8B 参数语言模型，有128K 和 4K两种上下文长度。
Phi-3-small：7B 参数语言模型，有128K 和 8K两种上下文长度。
Phi-3-medium：14B 参数语言模型，有128K 和 4K两种上下文长度。

看上去微软是要把自家小模型“捧上天”，但网友貌似反应比较冷静：

有人觉得对Phi模型的期望千万不能太高，因为Phi模型的基准测试结果虽好，但实际使用又得拉垮。

有人直接质疑小模型的实现方式，“只有把大部分多语言数据移除或者专注于非编程任务，我才相信小模型是可能的。”

Altman现身大会，鼓励开发者紧跟变革期

出人意料的是，OpenAI 首席执行官 Sam Altman 也现身大会，与微软CTO Kevin Scott 交谈。

Altman 表示，OpenAI 重视开发人员所做的工作，一直有意构建便于开发者使用的API。

Scott 希望 Altman 向大家透露一些OpenAI接下来的动作，或者有什么需要重视的东西，但正如在播客中那样，Altman并没有实质性透露。他说，最重要的事情或许比较无聊——“模型未来将变得全面智能”。

Altman向开发者们指出，现在应该是自互联网时代以来，平台变革的新时期，开发者们要抓紧机会。“这是一个特殊的时期，要充分利用它……不应该推迟现在的计划。“不过，他强调，虽然技术门槛降低，但伟大的产品仍需要付出努力，AI技术只是工具。

Scott在Altman上台前也表示，微软正与合作伙伴正在花费大量资金和资源来构建出色的人工智能平台。

作为回顾，他将最初给OpenAI训练GPT- 3打造的超算系统比作大白鲨，到 GPT-4 时的体量到了虎鲸大小，而现在的部署规模，就仿若巨型蓝鲸了。在规模效应下，未来的发展让人憧憬。

“AI程序员”Devin找到工作，从开源社区引入更多模型

微软还一口气与不少公司宣布了合作。

Cognition AI

还记得3月超火的“AI程序员”Devin吗？（见智能涌现文章 AI独角兽融资太快，投资人开始反思）

微软也要和Devin背后的人工智能初创企业Cognition AI合作，向客户提供自主 AI 软件代理 Devin。作为协议的一部分，微软智能云 Azure 将为 Devin 提供支持。

有网友说，我们的“AI程序员”总算找到靠谱工作了。

之前半信半疑的吃瓜群众也震惊了：Devin不是骗人的吗？微软居然真和Devin合作了？

Hugging Face

微软与开源社区Hugging Face的合作，开放模型和开源模型用起来更加容易了。

Azure 用户能用的模型更多了。2023年，Azure的模型目录里就已经有 Hugging Face 系列。自最新合作后，一些受欢迎的开放大语言模型，也将被添加到Azure里的Hugging Face 系列中，用户得以实现在 Azure AI Studio 中一键部署。

新添加的模型包括 Meta 的 Llama 3、Mistral AI 的 Mistral 7B、Cohere for AI 的 Command R Plus、阿里通义千问的 Qwen 1.5 110B 以及 Open LLM 排行榜上性能最高的一些微调模型

目前，基于最新 AMD Instinct MI300 GPU 的 Azure ND MI300X 虚拟机，已经可以在Azure上使用。此次，Hugging Face 又与 AMD 和 Microsoft 合作，为Hugging Face的模型带来惊人性能与性价比。

其他合作还涵盖Phi-3 系列小模型的开源与应用。Hugging Face还在 Hugging Chat 中部署了 Phi-3 mini。让普通用户也能免费与优秀的开放模型展开对话。

可汗学院

微软也与教育辅导机构可汗学院（Khan Academy）合作。

可汗学院是一所非营利教育机构，孟加拉裔美国人、麻省理工学院及哈佛大学商学院的萨尔曼·可汗在2006年创立。可汗学院主打教育普惠，在网上发布了很多教材、教学视频。

这一次，微软也将协助可汗学院，为美国所有 K-12 教育者免费提供AI助手 Khanmigo for Teachers，让老师有更多时间专注与学生的交流。

可汗学院也将借助微软最新的 Phi-3 小模型，探索以经济实惠、可扩展、适应性强的方式专注于改进数学辅导。

可汗学院还计划将更多可汗学院自身的教学内容，引入 Copilot 和 Microsoft Teams 教育版，提供更多学习资源。

网友期待这样的教育福利能让世界上更多人用上。

有印度网友已经等不及，这好东西啥时候能给印度人也用一用啊。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业