AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


刚刚,Claude帮我“雇佣”了一个超级“助理”,叫做Sonnet3.5
发布日期:2024-07-02 08:10:18 浏览次数: 2135 来源:道明AI实验室


过去一段时间更新少了,一方面是因为工作原因,另一方面也是因为在即将进入2024年下半年时,似乎将各种模型引入到工作中,重新优化流程和工具的时机已经成熟,大量的时间就消耗在了“头脑风暴”和试验上了(又试了不下几十种工具与方案,有时间,可以逐项分享)。

在这个过程中,大概可以确定的是三件事情:1、模型会越来越强大,需要的只是等待;2、自身对业务的理解和数据(知识库)是最宝贵的资源;3、我们需要的工具可能都是从一张白板(whiteboard)开始。

所以,当自己进入到“案头工作”的周期时,我开始尝试从白板开始拼积木,一个最新的weekend project就是:将屏幕的控制权交给模型,给模型一个“在白板上画出叫做'test'的框”的指令,让模型操作鼠标,在叫做tldraw的白板工具上完成。

实际的效果,就是如下一小段动图。

是的,这样简单的操作,人就可以做,但是,如果我们考虑的是在下一个时代的工作方式,去突破在这个时代面临的严重的“时间消耗在低水平重复工作”的瓶颈的话,这样的开始,是我过去一年多里不断思考推演,终于“说服”自己的方式。


白板,就意味着一切是从零开始建设的,但是这种“零”的背后,却是拥有难以想象的知识的大模型,和自身过去多年积累的数据与知识库。

所以,一旦开始构建,可能在非常短的时间里就能达到甚至突破之前的天花板,这个“短”的时间,可能是以‘天’计,甚至以‘小时’计的。

在模型的基础上,大概有两种构建方式:一种是模拟人的操作;一种是通过生成大量的代码。

前一种,类似于我上面小尝试的方式,巧合的是,第二种,在前天,Claude推出的Sonnet3.5模型中,给出了一个相比以前所有代码生成方案里完整得多的多的解决方案,叫做Artifacts。


如果微软一直宣传的‘Copilot’,依然存在大量‘不友好’的交互方式的话,那么无论是模拟人的操作,还是Claude这种Artifacts的功能,都提供了一种完全友好自然的可见即可得的体验。

我们一定会喜欢它,正如当初很多人喜欢ChatGPT一样。

对于我而言,等于Claude给我雇佣了一个超级‘助理’。

我在本篇文章里要做的就是,展示如何利用大约十分钟的时间,完成一个设想的‘原油供求分析’的路演PPT(不好意思,我刚刚退订了微软的Copilot+服务,因为被秒了)。

Sonnet3.5前天一出来,就刷屏了,几乎所有的声音都是“秒杀GPT-4o”,甚至有人喊出了“AGI”。是的,足够强的思考能力,足够稳定准确的代码生成能力,配合可见即可得的Artifacts,这些评论并不为过。

我们开始,我会将自己的交互过程分成四个步骤,录了四段视频,全部加起来九分钟,没有任何加速,意味着,我从开始到生成最后的结果,时间是不到十分钟。

1、常规操作,生成一个思维导图。

其实,在这之前Kimi已经能够支持这种基于mermaid.js的思维导图的可见即可得功能了,只是:1、因为模型能力的差距,分析的点会明显的少;2、在技术框架下,渲染功能的通用性还是有差距的。

上面只是常规操作,因为正如以上分析,几乎所有的主流模型都可以支持“无中生有”的思维导图生成,kimi可以实时显示出图来(所以,如果说Claude的Artifacts‘抄袭’了kimi,似乎也有道理)。

2、但是,我们希望它能加入数据,因为一个分析,是基于数据的。

第一次时候,生成的代码有错漏,导致页面显示不正常,但是再检查一遍,再生成后,就正确了。这种交互,反而觉得模型更像‘人’了。

当然,因为它并没有去搜索最新数据,所以很多数据在现在这个时点,是‘错误’的。

所以,我提出了一个新的要求:更改一下某一个数据,比如美国的原油产量数据。

它理解,并做到了,这种理解力和代码生成的稳定性,是来自模型原生的能力。也许,时代真的如之前预期的一样,在2024年夏天,变了。

3、有了思维导图,我想让它生成一个ppt,并画出相应图表。

第一次生成的更像一篇文档,虽然画出了图表,但是我更想要的是可以分页的ppt,所以,又让它修改了一下,它如实的完成了。字体,图表样式,数据都没有变化,再次展现了足够稳定的代码能力。

4、可是,这还不太够,配色还显得不够专业,字体也不标准,另外,希望加入一些结论。

当然,再次如实的理解了意图,调整了配色,修改了字体。也加入了结论,只是第一次生成时,返回的token数量受到限制,所以页面不能正常显示,第二次,让它精简一下,结果很顺利。

最终,得到了如下的几页PPT。


我的结论:



  • 虽然自媒体已经铺天盖地各种基于Sonnet3.5的Artifacts的花样玩法,最多的就是生成一些小游戏,我当然不认为我们需要生成小游戏给自己玩,但是,我相信,生成直接跟生产力相关的内容是妥妥的刚需(我还尝试生成了一些便于解释的动画效果,时间和篇幅关系,就不给出了);

  • 虽然‘雇佣了超级助理’的说法有点夸张,但是,只要自己愿意花时间磨合,效果一定还会超出现在许多;

  • 我们看到,模型就是会快速的越变越好,这种速度远超我们个人的进步速度,个人的价值在哪里?我想可能是深度思考与知识库积累;

  • 可以取代我团队同事吗?显然不可以,但这只是因为我们在过去三四年的时间里已经通过各种模型和技术支撑,极大的拓展了每一个人的边界与输出能力,对工具的理解和基于知识库的产出,并不是现在的模型可以挑战的,但是如果两三年甚至三五年后呢?

  • 我们还需要什么:基于工具与模型的新工作流;私有化部署的解决方案;数据与知识库的无缝对接。

  • 我相信,我们如今面对的问题,也是各种AI生成端落地面临的问题。


53AI,企业落地应用大模型首选服务商

产品:大模型应用平台+智能体定制开发+落地咨询服务

承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

与创始人交个朋友

回到顶部

 
扫码咨询