微信扫码
与创始人交个朋友
我要投稿
如果说现在让AI编程能力实现阶梯式飞跃的大模型本身的「智能」水平——Claude 3.5 Sonnet跨越了那个边界。那另一个影响AI编程实现效果的就是上下文长度。
目前Claude 3.5 Sonnet提供最长200k token的上下文长度,这对对话模型来说是非常充足的,一篇5万、10万字的书籍读完都轻松不在话下,但这对于动辄几十、上百个代码文件,每个代码文件长达数百至上千行的编程项目来说,这样的上下文长度仍然远远不足。再加上现在大模型按输入、输出的token数收费,边际成本不为0。
以上两个特性会引来Cursor、Windsurf等AI编程工具做大量的优化,他们目标如下:
1)尽量准确为你获取任务相关代码,节约上下文长度,以实现多步骤任务的调优,给你提供更好的效果体验;
2)尽量减少读取「不必要」的代码内容,既为了任务调优,也为了节约成本。
在上述的局限和目标条件下,Cursor、Windsurf采取了不同的调优策略提升自己的产品体验。但是这种「调优」往往也是取舍,只是局部的最优解,各自都会牺牲掉部分用户的体验。
所以这篇文章的目的在于,帮助我自己和你去理解他们「调优」的方式和逻辑是如何的?理解这种「调优」的取舍之后,我们更有机会去利用不同产品的优劣势,在不同场景下知道如何切换工具和使用方式,去为我们的任务实现最优解。
甚至,为了验证是真的「读」,还是通过RAG的方式总结的,我在每500行中间随机穿插了一些和内容无关的信息,用于事后确认Cursor、Windsurf读的程度,包括:
Round1:Cursor Composer Normal模式不主动去查找字幕文件进行读取,任务直接失败
Round2:Cursor Composer Agent模式下,找到并读取字幕文件,但只读了250行
Round3:Windsurf Cascade,默认agent模式,找到并读取字幕文件,读了三次,但也只读了600行
Round4:Cursor Compose模式,主动@ 代码文件,Cursor完整读取全部内容,第一次获得全部正确结果;并且通过了后续陷阱问题大海捞针的确认,它是真读了
Round5:Cursor Compose模式,主动@codebase,Cursor大致总结了视频内容,但是后续陷阱问题全都回答错误,我判断是因为这个模式下cursor的多次读取也只是用小模型进行总结,并把总结信息返回到上下文中
Round6:Windsurf Cascade,主动@代码文件,获得的总结依然只有600行文件内容,说明没有完整读取
53AI,企业落地应用大模型首选服务商
产品:大模型应用平台+智能体定制开发+落地咨询服务
承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-09-04
2024-10-30
2024-12-25
2024-09-26
2024-09-03
2024-09-06
2024-10-30
2024-11-23
2024-08-18
2024-11-19