推荐语
这是作者关于 2024 年 AI 学习的总结,分享高效方法论,值得一看!核心内容:1. 作者 2024 年在 AI 领域的探索经历2. 主流 LLM 人工智能的学习路径3. 对 AI 应用现象的思考
杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
到年底大家开始纷纷发总结了,然后我也看了看,感觉今年一直在忙活,但好像也没搞出什么像样的作品或者项目来。今年依然没有扎进任何一个细分赛道,还是在外围摸索观望,从基座层到应用层跑了个遍。比较多的时间浪费在了基础学科(数学和物理)上面,学了一些底层的算法,用来处理一些简单的分析预测类任务,也实时盯着大模型性能的进展;其次上半年玩了一阵AI音乐,觉得还挺有意思的,下半年就弃坑转去学传统乐理了,纯当个爱好;然后就是学习一些系统开发类的知识(虽然现在的工作也没什么毛用,当个技能储备)今年的学习项目都开源在社区知识库上面,前前后后大概写了毛30篇文章,不过算法层相关的东西会比较枯燥,有兴趣可以随便看看。https://waytoagi.feishu.cn/wiki/Z8ATwrzCbi7L1jk5h4IcSng5nBb今年AI的关注度明显变高了,很多周围的朋友都知道了kimi和豆包,说明投广告还是挺有用的。但很多反馈下来觉得AI挺有意思,但并没有传说中吹的那么强,有的时候说的还是错的。这其实是个很好的现象,说明大家在运用的时候,不会像看短视频一样无脑吸收了,而是用审视的眼光去看待新工具,这是链式思维(CoT)中非常重要的一环。因为没有作品可以晒,就大概说说目前主流的LLM人工智能的学习路径吧,可能不一定是最好的,但基本亲测高效。按照我自己目前的学习进度来看,从开始入门到深入各大细分赛道,基本上是不需要去买任何付费课程的。(今年例外因为想学全栈开发,买了idoubi的开发课程,当然这个和AI本身没有直接的关系,当是一个延展平台来看)
现在大部分人说的AI,本质上都叫做“生成式人工智能” Generative AI (GAI),那么AI生成的内容理所当然就叫做AIGC (AI Generated Content),好像只有国内这么叫。所以如果从0开始学习AI,只要记住“生成”两个字就可以了。什么Transformer,BP,RAG,RNN,Diffusion,暂时都和我们没有关系。接下来,随便找一个国产AI(其实国产AI的基础性能做的并不差,可以解决日常的很多问题),然后随便聊点什么,比如小学奥数题,写一篇演讲稿,怎么看待996的牛马生活......看看AI擅长什么,不擅长什么,有没有地方能帮到你,有哪些地方做的其实不够好。不用一开始带着太强的目的性,这样会限制我们提问的开放程度,就把它当作天猫精灵来玩就行了。在聊了一段时间之后,每个人会有自己觉得更顺手的应用,留下来1-2个增加使用深度就可以了。当然如果条件足够,我们也可以直接氪ChatGPT或者Claude,之后在处理一些复杂的任务时会省力一些。
上面的第一步,也就是大部分朋友已经经历过的,基本都会碰到同样的问题:AI并不好用,很多时候都在瞎扯淡,给出的东西根本就不能用,这个时候我们就可以开始最基础的入门了。“Prompt Engineering” 提示词工程是一切生成式AI的基础,不管你是用来学习,写作,绘画,编程,甚至玩音乐,提示词都应该是最前置的知识点。这个东西乍一看是个很高大上的东西,但其实并不难理解。Prompt(提示词)字面意思就是,给AI适当的提示,就可以让AI产生效率更高的对话。这个和人是一个道理,如果你跟随便一个人说:“帮我写一个xxx品牌的营销方案”,对面一定表面或者心里面会骂你是个傻x。但如果你告诉对方,这个品牌现在处于xxx的阶段,我们的下一步目标是提升xxx,主要产品是xxx,通常在xxx渠道卖,但是有一个别的牌子xxx经常来抢我的生意,我得想一个办法,那么对面的人不管懂不懂,一定会有更多的思考成分,而不是简单的骂你傻x。下面是一些比较装逼的说法,如果用来卖课很适合拿来忽悠。告诉AI它需要扮演的身份。比如我想要AI推荐一份减肥食谱,就告诉AI,你现在是一个私人健身教练/营养师;如果要用来写小红书推文,就是一个小红书xx板块博主。这种简单的提示,我们可以认为是提升AI的”职业素养“,让它有身为牛马的自我意识。我们所有的对话都是带有目的性的,这个不难理解,但很多时候我们可能会忽略交代目标背后的逻辑。比如我为什么要减肥,我做小红书是为了塑造一个什么样的人设之类。尽量把完整的思考过程说出来。目标本身的描述也可以具体,我希望达到一个什么结果,不希望做成什么样子,都可以说出来。通常在处理相对复杂的问题时,我们会有解决问题的一个工作流(这个概念也很重要,以后经常会考),先做什么,后做什么,最终一步步达到我的目标。这里我们也可以告诉AI,我们的工作流是什么。举个例子,在写一份品牌策划案的时候,我们可能会分析行业宏观趋势 →品牌定位 → 机会分析 → 策略推导,这个流程可以给到AI明确的指示,用于遵循我们期望的步骤来达到接近理想的效果,而不是一开始就跑偏了。当然我们的工作流并不一定是最好的,这个过程也可以和AI讨论优化的可能性。这也是一个非常高效简便的方法。我们所有的大模型是学习了各种语言模式的。因此当我们提供了一个语言输出的模板,它会更容易判断我们期望哪种沟通方式。举一个社区里我最喜欢的虚拟角色”老王“的提示词,就会在提示词里运用大量的例子来引导AI的回复方式(最近老王因为讲脏话被封了,只是做个举例~)Prompt的本质是用编程语言的结构 + 自然语言的内容打造AI指令,让AI可以像理解程序一样理解人类的指令。Prompt比较友好易懂的就是Markdown的结构化语言格式。这个非常容易理解,只要养成习惯就可以。举个例子,我们在写一个流程的时候,通常的写作习惯是:
问题:把大象装进冰箱里要几步?
答案需要三步:1. 把冰箱门打开;2.把大象塞进冰箱里;3.把冰箱门关上。
#答案:需要三步
## 把冰箱门打开
## 把大象塞进冰箱里
## 把冰箱门关上
这里的#代表了一个层级,#代表一级类目,##代表#下面的子类目。这样所有prompt的执行顺序就有了很明确的划分。如果你想要用AI帮你写PPT,这个语言格式会非常实用。掌握了上面的沟通技巧,AI的输出质量会有本质的提升,我们自己在提供信息的时候也会不自觉的去思考更多的信息维度,让问题的表达更全面,更具备逻辑性。然后就可以尝试一些更有意思的事情了。比如:AI导师:尝试学习一门完全陌生的学科。(我这两年大部分使用时间都在干这个...除了学习PS,PR,Blender,DAW这些实用工具,也可以摸高等数学,量子物理这些变态学科了)AI导演:从故事脚本,分镜规划,分镜提示词的一系列完整输出。(对视频方向感兴趣的同学可以深入尝试,今年AI视频的赛道非常火)同理可以演变成AI诗人,AI作词人,AI小说家等类似的角色。AI哲学家:最出名的应该就是李继刚的prompt了,结合SVG可以生成非常精良的提示词卡片。大家有兴趣可以搜李继刚同名的公众号。
前面提到了,生成式AI的本质是”生成“,除了生成文字之外,图片,声音,视频,智能体,编程应用,3D模型,或者就是单纯的提示词,都可以作为细分赛道去深耕。(应该不大有人会跟我一样天天肝数学题...当然上面这些赛道我都会涉及到一些,有问题欢迎找我聊)这个看每个人的需求和兴趣,可以自行探索。有了扎实的提示词功底,进入任何一个细分赛道都不会很困难。然后就是借助AI工具,线上的信息源以及大量实践去建立适合自己的方法论了。可能在这个过程里,AI并不是最核心的,只扮演工作流当中的一环。举个例子,比如我们想深入AI视频的制作(因为政策原因,今年的单子很多)。那么一开始入门,可以从一些简单的创作开始。比如生成一些零散的视频片段或者图片进行混剪,尝试选用一些现成的音乐,根据节奏进行简单的剪辑(顺道学一学主流的创意软件操作)。这个视频是前几天跑着玩的,用了Midjourney的生图画出穿羽绒服的皮卡丘,用Google的Whisk把皮卡丘和外滩实景图融合,PS把Logo P在了手臂上,用即梦画了个圣诞帽,最后拿可灵的1.6模型生成了视频。在成功产出一些简单的作品以后,再去尝试去完成一个更完整的工作流:选题 → 剧本 → 分镜描述 → 文生图 → 图生视频 → 配音配乐 → 剪辑后期。 这里面会涉及很多方面的知识,比如怎么根据选题出一个好的本子,有了本子以后怎么去安排故事节奏和分镜,什么样的运镜手法更适合比表达这个故事,哪些音乐类型更适合这个故事的题材,都是AI工具之外可以学到的东西。另外今年也发现,由于视频,图像包括音乐生成仍然有很大的随机性,这个时候很多同学都会选择不断尝试随机生成(业内称”抽卡“)去抽取自己想要的资源,但其实抽卡是个很低效的过程,会耗费大量的时间和资源成本。这个时候如果有一些AI外的技能,比如PS,AE或者DAW,也是可以提升工作效率的。所以入了AI坑以后,也未必一定要在每个环节都执着在AI的坑里,在哪个领域学习都是一样的。
在成功尝试了一些项目以后,或者成功利用AI工具改善了现有的工作流以后,基本上都会自然产生继续优化工作流的想法。可能是质量层面的,也可能是效率层面的。这个时候就可以尝试更多开发工具去搭建更适合自己的工作流了。比如字节的低代码Coze平台,视觉类的ComfyUI,可以针对自己的需求搭建更加高效和定制的工作流。因为大模型的多模态能力,我们可以在多个模型的任务之间实现高效穿插(比如提取一个视频的声音,转换成文字,形成文本总结,再根据这个文本给它配个图),来实现一些更有趣的任务。也可以选择高代码平台,比如传统的vscode或者cursor,更高效打造一些更具备实用性的应用。Prompt的训练其实一定程度已经让我们具备了代码的框架思维,这个时候上手高代码也会比以前要容易理解很多。(这块我其实也不是很熟练,只能写一些简单的脚本,还搭不了比较复杂的全栈项目,明年继续努力)
基本上看到这步,应该不会再问”应该怎么用AI”之类的问题了,对个人而言其实开发潜力还是很大的。今年社区里有很多人会问:“针对我们普通人,有没有什么更方便的解决方案?” 希望明年的这个时候,周围没有人再觉得自己是个普通人。最后2024最后一天,还是照惯例发个红包封面(之前被吐槽这个封面的风格太性冷淡,不过蛇年还是想搞个比较贴靠的IP,大家随意哈哈),祝大家新年快乐~