2023年3月15日,在GPT-4震惊世界后,OpenAI的3月17日发表的论文《GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models》对大型语言模型潜在的劳动市场影响做了初步的探讨,给狂欢的人们蒙上了一层乌云。
——越需要高教育、丰富经验才能从事好的职业,工资越高的职业,在大模型时代受到的影响会越大。——越是不需要人类经验积累,不需要后天学习,不需要动脑进行“慢思考”的职业,在大模型时代受到的影响反而越少。又是一年多过去了,大模型和其相关的人工智能产品真的开始替代那些原本只有人类才能涉足的职业了吗?本文使用从2023年1月到2024年4月底的中国所有招聘平台的招聘数据,看劳动力市场的需求结构在这一年来发生了什么改变。先说结论。确实有不小的影响,但似乎是朝着意料之外的方向。
▍想象中大模型对劳动力市场的影响
为了衡量某一个职业的工作是否容易被大模型替代,首先要把每个职业给拆解为若干任务。比如“新闻记者”这个职业的具体工作可以被拆解出如下任务:接下来,由大模型(也可以是人类)对每一项具体任务进行评估——比起之前没有大模型的时候,在大模型和相关人工智能产品的帮助下,以相同质量完成这项任务的所需时间,是否能缩短至少一半?如果某项任务不能通过使用大模型缩短一半以上时间来完成同等质量的工作,那么这项任务便被打分为0,表示不会被暴露在大模型的影响下。如果某项任务可以在通过使用大模型来缩短一半以上的工作时间,这项任务被打分为1,表示会暴露在大模型的影响下。如果某项任务不能直接通过大模型节省工作时间,但可以被一些建立在大模型基础上的应用或者工具节省一半以上的工作时间,这项任务就被打分为0.5,表示暴露率为一半。比如新闻记者的第一项任务“撰写评论、专栏或其他文章”和第二项任务“分析和解读从各种渠道获取的新闻资讯”被划分在“完全暴露”的类别中,打分为1,因为这两项任务可以完全被大模型加速。第四项任务“调研新闻背景资料,确保信息的完整性和准确性”被划分在“一半暴露”的类别中,打分为0.5,因为现在确实已经有不少大模型和搜索引擎结合后,使得事实核查变得更加方便了。“调查重大突发新闻事件”则被划分在“没有暴露”的类别中,打分为0。因为截止到目前为止,大模型的技术和相关人工智能应用还不能直接帮助新闻记者完成事件梳理和调查。
按常理看,越是暴露在大模型影响下的工作任务,就应该更少交给人类来做。因此一个新闻记者的招聘需求似乎应该会有下列的变化:——撰写文章相关的任务,能够用大模型加速完成,完成给定任务所需时间减少,因此该任务在招聘广告中出现的频率应该降低,在该职业的岗位职责中出现的位次也应当变得靠后。——调查事件相关的任务,较难直接被大模型完成,任务完成时间不变。在其他任务完成时长缩短的前提下,这项任务的需求频率会提高,在岗位职责中出现的位次变得更加靠前。——那些由大模型暴露率更高的任务组成的职业,给定任务只需要更少时间就能完成,因此只需要更少人手。在任务总量不变的前提下,不可避免地会出现用工需求减少的现象。也就是 “大模型替代劳动力”。这个结论似乎显而易见。在近两年来,在研究人工智能对劳动力市场影响的文献中,类似的观点也屡见不鲜。许多人们已经开始担心,如果这些高收入且需要复杂知识的任务真的可以被大模型所替代,人类将如何自处?
▍实际上劳动力市场这样回应……
但是,大模型替代劳动力,毕竟只是停留在学术论文和专家猜想中的 “应然”,它到底有没有变成“实然”呢?在为未来忧心忡忡之前,先暂停一下,让我们来看看现实世界是如何回应的。我们使用从2023年初到2024年4月底的五千万条招聘岗位数据,首次回答这样一个问题:被大模型判断为“暴露在大模型替代风险中”的任务,和这些任务组成的对应职业,真的被替代了吗?首先,我们需要将每一个岗位的具体职能和任务进行评分,判断他们到底是不是暴露在大模型替代风险中。然而我们需要处理五千万条招聘岗位,以及从其中划分出的2.3亿条具体的岗位任务,这个数量级的数据,即使用大模型也难以处理。好在O*net数据库和《中国职业大典》已经根据不同职业的工作划分出了2万余条具体的任务,使用sentence-bert句向量嵌入方法,我们将从招聘数据中抽取出的2.3亿条具体的岗位任务,匹配到2万余种标准岗位上,下表就是一个例子,我们将20条具体任务映射到了2种标准任务上。对于每一条具体的任务,都能寻找到和他在句向量空间中最接近的一个标准岗位,2.3亿条岗位任务便降维成了2万条标准任务,也就能使用大模型方便地对它们进行打标和计算了。使用之前文章中提到的打标方法,参考OpenAI的论文(https://arxiv.org/abs/2303.10130)给出的评分标准,我们为每一条标准任务都从不同维度进行了若干次打标计算,用其平均值作为这条标准任务所对应的各种具体岗位任务的大模型暴露程度。比如上表中的“开展市场调研”的暴露评分为0.618,而“研发新产品”的暴露评分为0.628,两者均处于中间位置。所有任务的暴露评分都在0到1之间,也有不少任务的暴露率评分为1,比如"制定规范学生行为的规章制度";还有一些暴露评分为0,比如"对患者进行听力测试"。接下来,计算每一种任务在2023年1季度和2024年2季度时在所有招聘岗位中的占多少比例,并计算两个时间段的比例差异。按之前的分析,随着大模型越来越多地进入实际工作需求中,暴露率越高的任务,在总任务量中的占比应该会下降。但实际情况如下图所示:
上图中,我们将不同的任务按照暴露率(横轴)分为11类,可以看到大模型暴露率最低的那些工作任务,占比下降反而较快。比如“操作焊接设备”、“打磨金属表面”等任务的大模型暴露率非常低,但在所有岗位任务中占比下降较多。
在图表的右边,“编写操作流程文档”、“撰写运营报告”、“根据客户需求,撰写广告文案或宣传推广材料”等,虽然这些任务在大模型的观点中是属于高度暴露,最容易被替代的,他们却出现了不同程度的占比上升。
将任务组合成具体的职业,其结果也没有改变。见下图:上图的每一个点代表一个职业,横轴代表该职业的大模型暴露率,纵轴代表该职业在总招聘中的占比从2023年1季度到2024年2季度的变化。两者之间存在统计上0.1%水平内显著的正相关关系。在上图的最右上角,包括程序员、内容作者、web开发人员、数据库架构师等职业赫然在列,虽然这些职业的任务完成确实能够被大模型加速,但他们的需求仍旧上升了。这种现象在我们控制了职业结构后也是如此。举个例子,“撰写运营报告”等任务,在所有岗位所有任务中的占比提高了,而这可能是因为产业结构的改变,例如制造业占比下降,服务业占比提升,也会导致这项任务的比例出现提升。但在运营经理、数据分析师等职业内部,“撰写运营报告”这一项高度暴露在大模型影响下的任务,其比例也在提高。比如前文提到的新闻记者也出现了类似的变化,虽然在大模型的帮助下,撰写新闻稿件变得更容易,更快了,但撰写新闻稿件的任务频率和排位并没有减少,而是在招聘数据中更加上升了。即使在一个给定的职业内部,能够被大模型替代的任务,也出现了重要性和比例上的提升。“实然”与“应然”完全相反,大模型暴露率越高的任务和职业,不仅没有被替代,反而需求提升了。
▍新的需求,出现在哪里?
为什么大模型暴露率更高的职业,需求反而上升了呢?新的需求到底出现在哪里?在这里,我们给出三项特征事实。事实1:中等规模的企业,暴露率高的职业需求提升更快。将企业分为不同规模,对于每一种规模的企业,计算他们的大模型暴露率对职业和任务占比的影响。可以看到,在所有规模的企业中,暴露率越高的职业,需求提升速度都越快,但是在中等规模的企业中,暴露率高的职业的需求提升速度,比其他企业更高。事实2:暴露率越高的职业,工资下降越快,在中等规模的企业中下降更快。从上图可以看到,从2023年1季度到2024年2季度,大模型暴露率越高的职业,工资下降更快,暴露率和工资变化两者之间同样显著程度达到0.1%的负相关性。上图列出了不同规模企业中,大模型暴露率对这些企业内部的不同职业工资影响。可以看到,在小规模企业和大规模企业中,大模型暴露率和这些企业的不同职业工资并没有显著的关系。但在中等偏大的企业中,暴露率越高的职业,则出现了明显的工资下降,两者之间存在显著的负相关关系。事实3:职业和任务的集中程度,在高暴露率的职业和中等规模的企业中下降最快。在研究结构时,集中度是一项很重要的指标。例如HHI指数(赫芬达尔-赫希曼指数)就是其中一个例子。它的定义是每一类别的份额的平方和,也可以用来计算职业和任务的集中度。某个公司有100个职位,其中工程师有40个,市场人员有30个,销售人员有30个。它的职业集中HHI指数的计算包括三个步骤:1)工程师的份额为0.4,市场和销售的份额均为0.3。2)工程师的份额平方是0.16(0.4的平方),市场和销售的份额平方各是0.09(0.3的平方)。3)将所有职业份额的平方相加,得到HHI指数为0.16 + 0.09 + 0.09 = 0.34。
HHI指数的范围从0到1。值越大,表示公司的职业集中度越高,职业多样性越低。相反,HHI值越低,职业多样性越高。上图显示了从2023年1季度到2024年2季度中,不同规模企业的职业集中度都有所降低,或者说,职业丰富程度都有所提高。其中,中等规模的企业的职业丰富度上升最为明显。上图列出了不同暴露率的职业的具体任务种类的集中程度变化,可以看到,高暴露率的职业的任务集中度正在下降,而低暴露率的职业的任务集中度正在上升。一个原本就不会受到大模型影响的岗位,其工作职责变得更加“专一”。而会受到大模型影响的岗位,其工作职责变得更加“复杂”。以上三个特征事实结合起来说明了什么?我们用一个简单的例子,将它们串联起来。某公司,中等规模,员工300有余。在2023年1季度时,该公司招聘了10个岗位,包括4名市场人员,3名销售人员,3名设计人员。在2024年2季度,该公司招聘了13个岗位(中等规模企业的招聘增加了),包括3名市场人员,3名销售人员,4名设计师,2名程序员,1名内容作者(高暴露率的职位有了更高的需求)。第一,该公司新招的程序员和内容作者,工资要低于同等规模企业类似职业的平均工资(中等规模企业的高暴露率职位工资更低)。第二,这个企业新招聘的程序员,内容作者以及增加招聘的一名设计师,相对于同等规模企业的类似岗位,工作职责会更“杂”。比如原本的程序员只需要编写代码,但在这家公司的程序员还需要和销售人员交流需求,还需要面对客户,他们的任务变得更多了(高暴露率岗位的岗位职责更复杂)。
▍技术进步不只创造枷锁,更创造自由
上面的例子,可以最好地总结在大模型出现的时代,不同的企业到底发生了什么变化。但是,为什么会有这样的变化?为什么这些变化更多地出现在中等企业?从三十年前刚刚接触互联网时起,作者就想有一个个人网站。但是做个人网站,需要好多知识和技术储备。要有域名,要有服务器,要会相关的编程。直到今年年初,Anthropic发布了Claude 3模型,作者突发奇想,利用Claude 3模型,轻而易举地创造好了自己的个人网站。从购买域名,架设服务器,到各种前端后端的编程,甚至还加入了创建用户、密码登录、费用计算的功能……这一切,只花了几个小时。之前搁置许久的计划,在大模型的帮助下,就这样完成了。
从想法的产生,到想法的实现,这条长路,一直以来都很难走。需要找到每个环节的专业人才,进行复杂分工,投入大量时间和金钱……成本难以估量。对于大企业来说,这些可能不算什么。他们有人员充足,现金流充沛,团队是现成的,分工是明确的,进可攻退可守,因此可以充分尊重新的想法,探索新的可能。
但对于中小企业来说,探索是一件风险很高的事情。他们的现金流有限,没有备份团队,市场不确定程度高,更没有那么多资源和后路。一次尝试,可能就关系到企业生死存亡。对他们来说,也许放弃创新,紧紧跟随,外部购买,才是最好的模式。但是,大模型却降低了探寻和试错的成本,将实现想法的路径,大幅缩短了。在大模型的帮助下,想要实现想法,形成产品雏形,不需要团队面面俱到,只需要对基本概念有所了解;不需要一开始就进行复杂分工,给每个人分配详细的任务,而是在大模型的沙盒内,不断对话、调用、评估,并且根据模型的反馈来调整路径,走向正确的方向。在大模型的帮助下,创新和尝试不再专属于大企业。中小企业,实现想法也变得更容易了,他们在跟随之余,开始尝试,因此出现了新的劳动力需求。——这些新的需求从事那些暴露率更高的岗位,因为这样才能得到大模型更多的帮助。——这些需求需要完成更复杂的任务,因为每个人需要完成更多流程,去做更综合的工作。
——这些需求的工资并没有同等规模企业类似岗位的工资那么高,因为这个需求原本在这个企业内部并不存在,使用大模型降低了成本,项目才顺利诞生。——此外,大模型在各类技术上的掌握熟练度日益提高,也确实使这类岗位的工资降低了。从18世纪的工业革命开始,所有的技术进步浪潮,几乎都使得大规模生产和分工变得更加有利可图。个人手工被作坊替代,作坊被工厂冲垮,工厂又被能够在全世界攫取最便宜资源和最优惠价格的跨国企业打败。但在这个过程中,所有参与其中的人似乎也被套上了无形的枷锁,越来越局限于自己的职责,仿佛变成了流水线上一颗合格的螺丝钉,只是为了保障企业这台机器更加顺畅地运转。而大模型,正是对于该逻辑的一次挑战。原本规模和分工在创新方面的优势被蚕食,取而代之的是,一旦出现想法便立刻开始行动的“个人英雄主义”。人们可以脱离巨型企业组织,变得更为原子化,并重新将目标放在整体目标和架构上,而非迷失在各种技术细节中。人类不仅没有被替代,而是更被需要。大模型可以回答千千万万的问题,但要记住,提出第一个问题的,是人类。当技术细节和分工可以被大模型接管时,人类的自主性更加提高了,而非降低了。这,正是大模型对于劳动力市场,甚至对于生产关系来说,最为深刻的改变。