从微观的数据层面,在理解应用数据与模型能力的关系后,我们应该更科学和客观地看待模型应用数据的开发和治理。从治理侧看,一是对应用数据要在认识上“祛魅”,不要过于神化其价值。海量的用户使用数据大部分是底层数据,用于训练模型还需要人类加工、提炼成为知识类语料,且最终的效果还存在诸多不确定性。它们对模型自身能力提升并不起决定作用,不存在应用数据的飞轮。二是对应用数据的提炼和转化,要相信市场的力量。将应用数据转化成模型训练语料,本质是不同模型厂商结合各自对产业的理解和技术的判断,利用不同方法探索应用数据的最佳利用方式,从而优化自身模型性能的过程。在这种没有成功先例可循、具有专业性和需要试错迭代的领域,基于市场优胜劣汰可以更高效的判断好坏、配置资源。在应用数据的开发侧,要结合模型的应用场景与所需的数据类型,更巧妙地设计软件和硬件。以具身智能场景为例,“插、拉、拧、拔、推”是机器人的关键动作,由此决定了训练数据需要“力量-空间位置”混合的数据类型。而对相关应用数据的获取可以分为两个阶段:一种是由较低成本方式(传感器生成和采集)获取的,规模大但质量一般的数据用于预训练,另一种是由较高成本方式(人类带外骨骼收集)获取的,数量少但精度高的数据做对齐训练。
从中观的产业视角看模型应用的发展,本质上是模型在不同行业生产Token(模型理解和生成的最小数据单元)能力不断提升的过程。正如黄仁勋所说:Token可以是单词、图像、图表、表格,甚至是歌曲、文字、语音和视频,可以代表任何具有明确价值的事物。这种生成式AI的崛起意味着人类可以学习并模拟物理现象,让大模型理解并生成物理世界的各种现象。而模型在应用领域的拓展,就是为越来越多有价值的事物生产Token,无论是蛋白质、基因、天气模式,还是汽车的转向盘控制、机械臂的关节运动等等。符合Token视角的数据利用模型,需要我们通过新的技术方法和商业模式的设计,把各个领域沉淀的数据更好利用起来,让更多领域知识先以Token的方式被模型学习和理解,进而再由模型生成更多有价值的新Token。
从宏观视角看模型对数据的利用方式,我们发现大模型是数据释放价值的最短路径。根据经典的DIKW金字塔理论,数据发挥价值的路径是从原始数据(Data-D)形态出发,通过对原始素材类数据进行格式化组织和分析,将其转化为人类可以理解的信息(Information-I),从信息中获得见解进而形成知识(Knowledge-K),再由知识升华为更加抽象的智慧形态(Wisdom-W)。决策式人工智能时代,数据要素发挥价值的路径需要从D逐层到W,而通常在D和I之间的转化就需要耗费大量的中间过程才能完成。而大模型在训练时的语料就已经以K层为主,输出的内容大多也直接从K层起步,极大缩减了中间的转化过程,最大程度提升了数据的使用效率。可见,数据发挥价值的机制正在随着技术的发展而不断演化。