AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


再聊大模型与智能硬件的创新融合|Z 沙龙第 10 期
发布日期:2024-05-15 21:45:22 浏览次数: 2466 来源:Z计划支持大模型创业



一、主题分享部分

    1、张周:AI 硬件和消费电子市场

    2、余有江:边缘大模型的应用

    3、游威:大模型硬件的应用和用户界面

    4、某知名基金投资人:ToB 与 ToC 的创新之路

    5、刘博:AI+硬件的洞察

二、自由研讨部分

    1、边缘侧 AI+硬件

    2、边缘侧 AI 的发展趋势

    3、未来的大模型+硬件的发展方向

    4、硬件创业是否可行?

    5、国外有家企业叫 Hume.AI,推出了一款带有情感计算的社交产品,国内是否也推出一款具有情感交互的社交产品?

    6、如果用户与 AI 交互过程中,将交互数据训练到模型中,给模型进行优化是否可行性?

三、AI native硬件分享

    1、曾经爆火的产品如今何去何从?

    2、CES 2024 上的新产品

#1.
主题分享部分
1、张周:AI 硬件和消费电子市场
张周,彬复资本董事总经理,投资多个TMT、企业服务、AI 和大消费领域项目,累计投资金额超过 2 亿美金。
a. 一图纵览过去十年的 AI 硬件和消费电子
考虑消费硬件、智能硬件或消费电子在过去10-15 年中的发展情况,以及在这个领域中出现的优秀公司,特别是创业公司或独立公司的机会,绘制了这样一张图:
  • 纵轴是全球市场规模,最高达到了 500 亿以上,部分品类潜力超千亿

  • 横轴是头部级别但不包括 BAT、Apple 的一些公司。中国一些公司巅峰时期的销售情况也有被包含进去
  • 图中的斜线代表的是市场集中度。也就是说,如果头部企业能占到 10%以上的市场份额,这并不是一个最后进入的红海市场。
    比较理想的情况是市场集中度越高,公司的位置就越高,比如头部企业占据 30%-40%的份额。

source:张

从图中我们看到了正样本和负样本的存在:
  • 正样本:从过去扫地机、无人机、泳池机器人、智能投影、激光切割、 3D 打印等产品,到最近一段时间的会议纪要或者是翻译耳机,都有优秀品牌和产品的涌现。

  • 负样本:仅仅是市场规模不是其成为负样本的原因,部分大市场产品最后要么变成红海竞争,要么就被大厂收编的结局。

    很多都是大家想做的入口级产品,比如智能穿戴,或者是一些普通的设备,最后可能就被大厂收编。当然,如果你在短时间内能赚很多钱,那肯定是很好的。

张周:成功的公司往往有以下三个特征

1、商业化时机成熟且可实现路径清晰
  • 细分行业增长快,场景明确(而不是创造新的场景),同时底层技术可满足商业化基本需求,产品研发杠杆适中,稳定供应链可获取
  • 行业拥有用户/渠道/营销/政策红利,可借助渠道、人群结构快速增长(例如消费级美容仪)
  • 核心人群/客户的集中获客和推广难度小,容易低成本触达
2、头部产品/技术辨识度高,避免红海
  • 研发杠杆适中,产品离完全状态有一定距离,避免较快进入红海,不同产品有辨识度,有持续迭代的空间(例如扫地机器人)
  • 行业有成熟的底层技术和供应链溢出,避免低效研发
3、守住细分,避开大厂泛化
  • 核心细分用户/客户需求和主流大众人群有区别,大厂产品较难将其需求包括在其主流产品线中(例如运动相机)
  • 产品形态和主流硬件产品有差异,不在大厂的核心业务布局(例如无人机)
b. AI 硬件和消费电子领域成功企业画像
  • 软硬件商业化成熟,并且有可行实现路径。所谓的商业化就是产品有明确的使用场景。很多新的消费电子产品,其实反映的就是产生新需求的新场景。
  • 研发杠杆适中
  • 能够在单一大市场中大批量获取客户。客户不应该是分散在不同国家或者不同人群中,这会造成推广的阻塞。
  • 头部产品的技术变革速度较高。理想情况就是现在能达到 70%或者 65%的完全状态,还有 40%左右的优化空间,那么研发改进可以提得比较高。
    此外,这样的进度使厂家不会很快进入红海竞争,并且可以利用成熟的大厂供应链技术和硬件的溢出,快速满足细分人群的需求。最后实现产品的泛化。
  • 对于所有消费电子产品,找到一个合适的细分人群是关键。比如耳机市场下的细分赛道运动耳机,或者是手表下的儿童智能手表;
    虽然大类产品的需求大厂也可以满足,但在细分市场仍有十几二十几的空间存在,有的甚至可以达到几十亿的规模。
c. AI 硬件和传统硬件投放路径不一样

  • 我对技术趋势是持乐观态度的,特别是 AI 为硬件带来了很多商业利好:
    • 规模效应不再单单依赖供应链:硬件调用的模型随着用户量和数据的积累,领先企业可训练微调功能更强大的模型,出货量越大,硬件性能越强
    • 为“耗材”付费逐渐为用户所接受:不同用户的硬件产品具有私有属性(例如拥有上下文、专有词表和对话习惯),且用户习惯模型收费,硬件售卖后可实行订阅制,增加后续收入
  • 整个 AI 线主要是根据模型能力相关的,所以还是集中在几个应用分类:
    • 商务效率类:这里有做得好的产品现在能卖到 1-2 亿以上,中等的可能 2,000 万美金左右。再小点可能就是众筹,大概 100-200 万的平均收入。
    • 陪伴娱乐类:市场上有很多 AI 帮助迭代的玩具、绘本、儿童机器人等等。情感陪伴类相比于传统的效率工具,这些设备在用户粘性、情感价值以及溢价能力上非常强;
      对工具的专业能力、精准度不会有很强的要求, 这类产品的用户群体多为儿童、老人等需要情感寄托的人群。
  • 软件能力与硬件有相似的关系
    • 现在的软件:流量大的软件产品 or 终端的 PMT 产品;集中在效率工具和简单应用
    • 现在的消费电子或智能硬件:抓取成熟厂商的溢出能力——效率和娱乐的产品能力
  • 从渠道的角度看最好做硬件智能的市场:统一大市场

    • 统一大市场的优点:
    1. 方便进行用户定义
    2. 更强的消费力
      例:比如北美地区用户的消费力强,对产品的意识度高。从消费电子来看,他们对耳机的音质要求比国内的要求要高很多,这就是为什么国内很多时候做了一个小配件会受到欢迎,因为他们注重产品配置。
    • 全球市场概览:
      1. 西欧:Amazon 虽然是整个西欧最大的一个电商,但是每个国家里面都有一些地方性的电商龙头,这就需要大量的战略工作。所以,如果要运营整个西欧的一个电商,实际上的难度会比较大。
      2. 北美:优势在于是一个统一的大市场,拥有几亿消费者,且 Amazon 的市场占比最高,大部分电商规模都相对较小。
      3. 拉美:市场的人口基数也很大,但是拉美有很多地方性的电商,基础设施相对较弱。
      4. 东南亚:仍然属于产品单价偏低的市场。

      很多人都有创造入口级产品的梦想,但入口级产品很难做。过去有很多大市场的机会其实来源于细分场景;

      比如在耳机市场中的运动耳机;智能穿戴市场中的儿童手表;相机市场中的全景相机、运动相机。总的来说,市场机会存在,但如何切入市场和产品的设计仍是关键。

      2、余有江:边缘大模型的应用
      余有江,矽递科技seeed 应用工程师。
      • 行业:零售、农业、自动家居等领域
      • 为什么要把大模型部署到边缘硬件设备云端服务存在弊端,包括延迟、隐私、稳定性等问题。
        例:客户是政府,可能会对采购的硬件产品有很多的安全评估。如果需要插入网线,工作量就会很大;
        如果只需要插电源,且设备是单机的,可以节省很多工作,且不需要花钱购买流量,也不存在网络不可达的问题。
        source:余有江,矽递科技
      • 云端大模型和本地大模型的成本:0.42 个月的 API 服务费用=1 个本地服务器一次付清
        假设每10 秒钟需要调用一次大模型的服务,那么一天就需要调用超过 1 万次,5 年的调用次数非常多。如果使用本地的模型和服务器,只需要承担采购成本;
        比如购买一个价值 899 美元的解决方案,并一直使用;相比之下,如果使用云端的 OpenAI API 一年,成本会非常高,大约是 6 万多美元;
        相当于只用 0.42 个月的 API 服务费,就足够购买个本地服务器。我们的实验场景中,不仅是输入文本,还使用了图片、语音、文字,以及传感器的一些数据;
        然后用两个不同的方案进行测试。目前来看,只要在服务器上可以运行的AI 模型,在边缘计算盒子上都能运行,可能模型会小一点。
      • 客户购买边缘计算盒子并部署定制化 AI 算法,考虑价格、模型能力、推理速度
        客户只需下载开源的大模型,在电脑或公司的服务器上部署并运行,看生成答案是否满足需求。
        因为在电脑上部署的大模型和在边缘计算盒子上部署的大模型极有可能是同一个,生成的结果也是一样。
      3、游威:大模型应用现状和AI硬件的形态可能性
      游威,可触未来创始人。
      a. 大模型的应用主要分为服务和工具
      • 大模型构建的完整服务场景
        • 以社交场景为例
        1. 大模型场景下的社交应用:非常符合大模型的应用场景,例如,大模型相亲。
        2. 传统的社交应用:会进行类似的步骤,但没有大模型的基础下,步骤可能会比较生硬,比如提供一些预设的发言选项。
        • 两个方面判断这种场景是否可以由 AI 完成的标准:
          1. 这个场景下是否有传统的人力在做,即这个场景是否真的有需求
          2. 对于模型结果的精准度的要求如何,因为现在大模型还不能做到特别精准的事情。
          • 作为生产力工具:规模化场景的降本增效
            • 有些公司通过将代码生成工具集成到他们的IDE 中,可以直接在IDE中生成代码。也有创业公司把这种IDE或者插件打包成SASS作为产品。
              软件同时会统计项目中有多少代码是由工具生成,还有相关 KPI,如大约有 30% 以上的代码由工具生成。这对降低成本和提高效率的规模效应非常可观。 
            • 还有些硬件消费品公司会使用大模型来替代客服的工作。大部分情况下我们无法分辨面对的是人工客服还是 AI 客服,80% 以上的工作量可以被大模型替代: 

            • 广告投放上也会用到大模型,例如广告投放中需要文案、内容、投放策略等工作,大模型首先会生成一套文案,接着基于产品的对应信息优化;

              然后再给到大模型来评估,最后根据广告投放数据做最终改动。总之,广告内容生成和投放优化的各个链路都可以有大模型辅助。

            b. 我们需要探索非用户界面的 AI +硬件
            • AI +硬件的典型产品:当我们谈到 AI+硬件时,我们脑海中往往会浮现出一些交互类的硬件,比如一些代表性的 AI 硬件,但体验度可能较差的产品;
              如 iPin、讯飞耳机、Pod、 Whispering 等等。另外,还有一些陪伴类的产品,比如我们的 Robot。
              这些产品的共同特点在于可以被理解为一种用户界面(UI)。这些设备使得用户与手机的云助手交谈时可以更加优雅。
              本质上,这些设备是在语义丰富的场景下的信息收集器或交互界面。像智能录音设备是输入界面,而像 AI 陪伴类设备就是输出界面。
              为什么有输入和输出: 当谈论大模型与硬件的结合时,首先会想到的就是录音等类似的设备,这主要是因为大模型是富语义的,所以我们会在富语义的场景中去使用。
              我们围绕语义这个主题,去考虑它的输入和输出,去做具体的设计。这是我们现在看到的,也是最容易想到的大模型的应用。 
            输入类界面

            虽然大模型赋予了我们丰富的信息,但我们的输入仍然具有物理性,因此需要一些硬件在这些场景下更便捷地进行信息输入。

            输出类界面

            我们的感知需要物理性,比如对着一个屏幕里的虚拟物品,感知和触发肯定不如对一个实体的小动物毛绒玩具强烈。

            • 除了作为用户界面的大模型硬件之外,是否还有其他的形态?
              • 大模型加硬件的概念变得有些困难,我们不容易想到一些应用:大模型本身是富语义或富内容的,它天然就可以通过手机、电脑这类设备去实现。
                如果只是传递信息的话,只有在富语义、富内容的基础上,涉及到一些物理的交互,涉及到一些物理场景的情况下,大模型与硬件的结合才会显得有意义。
              • 从交互角度来看,有些设备不仅仅是用户界面:它们可能是电视、音响等设备,或者是带有摄像头的  Mac 等设备。
                如宠物监控设备,在猫砂盆里安装摄像头,每天都能看到宠物的情况。像之前很火的猫直播,它会基于理解,每隔一个月告诉你猫发生了一些有趣的事情;
                在这个场景下,富语义,并能给用户反馈一些有趣的信息。基于此,其他设备的形态可能要物理化的服务,服务本身要一些能力,但硬件的复杂度并不高。
            哈啰街猫:
            哈啰街猫在很多小区的角落放置了猫屋,猫屋里装着投食机器和几个摄像头。只要打开微信小程序进入一个猫屋并点击「 投喂 」;
            对应的机器就会撒出一点猫粮,路过的流浪猫可以来吃两口,同时,投喂者可以在线上看到被自己投喂的猫猫的情况,实现云喂猫;
            随着社媒上一些有意思的猫猫喂食片段爆火,比如新鲜哥、懵逼哥、微笑姐等等,更多的网友也参与到了云养猫的活动。
            • 从大模型作为推理中间件的角度:需要基于用户意图,在服务和意图之间建立联系的场景,比如定制饮品、定制家居等等。
              那些在用户界面上的应用更容易想到,但是,边界模糊的,或者作为推理中间件的应用,恰恰是我们作为创业者可以去深入思考,去发现一些新的机会点。
            4、某知名基金投资人:ToB 与 ToC 的创新之路
            a. 机器人在 ToB 领域的应用
            • 现状:
              • 2b 机器人虽然创业项目非常多,但渗透率都极低。其实这个市场空间极大。
              • 机器人系统可概括为由物理形态的本体和控制器构成的组合。在商业模式中,无论是 2C 还是 2B 市场,机器人都必须经历集成过程。
                在 2C 市场,集成过程侧重于提供即开即用的用户体验设计。相对而言,2B 市场的集成过程更为复杂,需要集成商的参与;
                这些集成商负责将机器人技术与客户的具体需求相结合,并在此过程中获得利润分成,通常与硬件厂商的利润比例相当。
                也就是说,对于一套价值千万的传统大型工业机器人,集成商可能获得等同于硬件成本的利润。然而,对于成本较低的小型机器人,情况就不同;
                如价格在 20 万至 30 万或更低端的 3 万至 5 万的机器人,集成商的利润空间将大幅压缩,难以获得高额回报。也就是说,这个生态实际上并不健康。
              • 当前 2b 的障碍在于机器人难用。现在都是轻工业。以小批量、多批次、少批量为主,为了增加机器人的灵活性来不断地部署和二次开发,显然是不行的。
            • Generative AI 带来的机会:
              • 一些团队认为生成式 AI 能打破魔咒,使得集成商的开发部署成本急速降低,使机器人能快速地触达客户,减轻部署成本,或者换句话说,提高泛化能力。
              • 如果有团队能做出完全不需要任何编辑方式,能适应各种空间,各种环境的机器人,这个公司就极其有价值。但目前还没有。
              • 物流场景也是一个非常好的场景。我们经常说 AI 进工厂去打螺丝,以及 AI 去物流场景去做搬运仓。
              • 在仓储领域有很多公司,但实际上这些公司的本质都是集成商。有一些公司做得非常好。然而,你会发现他们的人效比会降低。
                这些公司在资本市场上的表现,无论是已经上市的还是即将上市的,市场给他们的估值倍数都不高,原因是人效比一般,相信技术可能会解决这个问题。
              • 创业⽅向包括基座模型(或⾏业模型)、垂直⾏业解决⽅案;创业者要考虑具体的商业化路径和⼈事匹配,同时需要考虑商业化场景与特定市场的结合度。
            b. AI 硬件在 ToC 领域的应用
            • 传统家电和智能设备厂商开始融入 AI 技术,提供更加个性化的用户体验。
            • 社交和交互方式的创新,如无唤醒词的交互,成为新的探索方向。
            • 上一代的基于图文的方式已经被视频颠覆,下一代可能会是 agent 或者是其他一些形式,我们也不确定。可能会有更多的创业者在这里创新。
            • 优秀的创业者能意识到显性痛点在哪里。很多时候我们说哪里是痛点,哪里是痒点,这是因为显性的痛点可能会被一些团队忽略掉,他们不敢去面对。
            • 暂时未看到国产⼤单品出现。更多创业者还在观望硅⾕的趋势。
            c. 全球视角下的 AI 硬件创业趋势
            • 观察:
              • 海外对于AI 硬件的创业更谨慎,除非是大牛,否则不轻易碰硬件。美国、挪威和加拿大,敢碰硬件的公司不多,大概有 6-8 家,每一家在商业化和团队构造上都有特色。
                团队构成和商业化能力成为投资的关键考量。然而,在北京的人形机器人大会上,有人说中国已经有 100 家做人形机器人的公司了。
              • 中国市场在政府的引导下,AI 与智能硬件的结合日益紧密,人形机器人中心的建立展示了国家层面的支持。
              • 去年,分享人所在基金投资的机器人公司都很苦。从 2019 年开始投资机器人公司,大家的普遍反馈是营收难。
            • 建议:
              • ToB 领域:
              1. 最重视的就是团队实力,尤其是 CEO 的业务专长和融资能力。说实话,ToB 领域的技术现在并不成熟,所以团队就非常重要;
                更倾向于 CEO 是一位业务专家;深入思考商业化路径,寻找可持续的 ROI 模式。很多创业者和投资人思考的都不够细致。
                可能一些赛道在海外的某个地方或地区才能 work,那个商业模式才能成立,才有可能完成商业闭环。
                在寻找商业化的时候,要足够细致地去看哪个地方能满足你的 ROI,而不能仅依赖于推产品的市场决策,这个过程是非常耗时、耗精力的。
              2. 从产品市场匹配(PMF)到规模化的过程中,需要正确处理渠道与客户关系。
                我们最后当然想成为一家独立的大公司去规模化,而不是成为一个外部的供应商,或者是大公司集团下的一个供应商。
                完成单个产品的市场匹配后会开始规模化。完成后会收到一些预定的订单,订单可能包括 Demo 等,接下来是漫长的的客户交付过程。
                你会发现你成了这家集成商或是个供应商,所有人都是你的甲方,工作很累。换个角度说,很多在 ToB 领域的创业者,非常喜欢战略投资人。
                这是双刃剑,一方面战略投资人会带来市场资源。但如果跟这些客户走得很近,客户提出来的问题要花费大量人力去解决,产品很难标准化。
              产品市场契合度(Product-Market Fit,PMF):是创业和商业战略中的核心概念,它指的是产品特性与目标市场需求之间的匹配程度。

              当一个产品能够精准地解决目标用户群体的痛点,并且用户愿意为之付费或投入时间,就表明该产品实现了良好的产品市场契合度。

              为了达到 PMF,企业需要通过市场调研、用户反馈、产品迭代和测试等手段,不断调整和优化产品功能,以确保产品能够满足用户的实际需求。

              PMF 的实现是企业获得市场认可、推动业务增长和实现盈利的前提。

              在大模型时代,给我们带来更大冲击的也可能会是技术市场契合度TMF(technology market fit)。

                • ToC 领域:
                1. 第一点就是深度思考,选好品类,不同品类不同。有些品类较天然,注重传播属性,如营销类的产品等,天然具备传播属性,发展起来会快一点。
                2. 第二点是深度和广度的储备。2019 年有很多昙花一现的产品。但在这个阶段,爆品思维还能有效吗?这是一个值得打个问号的问题。
                  当产能过剩,对于护城河或者技术密度不深的品类,你会发现大家追赶的速度可能只需要半年,甚至更快。那么,灵光一现的东西在半年后怎么办呢?
                  这是一个问题,目前我们还没有好的解决方案,只能说我们尽量去深化技术储备,同样的技术可以用在不同的产品里,做得更广一点。
                3. 第三点是注重全球化的试点,无论你是服务海外客户,还是在海外寻找灵感,或者是建立一个海外的团队。
                  这些领域其实都很重要,需要看当地市场的需求,以及你对用户的洞察。可能我们确实不能闭门造车。
                5、刘博:AI+硬件的洞察
                刘博,睿魔智能创始人。
                • AI 的必要性:在硬件项目中,是否真的需要 AI 技术。AI 并非万能,应针对具体问题选择是否应用 AI。当面临非线性问题,需要类似人类的分析和抽象能力时,AI 成为必要选择。
                • 硬件的地域优势:中国在硬件领域具有人才和供应链优势,涉足硬件项目具有广阔前景。
                • 算法部署位置:决策是否实时至关重要,这决定了算法是在云端还是边缘端部署。
                • 边缘计算的挑战:面临功耗和成本问题。当转向将 AI 技术部署到边缘计算的具体讨论时,面临的挑战包括设备的高功耗、成本控制及最终产品的市场定价。
                  在产品开发的战略规划中,须仔细权衡是否引入边缘计算,和算法部署的位置——是否直接部署在边缘设备上,或者是在中间节点,如搭建一个小型服务器。
                • 硬件选择:在硬件产品中部署 AI 模型时,需要考虑芯片的算力和功耗,以及产品散热问题。如果项目要求使用小型或传统算法,可以考虑使用 CPU 来降低成本和技术门槛。
                  然而,如果项目需求复杂,需要部署高级算法如使用 NPU,这不仅提升了技术门槛,也大幅增加了成本。在市场上,虽然主流选择是 NPU 和 CPU;
                  但对非 PC 的硬件项目,GPU 不是一个可行的选项。这一决策过程要求团队不仅要对硬件配置有深入理解,还需具备丰富的实践经验来应对可能的技术挑战。
                • 团队能力要求:创业团队不要轻易涉足 AI+硬件,特别是边缘计算。这一领域对团队的技术能力和市场理解提出了高要求;
                  尤其是在 C 端,不仅要求有优秀的硬件开发能力,还需要能够深刻理解并处理伴随技术部署的各种问题。
                  仅擅长算法开发的团队应避免轻易进入这一领域。对于决定从事边缘计算的团队,必具备强大的综合技术理解能力,这样才能在面对挑战时做出有效的应对。
                #2.
                自由研讨部分
                1、边缘侧 AI+硬件
                • 一位创业者分享到:
                  • 大模型的工作站是合适的应用场景,市场上存在着本地化部署的需求,如 NAS,如果用户不信任云端,或认为本地化部署更合适,可以考虑部署定制的私有大型模型。
                  • 适合用的模型参数量在 10B 以上,一些部署在手机上的小模型(2B 左右)也能实现些对话。对于某些简单的意图识别或推理任务,考虑使用小型模型。
                  • 对于简单推理和意图识别,不需要广泛语义理解的对话场景,云端的大型模型会更为合适。
                NAS,全称Network Attached Storage,即网络附加存储。可以把它想象成一台有大容量硬盘且连接在网络上的智能小电脑,专门用来存储和共享数据。
                与普通电脑不同的是,它的核心任务就是提供安全、便捷的数据存取服务,而不是执行复杂的计算任务。
                • 另一位创业者分享到:
                  • 对于边缘端部署大模型,目前大家比较顾虑两个问题:
                  1. 功耗问题:AI NAS 的功耗大约是 25 瓦,与家用路由器相当。如果将这样一个设备放在家里,普通消费者是能够负担得起的。
                  2. 成本问题:研究人员在实验室中是基于服务器或 X86 的架构,用户上手难度会高一点,生态系统会弱一点。
                  2、边缘侧 AI 的发展趋势
                  一位研究者分享到:
                  • 大模型的涌现能力并不完全依赖于参数量的大,模型的算法正在向小参数优化,2B 的模型也已经能够与 7B、8B 甚至更大参数的模型媲美。
                    例如微软的 Phi-2、LAMA3 8B、Gemma 2B 系列等,这些模型与 80B 模型相比,性能差距并不大,尤其是考虑特定的使用场景。
                    只有 CPU 的电脑上也可以运行 Gemma 2B 和 LLAMA 7B 模型,并且只占用了 1GB 的内存。
                  • 当前所有算法技术都应该向边缘端优化。过去,人们普遍认为只要参数量足够大,就能通过暴力解决问题。现在,所有算法向更轻量、更便捷的方向前进。
                  • 人们开始将 Meta 视为新的 OpenAI,如果一切都闭源,我们未来接入云端设备可能会受到这些大公司的垄断。
                    这将涉及到个人隐私问题,以及基于这些设备的所有功能可能会因为服务中断或设备故障而受到影响。
                    为了反抗这种垄断,未来会有越来越多的人加入开源社区,为开源项目做出贡献,并部署自己的边缘侧大型模型。
                  • 目前所有的迹象都表明,边缘侧设备对于普通用户的入门门槛越来越低。
                    尽管硬件的优化对此有很大帮助,但算法的进步也极大提升这一点,使其更适合嵌入式应用。当我们降低了成本之后,所有带电控的设备都可以加入逻辑控制。
                  模型剪枝:模型剪枝(Model Pruning)是一种用于减少神经网络模型参数数量和计算量的技术。
                  它通过识别和去除在训练过程中对模型性能影响较小的参数或连接,从而实现模型的精简和加速。
                  模型剪枝可以分为两种类型:结构化剪枝(Structured Pruning)、非结构化剪枝(Unstructured Pruning)。
                  模型剪枝的一般步骤包括:
                  1、训练初始模型:首先,需要训练一个初始的大模型,通常是为了达到足够的性能水平。
                  2、评估参数重要性:使用某种评估方法(如:权重的绝对值、梯度信息等)来确定模型中各个参数的重要性。
                  3、剪枝:根据评估结果,剪枝掉不重要的参数或连接,可以是结构化的或非结构化的。
                  4、修正和微调:进行剪枝后,需要进行一定的修正和微调,以确保模型的性能不会显著下降。
                  代表论文:
                  Han S, Mao H, Dally W J. Deep compression: Compressing deep neural networks with pruning, trained quantization and huffman coding[J]. arXiv preprint arXiv:1510.00149, 2015.
                  https://arxiv.org/abs/1510.00149
                  3、未来的大模型+硬件的发展方向
                  a. 降低用户使用门槛
                  一位嘉宾分享到:
                  • 未来大模型+硬件需要降低行为目的跟人之间的连接门槛。
                    • 前信息时代:用户需要使用工具获取信息。以字节跳动为代表,将现有的信息进行画像化和标签化,在信息的两端进行匹配。
                      通过现有的技术算法,如标签匹配和网络传输匹配,进行极简的交互。无论是苹果端还是 PC 端,本质都是追求简单易用。
                    • 后信息时代AI 将帮助人们使用工具并完成其使用目的。AI 大模型将负责知识建构,所有 AI 大模型都在这个层面上工作。
                      其次是应用迭代,AI 在使用工具帮助完成目的的过程中,会自我迭代以更好地完成流程。
                    • 比如旅行安排:
                    1. 在前信息时代,个人行为目的与个体的链接是非常困难的。具体来说,存在三个问题:第一,不知道如何制定攻略;
                      第二,即便有了攻略,也不知道使用哪些 APP 或工具来完成旅行安排;第三,完成之后,不能确定能否有效执行。
                    2. 在后信息时代,AI 可以通过大数据分析,为用户提出行程安排,即使在资源有限的情况下,也能提供可行的方案。 
                  • 未来大模型+硬件需要降低用户的执行操作门槛,减少能量损耗。
                    • 集中化的算力可以减少能耗,因为它避免了分层的决策和交流。例如用户询问旅游专家,这就是一种分层。
                      旅游专家是上层,用户是下层。如果是集中化的算力,那么分层永远只有两层,可以达到最低的能耗。
                    • 单体行为的计算成本远大于群体的计算成本。例如,让 100 个人计算十位数乘以十位数的结果,不如一台计算机的计算成本低。
                  • 交互方式的未来可能会通过空间计算实现最简交互,因为只需要语言和手势即可。
                  • b. Vision Pro 或许成为社交工具
                    一位嘉宾认为:
                    • 当用户调用 API 之后,存在两个问题:一是 API 是否能够配合用户完成后续的任务;
                      二是智能硬件是否具有吸引力,因为智能硬件越频繁的使用,产品就越了解用户的喜好,从而提供更好的个性化服务。
                    • Vision Pro 更多是一种新的交互形态。在互联网和智能手机时代,习惯了屏幕触控和图文交互,但 Vision Pro 真正将 AR 和 VR 统一起来,用户可以将想要的东西在空间中锚定起来。
                    • Vision Pro 里面有一些视频,它们是全空间的视频,可以给用户一种身临其境的感觉。现在戴上任何一款眼镜去体验一个场景,其实都是有失真的;
                      但 Vision Pro 的失真率降到了非常低,戴上它可以去滑雪,就像真实的社交体验一样,这是空间计算维度。
                    一位嘉宾补充道:
                    • AI+社交可以打破时间上的限制。比如,虚拟数字人学习了用户的习惯,然后虚拟人再把对话内容传达给真正想社交的人,这是一种时间上的突破。
                    • 对于 Vision Pro,它打破社交的空间性,可以把几个空间重叠到同一个教室中,未来的会议可能是我们在不同的空间,但最终可以在同一空间进行交流。
                    • Vision Pro 还有一个很大的优势,在使用时锚定的高度可以超过房间的高度,实现整个场景不受限制,产生更有意思的交互场景。
                    4、硬件创业是否可行?
                    a. 硬件创业需要尝试
                    一位嘉宾认为:
                    • 关于是否现在进行硬件创业,一定要。有一个理论叫冰淇淋理论,一定要在这个事情爆发之前开始做、尝试,等到真正到来的时候,才能够抓住这个机会。
                    冰淇淋理论:是由台湾著名企业家王永庆经过几十年亲身经历中总结出来的。
                    他说:“卖冰淇淋一定要从冬天开始,因为冬天顾客少,会逼迫你降低成本,改善服务,如果能在冬天的逆境中生存,就再也不会害怕夏天的竞争。”
                    b. 硬件创业需要从用户出发
                    一位创业者认为:
                    • 硬件创业应该从用户出发,找到了需求去做这件事情,创业者需要从需求出发,然后反推技术是否适用。而不是技术到了之后,再考虑是不是应该用这个系统。
                    • 不要见到大模型就很恐惧。从量的角度来看,应该根据使用场景来决定使用多少大模型。以我们在海外领域的经验为例,实际上并不需要大量的对话;
                      尽管现在许多大型模型在一般的问答任务中可能会生成很长的回答,但在真实的交互中,对话通常是简短的。
                      在这种情况下,特别是各大公司发布的 token 价格,基本上都是千 token 一分到一毛。即使是一毛的价格,通常也是针对千亿或万亿级别的大型模型。
                      对于一般的几十亿参数模型和百亿级模型,成本是以分计算的,这个成本完全是可以覆盖的。
                    • 大模型在智能体应用中,不可避免地会出现一些幻觉问题,以及安全性问题。
                      但目前使用大模型进行娱乐是可以接受的,作为工具也是足够的,至少在一定程度上是足够的。如果进行一些特定的微调能达到一个相对较好的效果。
                      而且, token 用量取决于任务。如果涉及到智能体这样的长对话,确实会消耗大量的 token。但考虑要从场景和需求出发,而不是从技术出发去考虑这个问题。
                    c. 创业成本其实可以接受
                    一位嘉宾认为:
                    • 当前用户与一个娱乐设备对话一小时,使用世界上最贵的 GPT-4 模型,只需要 2-4 元。
                      但 3 块钱一小时的成本对一个正常人来说很贵,作为一个娱乐工具,比如爱奇艺的付费用户有 1 亿人,它的月费不到 15 块钱。
                    • GPT-3.5 是 GPT-4 价格的 1/10,端到端模型更加便宜,它可以将成本从 90 块钱降到 9 块钱,甚至 1 块钱。
                      如果大家总是说模型能力不行,算力太贵,那么就不要创业了。实际上,这些事情是可以接受的,可以做到的。
                    d. 硬件创业不适合初创企业
                    一位嘉宾分享:
                    • 硬件侧分为:
                      • 输入侧:传感器、语音、视频、触觉
                      • 中间层:芯片和算力;
                      • 执行层:内容的输出或执行机构的输出。
                    • 现在的创业机会,我认为是在执行层,前两个部分太重了,芯片和算力,还有传感器,这些不太适合初创公司去做。
                      我们之前探索的方向是生成式医疗交互内容,因为陪伴式交互玩具最大的问题是缺乏惊喜感,不能长期保持惊喜感。
                    • 新质生产力的产生会伴随着新需求的产生。我个人判断,新需求的产生趋向于个性化,但在硬件方面,它跟不上。
                    e. 创业的创意想法
                    一位机器人研究人员提出了一个想法:
                    • 如果用户有一个 VR 设备,假设在工作中,用户可以戴上 VR 眼镜,然后将整个意识附身到机器人身上。
                      相当于用户可以在家里看小孩、看宠物或者拿东西。它其实可以极大地提高人的交互体验。
                    一位嘉宾分享了硬件在不同使用场景下的应用:
                    • 利用算法或者大模型来辅助开发工作,或者开发一些工具。我们可以做一些面向公司开发的工具。例如,可以开发辅助代码的工具、辅助设计的工具
                    5、国外有家企业叫 Hume.AI,推出了一款带有情感计算的社交产品,国内是否也推出一款具有情感交互的社交产品?
                    一位参会嘉宾分享:
                    情感社交产品与智能 AI 客服不同。它们会将人类的情感融入到大模型里,然后当用户输入一些关键词,如愤怒的词语,大模型可以看出来,然后根据关键词来做反馈。
                    • 现有的 AI 智能客服,可能会让一些消费者困在信息检房里。
                      比方说用户在美团或是饿了么买了一些商品,如发生纠纷,这些 AI 客服会把用户困在一个框里,不论用户接受不接受,赔偿一定额度用户的问题自动解决了。
                    • 从战略上考虑,处理客户愤怒的情绪是可以反向对企业的供应链管理、产品服务做一些迭代和升级的。但一些大厂把它当做成本项来尽可能地去筛解,这不利于 AI 客服发展。
                    • 对于第四代社交产品——AI 社交产品,硬件渗透率还没有跨越鸿沟,这一块需要走很长一段路。
                      • 第一代社交产品:功能机兴起的时候,我们做社交是通过短信;
                      • 第二代社交产品:功能机渗透到 PC 互联网时,QQ 作为社交龙头诞生;
                      • 第三代社交产品:智能手机兴起时,微信从此诞生;
                    一位产品经理分享:
                    • AI+客服,其实很多的公司在做,但引入情感的关键点 ROI 是否能打平客诉率下降的成本。
                      保险、金融、银行会去做,因为 ROI 够高,所以情感分析去赋能 AI 客服降本增效的案例是有的,只是比较少。
                    • AI+社交需要明确用户跟谁进行信息的交换,三个社交产品迭代的本质是信息的交换速度越来越快,AI 的加入是引入了新课题,有没有可能跟 AI 进行交互跟社交。
                    • 成年人的虚拟人不值得做,因为我们很难说有一个虚拟人的朋友,这一点不好泛化,很难说我们每个人都有这样的爱好。
                      孩子的虚拟人是值得做的,因为孩子认为毛茸熊是他的朋友,他可以跟毛茸熊聊天,大部分的孩子可以跟一个虚拟人从小长大成为一个好朋友。
                    • 可以不局限在手机 APP,未来 AI 可以集成在故事机、点读机、小天才手表等,玩具类产品可能比手表更适合,因为在设计上更能够呈现出朋友的形象和感觉。
                    关于 AI 社交,一位嘉宾分享:
                    • 在社交方面,我们收敛到倾诉,也就是人与人之间的交流。我们发现在低价位陪聊服务领域存在质量参差不齐的问题。
                      如果从降本增效的角度出发,AI 在降低成本方面具有显著优势,我们认为在软件方面是有机会的。但在硬件方面,可能机会不大,因为硬件成本很高。
                    • 之前嘉宾提到的儿童方向,是一个很好的点子,因为我们之前也调研过一些竞品公司。他们正在做的一件事情是成为青少年的心理疗愈师,即心理老师。
                      展现方式是通过一个假 3D 的数字人进行交互,切入点是教育。因为陪伴式的教育和个性化的因材施教可以在积极心理学的引导下很好地激发孩子的学习动力。
                    一位嘉宾认为:
                    • 做陪伴情感系列、养成系列,甚至终身系列,核心绕不开就是记忆问题。目前 RAG 无法达到这一点;
                      因为 retriever 的影响因素很大,时序方面的优化很困难,内部还要生成逻辑,单纯的 RAG 做不到。
                    Hume.AI: 致力于创造具有情感智能的 AI,通过分析人的语音和面部表情来学习用户的偏好,目标是最大化用户与 AI 互动时的幸福感和生活质量。
                    最近推出了 Evie Hume 的移情语音界面,计划推出 API。移情语音界面是情感计算领域的重要方向,使人工智能系统能更好地理解和适应人类的情感需求。
                    Hume AI的使命是通过分析大规模数据来提取影响人们情绪的信息,这些信息涉及人们是否感到快乐或悲伤。
                    网站:https://www.hume.ai/
                    6、如果用户与 AI 交互过程中,将交互数据训练到模型中,给模型进行优化是否可行性?
                    • 一位嘉宾解释:“目前这部分是增量训练,技术上有很大问题,它会有遗忘。”
                    #3.
                    AI native 硬件分享
                    1、曾经爆火的产品如今何去何从?
                    a. Rabbit R1
                    2024年初,一款名为 Rabbit R1 的 AI 硬件设备在 CES 2024 亮相后迅速走红,首批 1 万台在一天内售罄,售价为 199 美元/台。
                    截至 4 月 24 日,Rabbit 公司表示累计销售量已达到 10 万台。在过去数月里,这款 AI 原生设备在海外引发巨大波澜,似乎这类产品会在 AI 加持下有好的新发展。
                    但全球知名维修网站iFixit 对 Rabbit R1 进行了拆解,超低容量的电池、性能孱弱的主控,以及在云端运行的 AI。
                    技术记者 Mishaal Rahman 通过在 Android 手机上安装 Rabbit R1 的 Launcher APK,发现这款设备的核心功能实际上可以通过现有的智能手机实现,这表明 Rabbit R1 可能只是对 Android 系统的一种改造和再包装。
                    “半成品”是The Verge 等海外科技媒体对 Rabbit R1 的一致评价。
                    详见 AI Native 硬件:端侧 AI 革新将至|Z 沙龙第 7 期

                    b. AI Pin 
                    AI Pin是一款便携式 AI 设备,可以轻松别在衣物上。它通过激光投影技术在手掌上显示信息,内置 AI 助手能够通过语音命令进行网络搜索和通讯操作。
                    AI Pin 还具备实时翻译功能,支持 50 种语言。《时代》杂志将其评选为 2023 年最佳发明之一,不到一个月预定量就超过了 450 万台。
                    但随着第一批媒体评测解禁,大家的体验出奇的统一:美丽的废物,别买。华尔街日报记者吐槽了产品发热严重,以及激光交互在户外不能用。
                    科技博主MKBHD 更加直接,视频标题写道:AI Pin 是他评测过的最糟糕的产品。据MKBHD 测试,AI Pin 续航时间仅为 2-4 小时;
                    而且 AI Pin 小巧的体积带来了散热问题,不少媒体评测的时候都提到过,使用没多久 AI Pin 就提示“过热关机”;
                    有媒体猜测,这是因为 AI Pin 要反复搜索信号所以发热。并且 AI Pin 的交互方式,繁琐且低效。在 AI Pin 在实际使用中,手势识别的准确率并不高。

                    2、CES 2024 上的新产品
                    a. Ballie
                    Ballie是一个小巧、球形的 AI 伴侣机器人,由三星于 2024 年在 CES 上发布。该机器人不仅包含了内置投影仪,还整合了 SmartThings,提供了更新的软件功能。
                    Ballie 的升级版具有在墙壁、地板或天花板上投影图像的能力,可以根据墙面距离和光照条件自动调整图片,并根据人的姿势和面部角度自动调整最优投影角度。
                    Ballie在宣传视频中展示了其具备的功能:投影功能、智能家居控制、个人助理功能、安全监控、健康监测、交互娱乐、学习与适应等。

                    b. Moxie AI
                    Moxie是一款专门为 5 至 10 岁儿童设计的 AI 机器人。Moxie 会为他们布置游戏化的学习任务,提供全天候的对话聊天。
                    通过配套的应用程序,家长可以了解孩子每周的进度、活动,并深入了解孩子在认知、社交和情感方面的能力。
                    和最新版本的 Moxie 对话,就像在和无话不说的好友聊天,向它提问不仅对答如流,还会在说话时做出相应的手势和表情。

                    c. LG AI 机器人管家
                    LG的“AI 管家”可在家中自由移动,能识别人、环境的声音和影像,自主判断环境的湿度、温度等状态;
                    据此开关家用电器,也能迅速应对外部人员闯入、宠物打碎花盆等突发情况,创造定制的家庭管理体验。
                    通过捕捉用户的表情和声音来分析用户的心理状态,AI 管家提供个性化的服务。

                    AI硬件创业目前仍存在很多不确定性,与之并存的是广阔的市场空间和想象力;
                    无论是交互性还是非交互性,无论是工具类还是情感陪伴类,似乎我们都还没有看到一款真正做到市场普及的产品;‍
                    国内具有很强的供应链优势,期待看到未来能出现更多好玩或有用的硬件作品。



                  53AI,企业落地应用大模型首选服务商

                  产品:大模型应用平台+智能体定制开发+落地咨询服务

                  承诺:先做场景POC验证,看到效果再签署服务协议。零风险落地应用大模型,已交付160+中大型企业

                  联系我们

                  售前咨询
                  186 6662 7370
                  预约演示
                  185 8882 0121

                  微信扫码

                  与创始人交个朋友

                  回到顶部

                   
                  扫码咨询