大模型“上新潮”持续释放人工智能潜力

2025-04-18 07:16 来源:中国证券报

  从效率工具到生产力重塑

  大模型“上新潮”持续释放人工智能潜力

  随着人工智能(AI)市场持续蓬勃发展,作为人工智能领域炙手可热的技术方向,多模态大模型正迎来“上新潮”——企业纷纷以多模态融合、推理效率提升以及成本优化为突破口,加速人工智能技术的商业化落地。

  “通过多模态长思维链训练、全局记忆、强化学习的技术突破,形成领先的多模态推理能力,并突破成本边界。”在商汤科技日前举行的2025技术交流日活动上,商汤科技董事长兼首席执行官徐立在介绍公司推出全新升级的“日日新V6”大模型体系时表示,该大模型体系将跨越多模态边界,释放推理与智能的无限可能。

  此外,在近日举行的“2025快手磁力大会”上,快手也明确表示,在人工智能生成内容(AIGC)的内容生产方面,基于多模态大模型,快手的AIGC内容生成能力飞速提升。而在稍早前,智元机器人于3月初发布通用具身基座大模型GO-1,该大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类环境和物品中,快速适应新任务、学习新技能。同时,还支持部署到不同的机器人本体,高效完成落地,并在实际的使用中持续快速进化。

  纵观近期业内的一系列动作,不仅反映出人工智能领域的技术跃迁,更是行业竞赛加速的缩影。专家认为,当前,行业竞争焦点已从参数规模转向应用效能,大模型的价值也正从实验室的各类技术指标向能否最终转化为实际生产力转变。与此同时,多家上市公司也在积极探索将多模态大模型引入到日常工作中。

  ● 本报记者 乔翔

  大模型频“上新”

  “多模态正在成为大模型行业发展的重要趋势。”商汤科技联合创始人、大装置事业群总裁杨帆在接受中国证券报记者采访时表示,2025年,行业头部企业愈发强调多模态能力,这是一个自然的市场趋势。因为人工智能最终会走向线下,走向物理现实。在这一过程中,多模态的处理和思考能力就成为一种必然的趋势性需求。

  在商汤科技日前举办的2025技术交流日活动上,公司推出全新升级的“日日新V6”大模型。其模型能力显著提升,在长思维链、推理、数理、全局记忆方面具备优势,做到高效能与低成本兼具。

  值得一提的是,凭借全局记忆能力,“日日新V6”大模型打破了传统模型仅支持短视频的限制,可支持10分钟级视频全帧率解析。此外,“日日新V6”大模型还可以对视频的精彩内容进行智能剪辑输出,帮助用户保留珍贵瞬间。

  徐立告诉记者,全局记忆使得交互更加自然,例如能处理更长的视频段,并且能对视频有整体的理解和深度推理,从而实现更好的交互。

  不仅是商汤科技,3月10日,智元机器人发布首个通用具身基座大模型——智元启元大模型(GO-1),其主要是基于2024年底智元机器人推出的AgiBot World数据集。该数据集是包含超过100万条轨迹、涵盖217个任务、涉及五大类场景的大规模高质量真机数据集。

  为了有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力,智元机器人提出了Vision-Language-Latent-Action(ViLLA)这一创新性架构。

  “该架构由VLM(多模态大模型)+MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,且MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。”智元机器人表示,三者环环相扣,实现了利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛。此外,作为通用机器人策略模型,其能够在不同机器人形态之间迁移,快速适配到不同本体,群体升智。目前,已成功部署到智元多款机器人本体,将具身智能推上了一个新台阶。

  据智元机器人介绍,通过ViLLA创新性架构,公司在五种不同复杂度任务上测试GO-1大模型的表现显示,其平均成功率提高了32%。其中,倒水、清理桌面和补充饮料任务表现尤为突出。

  值得一提的是,在智元机器人4月初公开发布的一则招聘公告中,关键岗位就包括多模态大模型算法研究员/工程师。据公司透露,今年1月,智元机器人已累计量产下线1000台通用具身机器人。

  应用价值日益显现

  头豹研究院研报显示,2023年中国多模态大模型市场规模达到90.9亿元,预计到2028年将增长至662.3亿元,年复合增长率达48.76%。该研报认为,这一快速增长主要归因于技术创新的持续驱动,以及行业需求的强劲推动。此外,随着多模态大模型在图文生成、跨模态检索和视频内容分析等领域的技术突破,其在各领域的应用价值日益显现。

  “过往人工智能应用有非常多的宏大场景构想,但真实环境存在的复杂问题更考验大模型对于混合图文的理解推理能力。”在徐立看来,AI之道,在于百姓之日用。每天的高频日常使用才能从真正意义上辅助人工智能通用模型的大规模发展。

  “在日常生产生活高频出现的需求场景中,以保险理赔为例,传统方案通常高度依赖事先设定的规则,根据规则定向去找文档里面的关键信息,比如总金额、治疗开药日期等。”徐立表示,如今通过多模态数据的深度整合与强推理能力,能够更全面地捕捉全部文档的全量信息,判断商业医疗保险理赔材料是否符合理赔要求,并以开放式的方式进行推理,检查诸如是否存在乱开药、乱检查、材料缺失或者材料对不上等问题。

  徐立表示,现实生活中小额理赔的材料审核往往需要3至7天的时间,而交给人工智能,从测试情况看,平均时间可大幅缩减至1分钟。

  除此之外,徐立还介绍了例如在线上购物比价、商铺运营、剪辑视频、题目讲解与分析等多个日常高频场景中使用大模型进行效率提升的案例,进一步传递出大模型在日常生活中的实用性。

  徐立认为,当人工智能聚集了人类现有的大量平均水平的知识后,能够通过触类旁通的能力,形成一种对于开放性问题的确定性应对能力,进一步完成从模型到客户使用的“最后一公里”。

  “我们是从视觉智能开始起步的,当时我们的很多场景设置都非常宏大,包括城市管理、智能工业、电网、物业、运营等,其中一个比较重要的原因是当时的模型只能针对单一任务提供闭环价值,通用性不够强。”徐立表示,在如今的通用人工智能时代,那些“看不见摸不着”的技术能够真正走进“寻常百姓家”,并且能够在多个日常细分场景中带来价值闭环。

  上市公司深度布局

  业界普遍认为,大模型的核心竞争力已从单一模态处理逐步转向跨模态融合与深度推理,并在此过程中使得大模型的价值不再仅是单点工具,而是有望进一步重塑系统性生产力。在此趋势下,不少上市公司通过自研、合作等方式加速布局多模态大模型,并在垂直领域持续深度优化。

  企业安全隐患排查,往往需要工作人员“一天三班倒”持续现场巡检。面对繁杂的排查工作,如何帮助工作人员减负增效?对此,海康威视正探索基于海康观澜大模型技术体系,将多模态大模型能力应用到安全生产管理领域。

  “将多模态大模型引入到日常安全生产管理工作中,对现场可能存在的隐患问题进行智能识别和快速判断,结合安全生产知识库,给出详细的排查依据和整改措施,不仅可以让现场排查工作效率得到提升,还可以通过远程巡查快速发现问题。”海康威视表示。

  据海康威视介绍,依托企业安全生产管理平台,结合多模态大模型,可有效实现远程隐患智查。例如针对生产区、储罐区、仓库区的跑冒滴漏、油封破损、表计破损、外观裂纹、螺栓脱落等隐患,安全员可以将日常点巡检规范导入系统,并筛选匹配对应的视频点位,配置完成后一键启动排查,自动生成隐患分析报告。

  海康威视表示,海康观澜大模型加持安全生产,助力企业构建更坚实的安全防线。未来将深入更多业务领域,探索新的应用场景,助力形成更准确、更高效的管理模式。

  “公司在电力巡检领域所应用的产品包括轮式机器人、四足机器人以及无人机等。”泽宇智能日前在互动平台上透露,公司已于上月完成了“基于多模态融合的智能巡检模型算法”的评审。目前,公司正在积极参与轮式机器人的集中检测工作。

  汉仪股份此前在接受机构调研时表示,公司长期布局人工智能应用技术,一直通过自研、投资并购等方式,持续扩大研发团队尤其是AI技术团队,加大资源投入进行AI技术的应用研究,尤其是多模态大模型的应用研究,探索各种大模型在文字、图像、视频等设计领域的应用创新落地。

  据介绍,针对服饰类电商客户,汉仪股份研发的AI模特商拍和商品图合成技术,替代了传统拍摄方式,为品牌营销图智能换脸、智能合成商品背景图等功能,降低了客户商品拍摄与处理成本,提升了商品上架速度和展示效果;针对视频电商客户,其研发的AI视频剪辑解决方案,替代传统人力剪辑方式,可大大降低剪辑处理的成本,提升营销内容生产和投放效率。

  “结合文本、图像和视频的多模态内容生成技术,公司布局开展了营销海报生成、虚拟换装、图生视频、视频混剪等方面的产品规划和研发工作。”汉仪股份表示,上述应用已在公司“kreatr”工具平台上线,并已和外部企业展开商业合作。

更多资讯或合作欢迎关注中国经济网官方微信(名称:中国经济网,id:ourcecn)

查看余下全文
(责任编辑:王婉莹)