专访商汤智能产业研究院院长田丰：推动“冰山之下”的大模型技术创新探索

沃鑫才子时间2024-03-19 分类科技浏览54349

每经记者可杨每经编辑文多

钱学森在《从飞机、导弹说到生产过程的自动化》一书中写下：“用机器代替人的体力劳动，是第一次工业革命，即机械化；用机械系统来替人作非创造性的脑力劳动，是第二次工业革命，即自动化。”

3月15日，由工业和信息化部工业文化发展中心牵头成立的AI应用工作组主办，每日经济新闻承办、数智未来场景实验室协办的“Sora的启示：AI应用再飞跃”主题沙龙活动在京成功举办。

活动期间，商汤智能产业研究院院长田丰在接受《每日经济新闻》记者专访时提到，当前我们正在经历“机械化”到“自动化”阶段。

大模型，是人类迈向自动化的关键基础设施。随着Sora的推出，围绕大模型的竞争继续提速。就Sora带来的启示、智能基础设施的建设、算力的普惠之路，《每日经济新闻》记者与田丰展开对话。

田丰认为，我们既要借鉴OpenAI的“踏脚石理论”，同时也要学习钱学森所推崇的科研要遵循“冰山理论”。“我们不能只看水面上，别人做到哪儿，我们就马上去跟，也要看到水面之下应该怎么走。”田丰表示。

Sora的启示：寻找踏脚石

Scaling Laws（尺度定律），指的是模型训练计算量、训练数据规模、模型参数量与模型效能之间的正相关关系，一个更通俗的说法是“大力出奇迹”。

“Sora虽然不完美并且处于早期阶段，但它确实是尺度定律的又一次验证，也是一个大模型工程化的进展。”在田丰看来，Sora的诞生，首先代表着尺度定律的又一次成功。

田丰指出，Sora所采用的Diffusion Transformer（DiT）架构，是多种已有架构之间的工程化融合，故而具备Diffusion（扩散）等架构的长处，也不可避免地带有一些缺陷。目前，全球范围内的研究者同时在探索不同架构方向。田丰将这种探索比喻为一棵科技树，Sora是在其中某一条路径上领先，而其他研究者会在其他路径上积极探索，最终互相借鉴，让AI基础科研更快发展。

田丰认为，Sora所带来的另一个启示是，Sora是OpenAI迈向AGI（人工通用智能）的“踏脚石”。

“新奇事物的重要性在于，它们往往可以成为踏脚石探测器，因为任何新奇的东西，都是催生更新奇事物的潜在踏脚石。”OpenAI科学家在其撰写的《为什么伟大不能被计划》一书中，提到了“踏脚石”。

在专访中，田丰也反复提及“踏脚石理论”。他表示，在基础研发中，想达到A点，有可能需要往反方向走到B点，进而再到达A点。因为创造力是一种“搜索”，基础研发是在庞大“解空间”中通过多个路径深入探索，而无法完全通过目标找到最短的直线。“怎么去定义踏脚石，就是一定要有新奇性。”

田丰表示，基于这个理论，中国技术研发也要找到更多踏脚石。“你有更多的踏脚石之后，就能发现跨领域、跨学科的相关性，上面‘长’出的基础研发突破就会更多。”

除此之外，田丰同样谈到钱学森所推崇的“科研遵循‘冰山理论’”，即人们看到的AI“技术突变”只是水面之上的“冰山一角”，水面之下还有更多“隐藏创新”在支撑。“我们不能只看水面上，别人做到哪儿，我们就马上去跟，也要看到水面之下基础科研布局，应该怎么走。”

那在大模型竞争中，水面之下的技术应该如何挖掘？

田丰认为，目前大家有不同的探索方向。例如，自动驾驶的大模型旨在模拟现实世界，实现自动驾驶的仿真，并通过神经网络来完成感知、决策、执行及反馈等任务。而特斯拉将自动驾驶模式迁移到人形机器人上。于是，人形机器人的出现，又可以进一步作为数据和反馈来源，验证基础大模型对现实世界的认知误差、纠正幻觉。

当前对于大模型的验证还依赖于人类反馈强化学习（Reinforcement Learning from Human Feedback，简称 RLHF），而这面临反馈速度慢、成本高以及人的自身认知偏差等问题。因此，科研界同样在尝试采用“具身智能”等其他新研究方向，以在复杂多变的物理世界环境中直接验证机器智能，让人工智能不再局限于对人的模仿，而是更直接地探索世界、纠偏认知。

“通往AGI的路，绝对不是只有一条。”田丰认为，基于这样多元化的探索，才会有可能逐步到达AGI。而单纯依靠模仿人类思考方式的大模型，对于极为复杂的整个物理世界，尤其是人类已知知识以外的更大的知识领域是无法去探索的。正如钱学森所说――“Nothing is Final”，现在认为正确的人类知识，在下一个时代看来就会具有局限性和偏差。

数据竞速：AI合成数据大有可为

对于通用大模型而言，尺度定律（Scaling Laws），有没有可能在某一阶段失效？

“（在）训练数据用光时”――这是田丰的答案。

田丰认为，数据多模态非常重要。“文字语言具有最高的知识密度，但是光有文字语言也不够，视觉和语言的融合也很重要。”他表示，纯视觉学习未必会学到物理之间的因果关系，视觉加语言的数据，会带来更好的训练效果，让大模型能够理解复杂环境、复杂任务中的表征和表意内容，也能让Sora现在存在的一些物理上的混乱，得到改善。

从数据层面看，田丰认为，目前存在多个潜在的训练数据增长点。

首要的是人们日常使用的应用。例如微博，每日有2.6亿用户在微博发帖，这为模型训练提供了丰富的增量数据。其次，具身智能的传感技术，同样能够提供数据增量，例如自动驾驶汽车和人形机器人都是数据收集器。此外，商汤目前的卫星遥感智能解译技术，能够观察地球物理环境每一天发生的多维度变化，同样提供了大量的数据资源。

当现实世界产生的数据仍旧不足时，就需要同时在AI合成数据层面进行科研探索。田丰介绍，目前，合成数据仍处于前期阶段，生成的数据质量参差不齐。业界期待多模态大模型不仅能输入多模态数据，同时还能产出接近真实世界的高质量多模态数据。

但当前，如果视频数据自动标注的描述文字不精准，则会造成“Garbage in，garbage out”（指输入的垃圾数据会导致大模型输出的垃圾结果），其风险依旧摆在AI合成数据面前，各国AI基础科研团队正在攻坚。

对此，田丰则认为，业界都憧憬做成“世界模拟器”，但目前生成的视频数据与真实世界仍有较大距离。Sora所生成的最好的视频内容是“我的世界”游戏视频，几乎与玩家实际体验无异。这得益于OpenAI对“我的世界”游戏公司与游戏引擎的收购。

游戏引擎为了让玩家感觉更真实，无论是光照、纹理还是人和物体之间的交互，都比较接近现实世界。所以Sora用这样的训练数据来生成，使得大模型能够从中学习并理解游戏中的复杂因果关系，进而生成逼真的内容。更为重要的是，游戏世界会一直产生大量较低成本的世界仿真数据，比从现实中收集要快很多。

“但它（指Sora为代表的大模型）是不是真正理解现实世界、物理世界的所有因果规律？其实，人类目前仍没有完全理解和掌握。”田丰继续说道，从这个角度而言，合成数据很重要的一点是，我们应像对抗神经网络的逻辑一样，必须有另一个模型验证合成数据与事实的接近程度。

将视线聚焦于当前的数据竞争态势，田丰表示，中国拥有14亿人口，每天都在产生海量的数据，这就意味着巨大的潜力，我们有能力以更低的成本来采集这些数据。此外，中国还拥有106亿的物联网终端，其中尚未采集到的各类数据――如工业传感信号等，都是极具价值的资源。若能成功采集到这些数据，将成为训练垂类大模型的优质素材，也能帮助大模型更深入地理解产业场景中事物之间的因果关系。此外，在合成数据方面，大家也均处于起步阶段，还在互相竞争。

田丰认为，人工智能是当今社会数据资源最大的需求方，若能在数据领域构建出完善的体制机制，使数据成为市场化流通的关键要素，那么便能在数据层面持续推动尺度定律，加速大模型的进步。

如何实现AGI？两条路径并行

如何实现AGI？田丰提出两个方向。从生成智能的角度来看，生成式人工智能正在逐步转向更具创意性的工作，这需要更多大模型的“幻觉”想象力。在这条路径上，“幻觉”并不是坏事，创作科幻小说、科幻电影就体现出了这一点――想象力在其中扮演着至关重要的角色。爱因斯坦也曾经提出“想象力比知识更为重要”。

另一个方向则更加侧重于科学和工业产业具体问题的解决，这就需要致力于减少幻觉，持续提高准确度和可靠性，一旦能够达到人类科学家、工程师的平均水平，突破“工业红线”，大模型就能全面普及到各个行业产业和科研领域。

在田丰看来，大模型实则是公共基础设施的一部分，是智能基础设施，而基础设施的特点就是重资产型、重资本型。

在现有情况下，大模型研发与应用是一个长期投资。一方面，基础模型不能跟进到GPT4，就自认为“领先全球”，另一方面，在国产基础模型与国际缩小差距的同时，也要积极探索新的发展方向。“开拓者创造方向，跟随者选择方向，领先者并不代表永远的成功，而可能被具有强大创新能力的跟随者赶超。”从这一角度看，长周期持续的人工智能基础科研、基础建设资本投入至关重要，这也是充分发挥制度创新的机遇。

尽管资本通常会关注盈利问题，但也不是绝对，田丰用他在云计算产业的经验举了个例子。2012年前后，云计算公司主要的用户群体是网站站主，且许多是个人网站站主，资金相对匮乏。新一代基础设施的早期，是投资与“装置”期，表象上就是盈利难。

然而，根据世界银行《为发展提供基础设施》报告分析，基础设施投资、“装置”期通常需要10年甚至15年，而基础设施投资建设往往伴随着经济周期的上升阶段，当基础设施建设成熟，则会持续产生广泛普惠的社会全产业价值。例如当前，云计算已经逐渐成为企业和科研通用型技术，广泛应用于金融、能源、交通等多个领域。因此，人工智能基础设施的建设在前期更多地依赖于国家大基金和大型企业的投资，类似于高速公路、5G通信网络的建设。这种资本增密的投资模式对于推动新质生产力技术的发展和新一波经济繁荣至关重要。

因此，目前我们仍处于基础设施建设阶段，为了将来能建成“万里长城”，先要把地基打好。在基础设施的“装置”期，需要在超大规模AI算力中心、统一数据市场平台上追加投入，充分挖掘并利用我国的数据资源、大市场规模和科技人才储备。

如何促进应用繁荣？算力普惠是关键

在重资产、重资本型的背景下，对于未来“百模大战”的终局，田丰用操作系统的竞争来举例：

“当时多家厂商的很多人觉得（操作系统）就是‘大B’的事情，即大模型从头部大企业端赚钱。以1981年个人电脑操作系统的‘春秋战国时期’为例，UCSD Pascal P-System（一种操作系统）单机授权费高达450美元，CP/M-86（同为一种操作系统）授权费是175美元，而微软MSDOS仅向买PC的消费者收60美金，而IBM可免费使用微软开发的操作系统，但不能独占使用权。

“微软选择的差异化战略是什么？比尔・盖茨在《未来之路》一书里写下：‘我们的目标不是要直接从IBM（大企业）那里赚钱，而是把软件平台的特许使用权出售给个人计算机工业（所有硬件）的生意。’比尔盖茨的目标，是计算机的使用接近免费时，自己的操作系统将占有最大市场份额。

“虽然大模型目前还处于企业级应用市场，但伴随AI芯片算力价格的持续下降、大模型个人终端涌现，将会呈现大模型操作系统的‘马太效应’，头部厂商占有最大市场规模。”

田丰认为，目前大模型的方向并非是向大型企业收取高额费用，而是应当通过低价、易开发、快迭代、硬件兼容等竞争策略致力于最大限度抢占市场份额，并积极吸引各类AI新型硬件的支持。只要有越来越多的、不同类型的硬件终端支持同一款大模型，它就能像操作系统一样受到AI应用开发者的欢迎。而终端硬件选择大模型，则源于消费者用户群体的驱动，而用户之所以选择某一款“操作系统”，是因为其上集成了众多由小微或个人开发者开发的长尾大模型应用。这是Windows和iOS等头部操作系统得以成功的原因，也是大模型突破红海的一条已验证的战略路径。

目前，应用所面临的主要挑战体现在两大方面。

首先是算力成本问题。若算力成本持续高价，长期来看，必然会抑制大模型应用创新的蓬勃发展，就像互联网APP早期不是靠用户每月交纳30美元会员费，而是以近乎免费的使用权拉动新用户“尝鲜”。

因此，AI芯片行业势必不断降低成本，并通过智算中心架构创新推动AI云算力的普及化、全民化。若GPU领域不进行快速改革，业界势必出现新一代的芯片产品、计算力架构，以降低成本并促进AI应用的广泛发展。

另一方面，大模型的持续升级也会给应用带来挑战和机遇。由于大模型每月、每季度都在更新升级，应用在其原有基础上的改进可能很快被新版本大模型所替代和覆盖，即大模型操作系统和应用的“边界”尚未确定，大模型不断尝试做应用的功能，应用则补上当前版本大模型的“短板”，降低消费者使用门槛。

因此，应用开发商加深行业应用“护城河”的同时，可寻求与大模型的解耦，或提供跨多个大模型的统一服务入口、一站式用户开发环境，并寻找产业中最具盈利潜力的商业路径。

这样一来，即便大模型升级，应用也能迅速跟上或匹配更优竞争力的其他模型，保持应用层对私域用户的竞争力。但长远来看，应用开发者依旧会逐渐趋向使用更为稳定、功能强大的头部大模型底座。

围绕算力问题，田丰表示，目前，我们正处于人工智能时代的算力初期阶段，算力成本仍然较高，只有大型企业能够负担。然而，随着国产AI芯片、国产超大规模AI智算中心技术的不断进步，算力成本就会逐渐降低，每个人也能接近以免费的方式享用新一代人工智能的科技红利。庞大市场的吸引力，将倒逼AI模型架构和AI算力集群架构的深刻变化。

因此，田丰认为，当前正处于AI计算大变革的前夜。他表示，当AI算力成本降至拐点时，社会需求量与用户规模将会迅速飙升，助推全民AI创业热潮，普通用户会发现算力成本已经逐步平摊到广告成本或交易成本里。“科技发展史证明智能产业普及期是这样的，但怎么会发生？就要回到新一代人工智能基础研发的路径上，要找到新的踏脚石，一步一步走过去。”

（责任编辑：董萍萍）

生成式AI如何寻求进一步突破？北京航空航天大学巢文涵：调用和激发AI潜力 “2024数智科技沙龙”首场活动圆满落地