位置:首页历史解密>商汤大模型,AI时代的功守道

商汤大模型,AI时代的功守道

所属分类:历史解密 编辑:36氪 访问量:4156 更新时间:2024/2/29 11:01:06

从AI For Science 到AI For Business,商汤拥有绝对的发言权。到了大模型战场,这个状况也不例外。

作者|乔纳斯

商汤大模型体系,“日日新”

4月10日,上海临港,商汤技术交流日,现场座无虚席。

人们在期待商汤的大模型产品,正式介绍前,商汤科技董事长兼CEO徐立展示出一张幻灯片:海报里,一个渺小的人形背影,孤独、却又憧憬地站在一栋赛博朋克式的建筑前,大门已经敞开。

“这张海报就是由大模型生成的。”徐立说,“我们这么多年一直在投入建设超大规模算力,训练越来越大的模型。以GPT-4为代表的超大模型,让我们看到了通用人工智能的曙光。”

通用人工智能(Artificial General Intelligence,简称AGI),是人工智能皇冠上最璀璨的宝石之一。OpenAI 之所以震惊四座,也是因为在GPT系列的模型催化下,机器通过ChatGPT吐出了具备人类思维的结果。

这一次,扣响“通用人工智能”大门的,是商汤大模型。

发布会上,徐立正式介绍了商汤“日日新SenseNova”大模型体系,这是一套综合了视觉识别、自然语言处理、多模态、决策智能等领域的综合大模型。在演示环节,徐立和工程师们实时展示了AI生图创作、自动化编程、数字人生成、3D建模等多个应用。

技术维度更综合,场景也更丰富——这是商汤大模型系列的显著标签。

除了拿出有千亿级参数的自然语言大模型“商量SenseChat”之外,作为以计算机视觉起家的AI公司,商汤自然不会忽视自身多年在视觉信息上的积累。

将大模型延展至视觉识别、多模态领域,本身也符合人类获取信息的习惯。商汤科技联合创始人、大装置事业群副总裁陈宇恒分享了一组数据:整个互联网的文本数据做适当清洗后,只有不到 10个T,但是最大的图像公开数据集(由50亿张图像组成),大小是240T。

另一方面,如果将图像拆分成信息和代码,当中也包含了丰富的语言素材。徐立也在现场展示了真实世界可以囊括的数据集:一副常见的街景图像中,需要对建筑、机动车、行人、信号灯各个要素进行识别,再生成更加结构化的信息。

“商汤积累了大量视觉类信息,这类信息作为知识,输入我们的多模态网络中,会带来完全不一样的数据基础。”徐立谈到。

商汤正将视觉大模型作为核心技术突破点,以“日日新SenseNova”大模型体系为基座,逐步扩展至大语言模型等多模态路线,之所以叫“日日新”,也是因为商汤可以在以周为单位的数据输入上,达到日日更新。

目前,商汤不仅有自然语言大模型“商量SenseChat”,还一口气推出“秒画SenseMirage”(AI文生图创作平台)、“如影SenseAvatar”(AI数字人生成平台)、“琼宇SenseSpace”和“格物SenseThings”(3D内容生成平台)等一系列生成式AI模型及应用。

AI装备竞赛,商汤底气在?

商汤的大模型并不是一蹴而就的。

早在2018年前后,商汤就着手大模型初期需要的算力、算法、数据等筹备工作,在当时,这项基础设施还被大多数人称为“AI大脑”。

不论是通用大模型还是AI大脑,都有一项共同点:具备一定程度的泛化性。

所谓泛化,是指机器通过对已知数据的训练学习,从而对未知数据得出预测识别。举个例子,比如有天赋的远动员,可以在教练指导基本动作后,领悟出新动作;再比如一个聪明的理科生,因为数学学得好,也就能把物理学透。

回看商汤的大模型产品组合,从底层通用的“日日新SenseNova”,再到上层的语言对话、数字人、AIGC等多种应用,正是跑通了从通用模型到专属模型的发展链路。

“通用人工智能大模型,正发生革命性的变化,它的学习方式和解锁能力发生了根本改变,变成无招胜有招,能随机应变解决很多新问题。”商汤科技联合创始人、首席科学家晓刚表示。

但要想入局通用大模型,并不是谁都能拿到入场券。

算力是重要基础。商汤在成立初期,就极为重视建设自身的超算体系,徐立也在发布会上秀出了多年积累战果:历时五年,商汤建设了业界领先的AI大装置,大装置上总共有27000块的GPU芯片卡,可以输出5.0 exaFLOPS(即每秒进行五百亿亿次浮点运算)的总算力,是亚洲目前最大的智能计算平台之一。

如果将大模型的生成式AI诞生过程比作“炼丹”,那么作为GPU的算力,就是炼丹炉下燃烧的熊熊烈火。一个可供参考的案例是,为了跑出GPT-3.5模型,OpenAI使用了约1万颗英伟达GPU来训练。

空有算力的储备还不够,如何更有效地使用算力更为重要。这就必须提到一个关键概念:集群调优。

“1万张卡,理论上比1000张卡有10倍的训练速度,但如果没有从系统到训练框架、算法的联合优化,可能就只有2倍的效率提升,这从ROI角度是完全不划算的。”陈宇恒举例道。

另一个需要注意的技术难点,则是要保证长时间、无故障的运行时间。

按照行业普遍状况,1000张卡在训练时平均每天会有1张卡的故障率,那么当算力进一步提升,产生故障的GPU卡会越来越多。一旦万卡级的集群上线,每日平均无故障的时间可能只有1-2个小时,系统就无法有效训练模型。

为了保证计算集群的正常运行时效,商汤团队得益于多年经验,已经从硬件可靠性、软件容错能力等多个维度,在分布式系统和软件框架的设计上,让计算集群得以去支撑未来万卡级的人工智能大模型并行训练。

目前,商汤AI大装置不仅可输出5000P算力,还实现了多卡并行状态下的高算力利用率,支持最大4000卡并行单任务训练,还能持续7天以上不间断稳定训练。

商汤也会将这套大算力变得更加“产品化”。

“商汤之后会通过大装置的一套产品和解决方案体系,客户和合作厂家去开放。”陈宇恒表示。

大模型下半场:跑出To B方法论

将 AI 从实验室“抱出来”接受市场检验,是商汤自成立之初的基因所在。可以说,从AI For Science 到AI For Business,商汤拥有绝对的发言权。

到了大模型战场,这个状况也不例外。

作为AI技术的提供方,在“日日新SenseNova”大模型体系问世之前,商汤已经积累了不少服务客户的一线心得。

“我们去年就利用大模型去自动地标注数据、更新模式,当时很多合作伙伴还很难理解。”王晓刚谈到,如今,这种技术手段已经成为行业共识。

目前在智能驾驶领域,基于视觉大模型,商汤实现了可识别3000类物体的BEV(Bird Eye View)环视通用感知算法的实车量产,也构建了感知决策一体化的自动驾驶多模态模型,带来更强的环境、行为、动机解码能力。

基于商汤大装置生成的细分领域AI模型,更是在赋能千行百业。

在元宇宙领域,商汤基于大模型推出了数字人产品,其融合了文本生成图像、大语言模型等技术,较快实现了行业落地。2022 年初,商汤和宁波银行展开深度合作,为其打造了叫“小宁”的数字员工。它可以以拟人的客服形象,为客户提供各类业务知识和办理服务。

在生物医药科研领域,通过商汤的AI大装置和生物企业形成合作,为蛋白质结构的大模型研发提供了训练和推理的优化服务,最终实现将蛋白质结构的大模型预测时间缩短60倍,从而大幅度提高蛋白质结构预测的抗体筛选效率。

而在智能汽车领域,商汤在2022年上半年新增量产的定点数量已经超过300万台,位列智能车舱市场份额第一,通过AI大模型赋能的辅助驾驶以及智能车舱的产品研发,商汤的这套技术体系已累计服务了超过40款车型。

更重要的是,随着大模型深入行业,接入更多客户、合作伙伴后,大模型还会变得更加“聪明”。当商汤的客户、合作伙伴使用模型后,会产生更高质量的数据,这些数据循环后会再回灌到模型,使模型再次迭代,形成一个往复的循环。

“这就是我们所说的,模型内会产生核聚变,它就不光光是训练一个模型的问题,还有很多的工具能够让生态转起来,让模型变得越来越强。”王晓刚有些兴奋地谈到。

通用大模型的魔力已经涌现,传统大模型的开发,很多时候会面临较重的定制化问题,周期长且成本高,难以形成规模化效应。

王晓刚将其比喻为“小农经济的小作坊”,但随着大模型出现,其泛化能力可以在短时间内应对千行百业,不再需要过去大量的手动优化和重复训练,让训练成本急剧降低。

“通用大模型带来了人工智能范式的变化,通过人和机器模型之间的交互,我们能以极低的成本,高效的方式不断解决各个领域新出现的任务,使得研发效率大幅提升。”王晓刚说道。

标签: 商汤算法宇宙ai模态大模型功守道

更多文章

  • 类ChatGPT新玩家「商量」入场,商汤如何「日日新」?

    历史解密编辑:雷峰网标签:商汤,盘铭,宇宙,书生,日日新,chatgpt

    作者 |李梅编辑 | 岑峰在魔都的东南角临港新片区,商汤科技人工智能计算中心AIDC在2022年启动运营,楼宇俯瞰宛若芯片。自ChatGPT以来,国内各家对大模型的追逐马不停蹄,继百度「文心一言」、阿里「通义千言」之后,昨日下午,商汤终于在AIDC亮相了其自研千亿参数中文语言大模型——「商量Sens

  • 商汤科技纳入港股通 将迎来北水滋润

    历史解密编辑:市界投资汇标签:商汤,港股通,吴尚志

    继首次回购、高管禁售期延长之后商汤科技(0020.HK)再迎重大利好。今天(7月29日),深交所公告显示,商汤科技被纳入港股通标的证券名单,自2022年7月29日起生效。如果说前者是商汤科技对自身股票价值、业务前景、战略及长远发展的看好,那么后者则是市场对其价值的认可。同时,这也意味着,商汤科技会

  • 商汤科技营收增势痛失 何时化茧为蝶?

    历史解密编辑:首条研究院标签:商汤,化茧,任正非,增势,爱因斯坦

    作者:何乐怡编辑:李静风品:沈禾 车一来源:首财——首条财经研究院爱因斯坦曾言,耐心和恒心总会得到报酬。这种长期主义,在时下资本市场同样流行。不过,估值迷雾浸染中,分辨金瓜还是暗雷也是一项技术活儿。如想避免错付,除了耐心,还需一双慧眼。聚焦人工智能赛道,大势所趋、前景诱人没错;商汤科技,跻身“AI第

  • “商汤秒画”打造AI画图“模型超市”,心想画成

    历史解密编辑:量子位标签:算法,文生,ai,大模型,人工智能,商汤秒画,模型超市

    两秒钟,就能将你的想象变成“现实”。在商汤技术日上,商汤“日日新SenseNova”大模型体系正式问世,基于该体系的AI内容创作社区平台“商汤秒画SenseMirage”也一并亮相。商汤科技董事长兼CEO徐立现场演示了“商汤秒画SenseMirage”基于商汤自研AIGC模型的作画能力;也介绍了秒画

  • 商汤科技发布多模态通用大模型“书生 2.5”

    历史解密编辑:IT之家标签:书生,通用,模态,大模型,科学家,商汤科技

    IT之家 3 月 14 日消息,商汤科技于今日发布了多模态多任务通用大模型“书生(INTERN)2.5”,拥有 30 亿参数,号称是目前全球开源模型中 ImageNet 准确度最高、规模最大,同时也是物体检测标杆数据集 COCO 中唯一超过 65.0 mAP 的模型。据介绍,“书生 2.5”的图文跨

  • 商汤:推翻夏朝,建立商朝的缔造者

    历史解密编辑:潮汕小桀标签:商朝,商汤,王朝,夏桀,夏朝,缔造者

    商汤是中国古代历史上的一位重要人物,他是商朝的缔造者。商汤在夏朝末期是一位有权势的贵族,对夏桀暴政感到不满。据《史记》记载,商汤在夏朝担任宰相期间,多次劝谏夏桀,但夏桀不听劝告,反而将商汤贬为奴隶,加重了商汤的不满。商汤在得到一些贵族的支持后,发动了兵变,推翻了夏桀的统治,建立了商朝王朝。商汤上台后

  • 身处风口浪尖,商汤科技长期价值几何?

    历史解密编辑:财联社标签:商汤,吴尚志,人工智能

    来源 | 贝多财经近日,人工智能软件公司商汤(0020.HK)解禁消息再次居于各榜单热度之首。6月30日为商汤解禁的第一天,约有近70%的股份解禁,股价出来较大波动。从交易量看,当天成交量达19亿股,62亿港币,位列腾讯、美团之后,阿里巴巴之前;换手方面,相当于解锁股份已经换手9%。当日商汤也发布最

  • AI软件市场第一,看商汤AI标准化“战绩”

    历史解密编辑:市界投资汇标签:商汤,莱特,ai

    长期以来,由于应用场景高度碎片化,AI行业困于“手工作坊式生产”的窠臼中,标准化生产、大规模量产都是难题。但是AI第一股、AI软件龙头商汤科技,正在用自己的方式,逐步推动AI量产式创新的实现。包含AI软件市场和计算机视觉子市场在内,商汤科技共计斩获了7项“市场第一”。 1936年,航空工程师西奥多

  • 上市圈钱、暴力裁员,商汤科技“画饼”难“充饥”

    历史解密编辑:DoNews标签:裁员,上市,宣扬,科学家,商汤科技

    撰文 | 因 客编辑 | 杨博丞题图 | IC Photo日前,港股上市的商汤发布了2022年的财务报告。财报显示,2022年,商汤科技实现营业收入38.09亿元,同比下降18.97%,归属母公司净亏损60.45亿元,亏损同比减少64.73%。商汤成立于2014年10月,是一家行业领先的专注于计算

  • 商汤版ChatGPT「商量」来了!开放API,基于千亿参数大模型

    历史解密编辑:量子位标签:商汤,宇宙,算法,大模型,chatgpt

    金磊 发自 凹非寺量子位 | 公众号 QbitAI国产ChatGPT之战,已然是大步迈进白热化阶段。就在刚刚,商汤正式发布自研类ChatGPT产品,名曰商量(SenseChat)。单单是这个名字,便值得说道一番。商量的“商”,不仅体现了它是商汤自家“商字辈儿”的产品;从整体来看,更是具有商讨、交换意