位置:首页历史解密>商汤加入AI大模型混战,更看重模型能力而非规模

商汤加入AI大模型混战,更看重模型能力而非规模

所属分类:历史解密 编辑:财经十一人官方 访问量:4144 更新时间:2023/12/18 0:04:31

不仅有自己的大模型,也在为行业内其他公司的大模型提供基础设施服务

位于上海临港,商汤人工智能计算中心是亚洲最大的人工智能计算中心之一

|施然

4月10日,AI公司商汤科技公布了“日日新SenseNova”大模型体系,包含自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力。

近期,不少科技公司都发布了或是正在筹备自己的AI大模型,包括百度、阿里巴巴、华为等。美国公司OpenAI发布的ChatGPT以及GPT4引爆了这一波浪潮。这次,商汤也发布了自研类ChatGPT产品“商量(SenseChat)”,能够提供包括:编程助手,帮助开发者编写和调试代码;健康咨询助手,为用户提供个性化的医疗建议;PDF文件阅读助手,能轻松从复杂文档中提取和概括信息等能力。

商汤科技联合创始人、首席科学家晓刚表示,“商量”已开始内测,未来主要面2B业务。

除对话外,商汤也基于“日日新SenseNova”大模型体系,自研了AI绘图、AI视频制作和生成工具平台,包括秒画、如影、琼宇、格物等。不过,在现场演示后,有网友质疑,商汤所演示的精选模型中出现AI模型站civitai的图片,疑似直接搬运图片伪装生成。

对此,商汤立即回应称,现场生成的高质量图片都是基于商汤自研大模型生成。“秒画SenseMirage”融合了超10亿参数的商汤自研文生图生成模型,同时支持第三方开源模型。通过商汤秒画平台,用户可以免除本地化部署流程。导入开源模型后,平台对该模型加速推理(作图),快速生成高质量画作。在商汤技术交流会现场演示环节中,不仅演示了基于商汤自研AIGC模型的作图,也介绍了用户可导入开源模型并通过秒画平台对该模型加速作画的能力。

用户无需复杂的编程知识,只需给定提示词,秒画“SenseMirage”即可生成相应图像,最高可实现6K高清图。

虽然行业已经热到发紫,但目前在中国,做AI大模型门槛很高,挑战很大。

AI领域的三要素是数据、算法和算力。目前中国科技公司相对较难的是数据和算力方面。商汤科技董事长兼CEO立表示:“大模型参数量将以指数级的速率提升,而数据量随着多模态的引入也将大规模增长,导致对算力需求的剧增。商汤希望在模型的迭代速度及处理问题的能力上可以日日更新,不断解锁AGI(通用型AI)的更多可能。”

商汤成立于2014年,于2021年在港交所上市。目前,商汤在AI领域的投入规模已经超过百亿。

徐立表示,商汤自2019年开始投入大模型,再加上2022年已经投入使用的算力中心,商汤并不需要再额外投入太多,甚至已经开始通过大模型获得收入。

从改造算力中心到提供自有算力服务

商汤以机器视觉技术起家。在视觉的任务中,有大量细分场景的问题需要解决,例如在城市中有诸如智慧交通、智慧停车、智慧社区等。到一些专业领域,例如医疗、金融等,就需要有不同数据和知识的模型和算法。过去的做法是针对单一小任务,细分场景任务训练细分模型。

为此,商汤内部曾经讨论过是否有更好的解决方案。徐立说,结论是要做通用型的大模型,在下面延伸出各个行业的小模型。通过前期的训练测试,商汤发现,通用型模型无论是在传统视觉检测识别方面,还是在智慧城市中,以及无人驾驶上,都有比较好的表现。

训练大模型需要大量算力,OpenAI训练出GPT4用了10000万英伟达A100。商汤最初的做法是改造算力中心。算力不是“堆卡”,还需要做到卡间连接、提速,才能实现高效训练。徐立说,早期的时候,几乎是“除了土建,所有工作都要重做一遍,包括升级机柜、改变算存比例、重新连接计算等。”

今天,依然有不少科技公司,尤其是初创企业,只能选择租算力。商汤发现这一模式成本高昂,还不如自建算力中心。2019年,商汤开始建设位于上海临港的算力中心,2022年投入使用,目前共有5000P算力,未来还将进一步扩建。

算力是个门槛,但是对于目前大多数公司来说,还在起步阶段,用不到太高的算力。商汤的算力中心除了自用,也将算力能力对外输出。徐立说,目前已经有8家客户正在使用商汤的算力中心。

商汤大模型的特点

目前,AI大模型已经进化出多模态能力,除文字外,还能进行图片、视频、音频等模态的交互。徐立认为,商汤在视觉领域的技术、数据沉淀,能够帮助他们在多模态大模型方面的推动。

在训练中文大模型时,通使用的是互联网上的中文数据。包括新闻稿、论坛帖子、内容社区、社交网络上的文字讨论等。徐立提到,商汤因为自身业务,解决了很多现实世界的问题,从而积累了大量真实场景下的数据。

例如,互联网短视频中的视频数据,可能因为滤镜或是其他技术工具,导致“失真”。这类数据在帮助AI解释真实世界时,容易产生偏差。

此外,商汤认为,模型的规模大小并不重要,重要的是模型的能力。

在徐立看来,通用大模型就相当于一个具备全方位基本素质的人,可以理解为一位名校毕业的大学生。大学生要在工作中发挥价值,依然需要进行某些特定领域的培训,也就是在大模型基础上,通过细分领域和场景的数据培训,变成更易用、更专业的小模型。过去没有大模型基础的小模型,则像是一开始就专门学习某一技术学科的学生。

商汤称,目前客户可根据实际应用需求,调用“日日新SenseNova”大模型的各项AI技术能力,低门槛、低成本、高效率地实现各类AI应用。

“日日新SenseNova”也已为商汤的自身业务带来了一些突破。例如在智能驾驶领域,基于视觉大模型,商汤称,目前实现了可识别3000类物体的BEV环视(Bird’s eye view,鸟瞰图)通用感知算法的实车量产,也构建了感知决策一体化的自动驾驶多模态模型,带来更强的环境、行为、动机解码能力。

保障AI的安全性?

目前,AI领域如火如荼,也引发了不少质疑和担忧。美国、中国、欧洲等政府都在考虑制定AI相关安全准则。包括特斯拉CEO马斯克在内的超过1000多名美国AI从业者共同呼吁,暂停开发比GPT-4更强大的AI系统至少半年时间。

徐立认为,保障AI安全和伦理的核心,是在使用过程中划清边界。例如,应用在医疗、金融等专业领域,就要求极高的准确度。

安全担忧或许是新技术爆发时的必经过程。就像汽车最早在英国使用时,当时不是人问了一个很重要的问题:“这个车开到马路上吓坏了我的马怎么办?”解决方案是划分道路,把车和马分开,最后大家发现,不需要马了,就也不用回答这个问题了。

徐立说:“这个问题到今天我觉得都没有人能回答,如果纠结车不能吓坏当时的主流交通工具,那永远找不出一个方案。”这意味着,只要行业对新技术有需求,就一定会共同商议出一个治理规范。

徐立认为,至少到目前,AI还没有展现出“危险”,是机器准确度不断提升后的一次跨越式发展。

标签: 商汤算法ai模态算力混战大模型

更多文章

  • 车路协同:商汤绝影的野心与耐心

    历史解密编辑:新智驾标签:商汤,车路,云端,智慧城市,绝影

    商汤绝影回答的最核心问题:车路协同的商业模式到底还有什么解法?作者 | 罗博编辑 | 文靓你有没有在路上开着车,突然出现堵塞,想着“前方一定有道路施工、事故或者交警查车”,但当你越过漫长等待,到达另一端时,却发现马路一片平静、并无意外发生的经历?这就是著名的“幽灵堵车”现象——仅仅是因为一些司机的微

  • 近70%股份解禁,商汤2000亿市值腰斩丨最前线

    历史解密编辑:36氪标签:商汤,上市

    文 | 周有辉编辑 | 彭孝秋今日一开盘, AI独角兽商汤科技股价暴跌,一小时内跳水43%。商汤科技由香港中文大学信息工程学系教授汤晓鸥于2014年创办,是目前收入排名最高的AI公司,业务涵盖智慧商业、智慧城市、智慧生活、智能汽车四大板块,其战略合作伙伴包括高通、华为、小米科技、本田汽车等。股价跳水

  • 大模型时代,商汤怎么做?

    历史解密编辑:极客公园标签:商汤,时代,模态,大模型,计算量,神经网络

    综合报道8min read大模型时代,商汤怎么做?凌梓郡2023/04/11摘要「日日新」大模型体系,全面开放 API。当人们纷纷猜测,GPT-4 的参数量,将会在 GPT-3 的 1750 亿参数的基础上如何再增加时,OpenAI 选择了不公布。这种期待也反应出了一种普遍认知:随着参数量级的增加,

  • 商汤发布“日日新”大模型,加入AI大战的商汤该咋看?

    历史解密编辑:江瀚视野标签:商汤,盘古,文生,日日新,大模型,ai大战

    最近几天,各家大厂纷纷推出了属于自己的大模型产品,从百度的文心一言到阿里的通义千问再到华为的盘古,可谓是你方唱罢我登场,就在4月10日,商汤也开始发出了自己的大模型,加入AI大战的商汤我们该怎么看?大模型战场的未来又该怎么分析呢?一、商汤发布“日日新”大模型据华尔街见闻的报道,商汤科技董事长兼CEO

  • 跑出49000个商用模型,商汤首谈AI“营造法式”

    历史解密编辑:IT时报-新媒体标签:商汤,营造法式,梁思成,佛光寺,林徽因,徐悲鸿

    图源:商汤手势一摆,机械臂位移,深入佛光寺模型殿内,一束光穿过黑暗,AR渲染出这座中国现存最大的唐代殿堂式木结构建筑,上千个构件,没有一颗铆钉,全靠榫卯紧密咬合在一起,仿佛重走了梁思成、林徽因的佛光寺发现之路。佛光寺等中国古代著名建筑穿越千年,与AI大规模落地竟有异曲同工之妙——标准化。以一个木匠的

  • AIGC时代商汤如何用算力提升生产力

    历史解密编辑:亿欧标签:商汤,飞轮,算力,人工智能,aigc

    随着ChatGPT等大语言模型AIGC应用在全球引发一场AI狂潮,2023年的AI产业也不再寂寞。既有产业界各家科技公司争相推出新品的你追我赶,也有各路大V、大佬轮番发声的褒贬不一,但大家公认的是——一场堪比工业革命的产业剧变,正在2023年发生。AI算力是ChatGPT的核心基座,而商汤已率先布局

  • 商汤科技推出AI内容创作社区平台“商汤秒画”,可定制训练专属LoRA模型

    历史解密编辑:芥末堆看教育标签:ai,科学家,大模型,商汤科技,lora,社区平台,商汤秒画

    图源:Unsplash芥末堆文 今日,商汤“日日新SenseNova”大模型体系正式问世,商汤科技SenseTime在公众号详细介绍了基于该体系的AI内容创作社区平台“商汤秒画SenseMirage”。商汤自研的AIGC文生图大模型拥有超10亿参数,支持二次元、三次元等多种生成风格。用户给定提示词,

  • 商汤语言大模型实战表现如何?“商量商量,都能解决”

    历史解密编辑:量子位标签:商汤,大模型,逻辑推理

    自然语言是实现人与机器更便捷高效沟通的重要桥梁。4月初,商汤“日日新SenseNova”大模型体系正式与大家见面,该体系下率先出场的便是 “商汤商量SenseChat”。那么,“商量”好商量吗?具体能做什么?今天就专门给大家解读解读。作为千亿级参数的自然语言处理模型,“商汤商量”使用大量数据训练,并

  • 港股异动 利好叠加 商汤-W大幅反弹逾23%

    历史解密编辑:格隆汇标签:商汤,港股,概念股

    格隆汇11月7日丨港股元宇宙概念股拉升上扬,商汤-W(0020.HK)大涨逾23%领衔走高,报1.64港元,暂成交3.25亿港元,总市值549亿港元。日前,公司与香港理工大学签署合作备忘录,共同开发及拓展与“元宇宙”概念相关的技术,致力把科研成果转化为实际应用,融入日常生活。另外,11月1日商汤与新

  • 商汤发布多模态多任务通用大模型“书生2.5”

    历史解密编辑:多知标签:书生,通用,模态,商汤,大模型,多任务

    多知网3月15日消息,商汤科技日前发布多模态多任务通用大模型“书生(INTERN)2.5”。据介绍,“书生”由商汤科技、上海人工智能实验室、清华大学、香港中文大学、上海交通大学于2021年11月首次共同发布,并持续联合研发。商汤科技表示,“书生2.5”拥有30亿参数,“是目前全球开源模型中Imag