位置:首页历史解密>二十张图无门槛训练大模型,商汤「秒画」不止文生图

二十张图无门槛训练大模型,商汤「秒画」不止文生图

所属分类:历史解密 编辑:界面新闻 访问量:2490 更新时间:2024/1/25 9:23:05

不久前,发布会上所展示的生图样图被发现有两来自开源模型网站Civitai,商汤大模型的开源逻辑并未被市场理解。商汤也在第一时间回应,“秒画SenseMirage”是一个包含商汤自研AIGC大模型便捷的LoRA训练能力,并提供第三方社区开源模型加速推理的创作平台,旨在为创作者提供更加便利、完善的内容生产创作工具。秒画“SenseMirage”不仅融合了超10亿参数的商汤自研文生图生成模型,还支持一键导入多个平台的开源模型或上传用户本地模型并对其进行特异性推理加速优化,结合自研模型及训练能力,用户可免除本地化部署流程,并基于开源模型自训练模型,高效地生成更多样的内容。

在近日的一场采访中,商汤智慧决策与游戏事业部总经理刘宇表示,在商汤“日日新”大模型发布会上,被质疑的两张图片确实来自Civitai网站。但这并不涉及到商汤抄袭模型,而是提供第三方社区开源模型加速推理创作平台的体现。

“展示那两张的样图的实际目的在于告诉大家,商汤秒画的本质定位是一个平台,而不是单纯的文生图产品。用户除了可以用商汤自研的文生图模型进行创作,同时可以选用像Civitai这样的三方社区开源模型来使用。”刘宇称。

根据介绍,秒画的实际定位是一个AIGC模型“超市”,在平台内除了商汤自研训练的模型可供使用,还支持用户上传本地图像,结合商汤自研作画模型或者开源模型来训练定制化LoRA模型,来高效地生成个性化内容。(LoRA, 用于通过小数据继续训练,将大模型的能力适应到某个垂类领域,但会影响大模型的泛化能力)。

目前秒画所披露的用户界面显示,用户可以使用商汤自研作画模型创作自己的作品并分享到广场;同时,用户可以通过收藏,将商汤自研模型或开源模型添加至用户“精选模型”列表中,方便需要时访问和调用;而精选模型包括商汤自研文生图模型与用户自训的模型,还包括社区开源模型分享网站Civitai以及提供型托管及GPU算力支持服务的AI开源软件公司Hugging Face等开源模型,可供用户使用。

完全自研的文生图模型

刘宇认为,秒画中,商汤所提供的自研文生图大模型凝聚了商汤的自研实力。

从体验上看,只需要两秒,输入Prompts,就可以得到一副精美的AI画作。

据介绍,商汤自研的AIGC文生图大模型拥有超10亿参数,支持二次元、三次元等多种生成风格。用户无需复杂的编程知识,只需给定提示词,即可生成相应图像,最高可实现6K高清图。

无论是写实照片、脑洞大开的艺术画作,还是未来科幻场景,模型生成的图像都能根据用户需求,带来真实的光影效果以及丰富的细节内容。凭借超快的推理性能,商汤自研作画模型的文生图能力,单卡每2秒就能生成1张512*512分辨率的图片。

商汤作画大模型核心技术包含了自研的 hierarchical inference experts, mixture of token experts, image quality-aware distributed training, texture-guided cross-attention learning等算法,使其具备更优的文本理解泛化性、图像生成风格广度以及图像高质量生成细节。

技术上,秒画主要基于商汤“日日新”大模型体系。根据商汤的解释,取名“日日新”指的是模型的迭代速度及处理问题的能力上可以日日更新,不断解锁AGI更多可能。该大模型能够支持自然语言处理、图片生成、自动化数据标注以及自定义模型训练等。除了秒画,在日日新大模型发布会上,商汤CEO立对外发布了AI内容创作方式产品秒画、AI数字人视频生成平台如影以及3D内容生成平台琼宇、格物。

在文生图模型上,商汤从2019年开始做初步尝试。据介绍,2019年起,商汤开始着手训练单任务模型。当年推出了约10亿参数规模的视觉模型。在2021年到2022年期间,商汤训练并开源了30亿参数的多模态大模型——书生。目前,商汤已经研发出320亿参数量的全球最大通用视觉模型,并打造了CV、NLP和AIGC相关大模型。秒画平台基于商汤大装置的GPU算力支撑,可帮助用户免除本地化部署流程。

此外,在文生图赛道目前最重要的要素离不开算力。由于商汤目前拥有自己的人工智能计算中心,相对于其他公司拥有充沛的算力支持。商汤的人工智能计算中心于2022年1月在上海临港正式交付使用。

彼时,该算力中心的总算力便已经是3740 Petaflops,足够支持约万亿参数的大模型训练。一年过去,根据最新的资料,商汤算力中心总算力已超过5000 Petaflops,能够实现最大4000卡规模集群进行单任务训练,并可做到七天以上不间断的稳定训练。

商汤多年来积累的视觉数据也将在大模型建设中发挥优势。据介绍,视觉数据相较于自然语言在数量、质量以及容纳信息等方面都具备优势,因此AI能够更好地理解世界。

模型超市

而相比于其他文生图大模型产品,商汤秒画“平台”的定位决定了其产品差异性。刘宇认为,秒画除了可以提供文生图模型,更重要的是能够基于平台的算力、推理加速能力以及众多开源模型,去帮助用户更方便和快速地翻训自己的垂类模型。

从大模型的角度,他提到,相比于直接面C端娱乐的场景去提供一个文生图产品,商汤更希望做的为提供一个足够好的基础大模型,能够支持B端商家用更少的数据、更快的时间、更低的成本去训练出一个和Stable Diffusion差不多甚至更好的垂类模型。

目前市面上所有的LoRA模型都是基于Stable Diffusion或者其变体训练的,依托商汤基模型本身强大的泛化能力,使用其替代Stable Diffusion模型可以基于更少量数据快速训练出质量更高的LoRA模型,实现更优的风格定制化图像生成,这样的功能在秒画平台通过5分钟即可实现。

刘宇举例称,比如对于一个服装类的B端商家来说,如果采用的是开源Stable Diffusion的基础大模型,可能由于Stable Diffusion见过的亚洲人服装、模特数据不够多,大模型的泛化性就会比较差,导致商家用自己的数据投喂进去训练模型的成本增高效果却不尽如人意。

“而当我们的大模型能够见过的数据足够多,模型大小优化地足够好的时候,B端商家利用秒画作为基础模型去微调下游模型,就可以用更少数据得到更精准的垂类模型。”

另外,定位“平台”的属性意味着秒画不仅仅可以提供文生图模型,还自带一套算法框架。用户可以直接在平台上去训练自己的模型,而不需要另外在本地部署环境,大大降低门槛。

同时,相比于本地部署或其他环境,商汤秒画平台还还提供特异性推理优化服务,开源模型导入后会自动采用秒画底层的模型编译技术进行加速,实测在本地RTX3070显卡需要10秒生成的图片通过秒画加速技术只需要2秒就可以生成。

也就是说,基于秒画,一个普通人也可以更快更好地训练自己想要的垂类大模型。刘宇举例称,只要用20张港风的照片拖到秒画平台,大概只需要几分钟的时间就可以生成一个能够生产港风照片的大模型。这个过程中没有任代码编写、数据清洗等等以前只有AI工程师需要做的工作。只需要选择模型,拖拽数据,就可以实现最终的结果。

终极目标是做模型社区

“我们的终极目标是做一个模型社区。”刘宇提到,会出现前文所述的质疑本质上体现了目前大模型翻训的行业现状。

比如,A是一个开源基础模型,B是在A的基础上加上一些垂类数据训练出了一个在跳舞方面更专业效果更好的垂类模型,C又在B的基础上增加了唱歌等数据训练出新的不同模型。

“这个模型依赖链条目前是无法明确的。当有一天B模型的拥有者如果不再自己的模型被下游模型进行商用,那如何对无数个下游模型C进行沟通是一个问题。”刘宇称,秒画所搭建的平台最终希望做到的是,将模型训练依赖链条进行明确,方便每一个大模型拥有者进行翻训,也方便大家管理自己的大模型上下游应用。”

如果基础模型和一整个模型依赖链条成立,那么从商业的角度,商汤还需要解决上下游模型权限的清晰界定以及涉及商业数据的存放问题。

刘宇分享了商汤目前对于这些问题的看法。从数据隐私的角度,刘宇称,商汤此前许多TO B的解决方案中也面临过类似的问题,如果上下游模型训练的商业公司不愿意将数据上传到我们的公有云平台,商汤可以协助搭建私有云,并且以SaaS的形式提供服务。

另外,对于模型链条上的各个环节,对于会有公司希望自己翻训出来模型不被下游继续翻训的情况。商汤提供了两种权限选择,一是开放自己的模型,并设定收费模式;二是选择私有,自行封闭训练。

刘宇提到,目前商汤秒画平台仍在私有化测试期,面向邀请制用户免费开放。测试期结束后,商汤会根据用户使用的算力进行梯度收费,另外如果下游模型购买付费模型,商汤作为平台将有部分抽成。

据刘宇透露,由于在秒画平台训练模型的效率会至少提高2-3倍,因此相对于其他竞争对手,秒画未来的市场价格将比较有竞争力。当前秒画已经收到超过十家客户的咨询,未来将在汽车、营销、电商、游戏等行业落地。

未来一段时间,商汤将继续发力产品,在部署中不断优化和调试,将几十家不同领域客户的定制需求梳理成通用可复用的需求。

“我们的愿景是赋能千行百业”刘宇称,这件事与当前市场上绝大多数的大模型厂商的目标是不一样的,相比于其他厂商只是希望做到根据Prompt制作更好的图片,秒画更希望做的事是让更多行业的客户或者个人创造出自己的LoRA模型。

标签: 商汤刘宇算法书生训练大模型文生图

更多文章

  • 千亿独角兽狂泻44%!商汤缘何腰斩?

    历史解密编辑:华盛前哨标签:商汤,独角兽,ipo,股价,股票

    编者注:今天港股商汤迎来解禁日,然而股价开盘即闪崩,同日高管发布公告承诺延迟自身持股禁售期,这一系列操作到底意味着什么?6月30日一开盘,港股市值2000亿的“AI独角兽”商汤-W $00020.HK 直线跳水,截至午盘跌44%,当前市值缩水至1102亿港元。市场震惊的原因在于,商汤科技作为一只成交

  • 商汤午后涨幅扩大至20%

    历史解密编辑:界面新闻标签:

    1月27日上午,商汤午后涨幅扩大至20%,总市值重回900亿港元上方。

  • 商汤科技早盘暴跌近50% 市值蒸发900亿

    历史解密编辑:爱集微标签:股价,股价暴跌,商汤,股票

    集微网消息 6月30日,被称为AI第一股的商汤科技迎来股票解禁日,然而,开盘后股价就暴跌40%,盘中一度跌幅超过50%,收盘时依然跌了47%,市值蒸发900多亿港元,目前市值约为1000亿港元。据了解,商汤科技于2021年12月30日在港交所上市,发售价定为3.85港元/股,发行规模57.75亿港元

  • 商汤的数字人研究,在CVPR上成了爆款

    历史解密编辑:机器之心Pro标签:商汤,cvpr,人工智能,数字人,计算机视觉

    机器之心原创作者:泽南在 CVPR 大会上,看数字人技术的最新趋势。对表情和手势进行精细建模、让数字人跳舞的算法、用 2D 图片生成 3D 模型…… 最近一段时间,AI 领域里面向元宇宙和数字人的新技术越来越多。人工智能最重要学术会议之一——CVPR 2022 这几天正在进行过程中,今年大会获得的投

  • 云从难逃商汤命

    历史解密编辑:科技新知标签:商汤,周曦,融资,云从,科创板

    最近的科创板,似乎成了新股破发的“重灾区”。Wind数据显示,截至5月底,科创板共有46只新股上市,上市首日破发股票为25只,破发数量占比为54.35%,五成新股上市首日便遭遇破发。而在科创板一众新股中,未被市场看好的云从科技却未步上后尘。5月27日,云从上市首日涨39.24%,报收21.4元/股,

  • 商汤发布“开箱即用”的AI云计算产品与服务

    历史解密编辑:亿欧标签:商汤,云计算,人工智能,深度学习,ai

    十年前,人工智能技术开启商业化落地的序幕;这十年来,人工智能技术为世界带来了颠覆式改变。据Gartner预测,到2025年,各行业的AI(人工智能)/ML(机器学习)渗透率将达到70%以上,AI软件行业增长率也将达31%。当人工智能的发展步入深水区,正如商汤科技联合创始人杨帆所说,“我们面临的不是A

  • 大模型时代,商汤造“工厂”

    历史解密编辑:品玩标签:商汤,算法,大模型

    2018年冬天,临港成为上海自贸区新片区的时候,特斯拉没有Model Y,OpenAI没有ChatGPT。眼下,这两块招牌背后,电动汽车和生成式AI已是当下全球产业中最热闹的两件事。甚至前者在AI展现的新能力映衬下都显得有些“传统”了。越来越多的人隐约有一种生活状态将被颠覆的感觉。电动汽车给埋在发动

  • 五年巨亏438亿!商汤“搭上”大模型,能否迎来“范式革新”?

    历史解密编辑:李倩倩小故事标签:大模型,郭晶晶,人工智能,商汤科技,比尔盖茨

    OpenAI从2022年12月发布ChatGPT以来,一场以生成式人工智能为核心的通用人工智能产业的浪潮蜂拥而至,清洗掉了元宇宙概念后AI圈的颓靡与萧条。自1950年图灵发表“图灵测试”以来,人工智能的浪潮一波接着一波,从中诞生了一大批与人工智能相关的科技公司。当然,每一轮新技术的诞生都少不了有关于

  • 商汤巨额解禁市值蒸发900亿港元 基石资本大逃亡?

    历史解密编辑:第一财经资讯标签:商汤,基石,股价暴跌,张君毅

    6月30日,商汤科技迎来首个解禁日。港股开盘后,商汤股价暴跌超过45%,跌破发行价,市值蒸发900亿港元,目前市值约1100亿港元。商汤股价暴跌与公司巨额的解禁量有关,商汤上市前投资者和基石投资者涉股233亿股,占公司总股本的70%。上市前,包括软银、春华资本、银湖资本、IDG、国调基金、上海国际集

  • 智能驾驶落地,商汤绝影走在量产前端

    历史解密编辑:21世纪商业评论标签:网联,智能驾驶,人工智能,商汤绝影,国际标准,自动驾驶系统

    记者丨周琦 编辑丨鄢子为摸爬滚打6年后,商汤智能汽车业务的地位持续提升。2022年第一季度,商汤成立绝影智能汽车事业群,担任总裁的是王晓刚,公司联合创始人之一。智能驾驶领域的技术领头人,是石建萍,一位深度学习和计算机视觉领域的专家。技术创新离不开商业化落地,而这则由杨琳带队,她拥有十余年的商务管理经