【环球网科技综合报道】3月15消息,商汤科技日前发布多模态多任务通用大模型“书生(INTERN)2.5”,目前已在通用视觉开源平台OpenGVLab开源。
“书生2.5”实现了通过文本来定义任务,并根据给定视觉图像和任务的提示性语句,给出相应的指令或作答,进而具备通用场景下的高级感知和复杂问题处理能力,比如图像描述、视觉问答、视觉推理和文字识别等。
另外,“书生2.5”可根据用户提出的文本创作需求,利用扩散模型生成算法,生成写实图像。
据了解,“书生2.5”在图文跨模态领域的性能表现来自于视觉、语言及多任务建模三大模型能力的有效融合,即InternImage-G通用视觉大模型、用于文本理解的超大语言预训练模型和用于多任务的兼容解码建模大模型。