长沙晚报全媒体记者 张洋子
2025年,当全球AI竞赛进入“端侧部署”新阶段之际,一款纯国产、适配智能手机端、输入文字可实现秒级出图的视觉生成大模型首次亮相长沙。
20日,湖南汇视威智能科技有限公司(以下简称“汇视威”)发布了视觉基座大模型“橘洲”(V1端侧版本)。与当前主流的视觉生成大模型有所区别,“橘洲”是国内基于国产算力预训练的视觉基座大模型,可在智能手机端实现1024×1024分辨率图像的秒级生成,并能满足在移动端上的部署和推理需求。
轻量化架构优势、多项突破性技术,“橘洲”将实现在全国甚至全球行业关键性能领跑,剑指全球行业榜单。这款“橘洲”有多“硬核”?本报记者一探究竟。
“硬核”设计:适配手机,“小身材”有“大能量”
视觉基座大模型是视觉人工智能生成的基础设施,目前的视觉基座大模型由于其参数量大、算力需求高,推理过程大多在服务器“云端”实现,因此端侧通用视觉大模型成为破局关键。
“算力消耗巨大、高延迟、安全隐私风险、服务器维护成本高,这些都是传统视觉大模型的缺点。”汇视威创始人、董事长顾善植介绍,这种运用方式有三大弊端:一是模型推理成本高,给服务器算力成本和运维成本带来极高压力;二是广大用户的个人数据需要定时或不定时地上传至服务器,隐私和安全无法得到保障;三是对用户的创作环境要求较高,网络带宽受限将极大影响用户体验,并在离线环境下无法使用。
有没有对硬件要求低、可快速响应、能在手机上流畅运行,还方便客户端本地化部署的视觉基座大模型?
“视觉、多模态大模型正迎来风口,但几乎都是在云端的推理方案,纯移动端侧较少,目前只有个别团队掌握这一前沿技术。”顾善植告诉记者。作为长沙青年创新创业的标杆、湖南人工智能产业赛道中的新生力量,汇视威决定瞄准这一空白,做一款能在移动端流畅运行的轻量级视觉基座大模型。
为实现这一目标,汇视威早有技术积累。汇视威,其实就是“汇聚视觉的威力”的缩写。之所以这么取名,就是因为公司创业以来,一直专注于视觉算法的开发,已实现对智慧园区、智慧社区、智慧工厂等十二大行业板块的布局,完成了数十项关键技术的突破。大模型时代开启后,汇视威转型聚焦国产大模型训练平台和垂直行业大模型研发,积累丰富经验。
“若将大模型部署于移动端,其计算成本非常微小,并且成本分散至用户自身承担,算力和运维方面都可‘轻装上阵’。”顾善植介绍,2024年下半年,“橘洲”项目启动,很快入选了湖南省100个标志性数字新基建项目,加上曙光信息产业股份有限公司(以下简称“中科曙光”)国产算力全力支持,团队夜以继日“攻关”技术,“橘洲”V1端侧版得以诞生。
“对比国外主流开源模型,生成同样质量的图片,我们的体积和时间大约只有1/20。”顾善植表示,“橘洲”在实现数据隐私安全的基础上,在安卓和IOS端均能做到秒级生成图片,实现低成本移动端文生图,确保用户的个人创作不受时间空间限制,手机开飞行模式也可以“快速出图”。同时,“橘洲”还突破移动端生成高分辨率图像的能力,移动端文生图的效果可达到国内第一梯队。
“橘洲”视觉基座大模型与现在市面上的视觉大模型有什么区别?
关键在于“基座”。“在我们前期做产品设计时,更多地将‘橘洲’定位为一款面向开发者大模型底座,它的目标是为B端客户降低视觉大模型边端推理成本,这样B端的开发者基于我们提供的基座大模型,再去打造自己的移动端AI多模态应用,例如虚拟换衣、企业海报制作等。”顾善植解释,“橘洲”像是一个毛坯房,具备了各种功能用房,但还需要B端合作伙伴“装修”好以后,才能让人们更好地使用,“当然如果你想直接住,也是可以的。”
记者了解到,为更好地向开发者提供服务,“橘洲”计划一个月迭代一个版本,并在开发者社区第一时间开源对应的推理模型,逐步实现从文生图、文生视频、视频理解等基座功能。“希望能和我们的应用生态合作伙伴一起,打造以‘橘洲’为基座的多模态视觉模型服务矩阵,赋能各类行业场景。”
“硬核”技术:从算力到数据的“国产化基因”
“橘洲”如何实现“小身材”也有“大能量”?
充足的国产算力提供坚实保障。
数字经济时代,算力是新质生产力。“橘洲”视觉大模型研发背后,使用了近70P的算力,并且是纯国产基因。
顾善植介绍,2023年,汇视威与国内核心信息基础设施领军企业中科曙光签署战略合作协议,汇视威成为湖南首家使用曙光的国产算力来构建商用大模型训练平台的企业。
中科曙光提出了“立体计算”新思路,聚焦新型算力基础设施一体化建设,强化“建、用、生态”三维协同发力,力求以立体算力建设、立体应用赋能、立体生态共生,加速算力转化为生产力,进而释放各行业发展力。
离汇视威企业不远处,新一代人工智能计算平台“硅立方”亮眼夺目。走进这个蓝光闪烁、通体晶透的巨大立方体,关键元器件完全浸在透明液体中的计算机集群在高速运转。
“这台曙光浸没液冷计算机曾在电影《流浪地球2》中作为‘未来科技’计算机亮相。”中科曙光暖通运维工程师智卫鑫介绍,电子氟化液让芯片实现“边泡澡边智算”,可让数据中心能耗降低30%。在现实中,曙光浸没液冷计算机融合计算机体系结构、高效制冷、高速网络、海量存储等研究成果,可大幅提高计算密度、提升能效比、减小占地面积,为相关行业提供算力、算法、数据和软件支撑。在中科曙光国产算力支持下,汇视威完成了“橘洲”视觉基座大模型的训练。
算力是路、算法是车,既要让路更好走,也要让车的马力更足。“橘洲”视觉大模型算法同样充满“硬核”创新。
“为打造视觉生成基座大模型,我们实现了‘从0到1’的突破”。汇视威首席技术官王聪睿透露,团队为“橘洲”构建了高质量图文数据集,采用高效能并行分布式训练策略,“较短时间完成了近4000万张图片的训练。”为保证能在移动端部署,创造性使用了跨模型结构极限蒸馏技术,保证在最小性能损失下,最大程度保持“橘洲”的图像生成质量,提高用户体验。
“我们是第一个吃螃蟹的人。”顾善植感叹成功的来之不易。
目前发布的“橘洲”已初露锋芒:是云端解码模型参数量的1/50,模型训练时间压缩到20小时,速度提升5倍;使用加速推理训练方法,在保持出图质量不变的前提下,出图步数压缩至4步;在安卓和IOS端均做到秒级生成图片,IOS端256像素可实现2.5秒出一张图;嵌入了独特的中国文化基因库,更符合国人使用需求……据悉,V1端侧版发布后,汇视威还将持续更新后续版本,冲击全球行业榜单。
“未来三年,大模型产业有万亿级。我们的目标就是用大模型赋能千行百业。”顾善植说,“橘洲”视觉基座大模型名字的由来,正是出自代表长沙的“橘子洲头”,“看万山红遍,层林尽染;漫江碧透,百舸争流”是全团队想要的人工智能未来愿景。
这个诞生于岳麓山下、湘江之畔的AI大模型,正怀揣“恰同学少年”的书生意气,期待用自主创新的硬实力,重新定义视觉创作的未来范式,在移动端掀起新的技术浪潮。