一只“知更鸟”,衔来AI新机遇

相链区块链

长沙晚报掌上长沙5月21日讯(全媒体记者 吴鑫矾 陈星源)“请根据‘两岸猿声啼不住,轻舟已过万重山’生成图片。”5月21日上午,在湖南汇视威基于国产算力预训练的视觉基座大模型“橘洲”V1端侧版本发布会现场,随着一名现场嘉宾发出指令,“橘洲”视觉基座大模型迅速生成图片,只见屏幕上重峦叠嶂、流水潺潺,一叶扁舟在连绵不绝的万重山峦中轻快行驶。令人惊喜的是,作为国内首个基于国产算力预训练的视觉基座大模型,“橘洲”视觉基座大模型对诗词歌赋等中文的理解似乎有先天优势,它生成的画面中,只“听”猿声而不见猿影,非常完美地展现了李白诗词的意境。

“橘洲”大模型快速生成“两岸猿声啼不住,轻舟已过万重山”画面。 均为长沙晚报全媒体记者邹麟摄

让大模型真正触手可及

“橘洲”视觉基座大模型由湖南汇视威智能科技有限公司(以下简称“汇视威”)自主研发,能在手机端实现1024×1024分辨率图像的秒级生成,具有成本低、质量高、速度快、轻量级、可离线的特点。

汇视威创始人、董事长顾善植表示,“橘洲”视觉基座大模型的诞生,源于一个美好的愿景。

“我们通过大量研发发现,目前大模型的应用都是基于云端算力进行训练、推理,不仅会给企业带来高昂的成本,用户量也受到限制。”以当前的主流开源大模型为例,顾善植介绍,它们需要高端的显存,且想要生成高分辨率的图片,推理时间往往较长,给云端算力带来不小的压力。

如何让大模型真正普惠千行百业、千家万户,成为汇视威的核心攻关方向。

记者从会上了解到,“橘洲”视觉基座大模型在实现数据隐私安全的基础上,在智能手机上能做到秒级生成图片,实现低成本移动端文生图,确保用户的个人创作不受时间空间限制,手机开飞行模式也可以“快速出图”。对比国外主流开源模型,生成同样质量图片的体积和时间只需约1/20。

值得一提的是,依托中科曙光算力,“橘洲”视觉基座大模型在较短时间便完成了近4000万张图片训练,成为全国首个在国产算力上完成整体训练和推理过程,并实现移动端部署的视觉基座大模型。

这一成果的背后,是汇视威团队的厚积薄发。据了解,汇视威自创业以来,一直专注于视觉算法的开发,已实现对智慧园区、智慧社区、智慧工厂等十二大行业板块的布局,完成了数十项关键技术的突破。顾善植本人也表示,“早期千块显卡训练的经验,让我对大模型有了更深理解,也为端侧应用的研发奠定了基础。”

顾善植介绍“橘洲”大模型优势。

理解诗词歌赋“无压力”

发布会现场的屏幕上,一只红黑相间的知更鸟在翠绿的草地上悠然栖息,丰满的羽翼与细微的神态活灵活现……这张知更鸟的图片,是“橘洲”视觉基座大模型测试成功的起点。顾善植介绍,它经过上百次实验才生成,代表着大模型的的技术路线终于打通,“对于团队来说意义非凡!”

经过多轮调试,“橘洲”视觉基座大模型如今交上了一份令人惊喜的的答卷。

“请为我生成一张图,‘一个山顶上的湖泊’。”接收到顾善植的指令后,“橘洲”视觉基座大模型立即开始行动,一张高清的图片在片刻工夫内逐渐清晰,这一过程完全依赖手机自己的芯片实现,在场观众无不感到震撼。

记者注意到,在生成过程中,画面下方会实时显示生成进度。“相当于每一步,我们都把这个图片进行了本地的还原。”顾善植解释,虽然看似有28步,但“橘洲”在10秒之内便能“解题”。

“上天入地,无所不包”,面对一个个提示词,“橘洲”视觉基座大模型应对自如,无论是天上飞的还是水里游的都难不倒它。作为一款国产大模型,它还颇有些中国人的“文艺范”,对诗词歌赋也有一套独到的理解。

“橘洲”大模型生成“中秋节故乡的月亮”画面。

比如,有嘉宾提出生成“中秋节故乡的月亮”,它不仅描绘了一轮明月,还以大红色的灯笼、碧瓦朱檐的宫殿作为映衬,蕴含着满满的东方意趣。

再比如,面对李白的“两岸猿声啼不住,轻舟已过万重山”一句,一幅山水景致跃然屏幕之上。重峦叠嶂间流水潺潺,一叶扁舟顺流而下,而且巧妙的是,画面中只“听”猿声而不见猿影,部分大模型“会错意”的情况在这里不曾出现。

未来将兼容更多国产生态

“橘洲”视觉基座大模型的发布,不仅标志着我国在视觉大模型领域实现从“云端依赖”到“端侧自主”的跨越,更以“轻量化、高精度、强隐私”的技术突破,让文生图片与千行百业的链接成为可能。

“移动端如何平衡算力与性能,并实现多设备适配?”“企业未来如何持续创新,保持领先地位?”“国产生态如何提升兼容性?”……现场,专家学者对“橘洲”视觉基座大模型的未来展开提问,并进行了深度探讨。

“我们未来计划联合硬件厂商开发定制化方案,实现更精准的端侧适配。”顾善植说,“创新永无止境。本次发布的V1版本只是一个开始。在打通‘0—1’的闭环之后,还有训练路径优化、生成速度提升、与行业应用相结合等诸多创新点等待攻克。”

同时,顾善植也透露迭代蓝图:保持每半月一次的版本更新节奏,预计6月、7月都会有新版本面世,也会兼容更多的手机版本,与国产操作系统进行绑定、结合。

作为湖南省100个标志性数字新基建项目,“橘洲”视觉基座大模型的落地只是起点。顾善植表示,未来汇视威将逐步拓展至文生视频、视频理解等领域,构建“端云协同”的智能生态。在隐私计算与边缘计算深度融合的当下,“橘洲”视觉基座大模型或将重塑全球AI产业格局,为“数字中国”建设提供关键技术支点。

汇视威团队现场演唱歌曲《长沙星上数星星》。

【作者:吴鑫矾 陈星源】 【编辑:肖彪】
关键词:汇视威 “橘洲”大模型
>>我要举报
晚报网友
登录后发表评论

长沙晚报数字报

热点新闻

回顶部 到底部