前沿技术

  • 极视角星际视觉语言大模型再进化,0.8B轻量版正式发布

    2026-06-23

      近日,“2026 高通×极视角端侧AI开发者技术日暨2025骁龙人工智能创新应用大赛颁奖典礼”在深圳举办。

      会上,极视角算法专家邓富城以“星际视觉语言大模型(Stellaris-VL)进化之路”为主题深入分享,并正式发布了面向端侧与嵌入式设备应用的0.8B轻量版,为各类终端提供高性能AI服务。

      “端侧多模态大模型绝非云端能力的简单精简下放,如何在有限硬件条件下兼顾性能与效率,是产业落地的核心命题。”邓富城谈到,当下端侧AI已成为产业智能化升级的主流应用方向,工业、园区、城市治理等行业场景,对复杂目标识别、实时图像解析有着刚性需求。但产业终端面临的算力有限、硬件配置参差不齐、数据管控严格等现实约束,依然制约着视觉大模型的规模化应用。

      为平衡模型性能与落地效率,极视角基于星际视觉语言大模型原生底座,针对端侧硬件约束进行模型架构专项优化,推出专为端侧与嵌入式设备设计的Stellaris-VL-0.8B轻量版。

      Stellaris-VL-0.8B完整继承了星际视觉语言大模型原生的“强性能”、“低幻觉”、“可落地”三大核心优势,聚焦开放词汇目标检测(OVD)、指代表达理解(REC)、视觉问答(VQA)等产业级核心能力,并实现了模型体积、推理延迟、硬件占用的多重“瘦身”,让多模态细粒度感知理解能力以低成本、低功耗、高隐私的方式运行于端侧。

      核心亮点

      架构轻量化:采用极致轻量化LLM底座,搭配参数适中但性能强大的视觉ViT编码器;结合知识蒸馏、SFT监督微调、RL强化学习全链路后训练,将模型规模控制至0.8B小参数量级别,大幅削减推理内存与算力开销,嵌入式、边缘硬件即可稳定加载运行,显著降低终端部署准入门槛。

      推理稳吞吐:针对单帧实景图像复杂目标推理全链路做深度优化,边缘设备可实现秒级画面解析,长尾场景推理耗时可控;在长时间连续任务下,模型资源占用不会持续上涨,能够维持稳定、不间断的业务识别吞吐,适配固定监控、移动巡检等7×24小时持续工作场景。

      终端广适配:兼容低空无人机、移动巡检机器人、车载/船载/矿载视觉等主流产业终端,支持存量设备部署复用,帮助企业节约硬件改造成本。

      本地高安全:基于轻量化架构和强性能,模型可完整终端本地离线运行,无需云端协同解析,现场数据全程本地闭环处理、无需跨端回传,规避数据外泄风险,满足特定行业场景下严苛的数据安全与隐私合规监管要求。

      测评表现

      为验证Stellaris-VL-0.8B的综合性能,本次活动同步展示了模型核心能力和推理效率等多维度测评数据。

      在权威公开数据集测评中,Stellaris-VL-0.8在ODinW13开放词表检测、指代表达式定位等测评表现大幅领先于同等参数版本的主流开源大模型。基于工业巡检、城市感知、安防、能源等1000+真实产业场景的产业综合检测集测评显示,模型mAP@0.5:0.95指标远超同等参数量的开源模型,显示了Stellaris-VL-0.8B针对工业复杂画面、多目标场景的识别、定位精准度实现显著提升,更低幻觉、更少错检漏检,高度适配无人机、移动机器人等多视角作业设备。

      场景应用演示

      Stellaris-VL-0.8B为低空无人机、移动巡检机器人、车载/船载/矿载视觉等各类端侧的AI视觉应用提供了高效、实用的AI视觉基座,广泛应用于工业巡检、应急管理、城市治理、安全生产、矿山安监等产业场景,助力各行业加速智能化升级。

      “从4B到0.8B版本,是星际视觉语言大模型面向产业应用的又一次重要进化。”邓富城现场总结道。接下来,极视角将与高通等众多技术和产业伙伴,依托轻量化模型优势,持续推动视觉大模型在端侧场景中的规模化落地。



    信息来源:本文转载自“中国安防大数据服务平台”。版权归属原作者,本平台转载仅为行业信息传播,不保证其准确性。如有异议,请联系我们。