商汤日日新发布并开源SenseNova U1 Lite系列,基于自研NEO-unify架构,在单一模型中原生统一多模态理解、推理与生成。彻底摒弃视觉编码器(VE)和变分自编码器(VAE),重构统一表征空间。8B参数即达到同量级开源SOTA,部分指标比肩大型商业闭源模型。同步发布8步LoRA加速版本,推理速度大幅提升。

 

以下实际例子,展现了 SenseNova U1 Lite的商业级复杂信息图生成能力。

 

 

 

 

 

 

 

 

 

 

开源地址:

  • ModelScope:ModelScope 魔搭社区
  • 8步LoRA:SenseNova-U1-8B-MoT-LoRAs
  • GitHub:https://github.com/OpenSenseNova/SenseNova-U1

 

01 核心特性

  • 原生统一架构 基于NEO-unify架构,去除视觉编码器和VAE,将语言与视觉信息在统一表征空间中直接建模。不同于传统"拼接式"多模型串联,SenseNova U1在同一套计算中处理理解与生成,信息损耗更低,效率更高。
  • 以小搏大 仅8B参数即在图像理解、图像生成与编辑、空间智能和视觉推理多项基准上达到同量级开源SOTA,部分指标比肩甚至超越大型商业闭源模型。
  • 连续性图文创作 业内首个实现连续性图文交错输出,单次单模型调用即可完成分步图文创作,图像间风格高度一致。
  • 复杂信息图生成 在开源模型一直做不好的复杂信息图生成任务中达到商业级水准,对排版和文字有强控制力。
  • 8步LoRA加速 提供8步蒸馏LoRA版本,推理步数从50步降至8步,CFG从4.0降至1.0,图像生成质量与基础模型接近,速度大幅提升。

02 技术架构

NEO-unify:从拼接到原生统一

传统多模态模型将视觉编码器和语言骨干通过适配器拼接——像一个"说不同语言的工作组",信息在不同模块间来回传递,难免产生等待和损耗。为弥补这些损耗,模型往往需要堆大参数。

SenseNova U1基于统一表征空间构建,更像一个同时掌握多项技能的大脑。图像和语言不再是两套系统的接力,而是在同一套表征中自然融合。信息流转更快捷,理解更直接,生成更高效,在更精简的规模下实现更强的多模态能力。

 

 

连续性图文创作

凭借统一表征空间,SenseNova U1能将图像和文本的底层融合信号完整保留在上下文中,实现连贯的图文交错输出。区别于多模型串联的方式,图像间风格具备高一致性,可在统一表征空间中进行连贯思考。

下面两个案例中,SenseNova U1 通过连贯高保真度的图文交错思考输出。

任务一:五分熟牛排做法:SenseNova U1 可以通过思考和规划产生分步的过程,并且给每一步输出对应的图像展示。各个步骤的图示表现出极高的一致性。

 

任务二:绘制一个钢铁侠图案。它可以从扫描草稿出发,逐步进行连续创作,最终做出一个完成度很高的图像。每一步创作的过程对于前一步的结构和细节都做了精准的保持 —— 一个统一表征的共享上下文在其中发挥了关键作用。

 

03 性能表现

在图像理解、图像生成与编辑、空间智能和视觉推理多项基准测试中,SenseNova U1 Lite均达到同量级开源SOTA。8B-MoT凭借较小规格即达到甚至超越部分大型商业闭源模型。

 

图像理解基准测试结果

 

 

图像生成基准测试结果

 

 

视觉推理基准测试结果

在生成质量和推理速度的综合对比中,SenseNova U1 Lite图像生成质量比肩Qwen-Image 2.0 Pro和Seedream 4.5等大型闭源模型,推理响应速度有显著优势。

 

Generation Latency vs. Averaging Performance on OneIG (EN, ZH), LongText (EN, ZH), BizGenEval (Easy, Hard), CVTG and IGenBenc

 

Generation Latency vs. Averaging Performance on Infographic Benchmarks, i.e., BizGenEval (Easy, Hard), and IGenBench.

 

04 模型推理

环境准备

git clone https://github.com/OpenSenseNova/SenseNova-U1.git
cd SenseNova-U1
uv sync
source .venv/bin/activate
modelscope download --model SenseNova/SenseNova-U1-8B-MoT --local_dir ./SenseNova/SenseNova-U1-8B-MoT

图像理解(VQA)

python examples/vqa/inference.py --model_path SenseNova/SenseNova-U1-8B-MoT --image examples/vqa/data/images/menu.jpg --question "My friend and I are dining together tonight. Looking at this menu, can you recommend a good combination of dishes for 2 people? We want a balanced meal — a mix of mains and maybe a starter or dessert. Budget-conscious but want to try the highlights." --output outputs/answer.txt --max_new_tokens 8192 --do_sample --temperature 0.6 --top_p 0.95 --top_k 20 --repetition_penalty 1.05 --profile

文生图

python examples/t2i/inference.py --model_path SenseNova/SenseNova-U1-8B-MoT --prompt "这张信息图的标题是“SenseNova-U1”,采用现代极简科技矩阵风格。整体布局为水平三列网格结构,背景是带有极浅银灰色细密点阵的哑光纯白高级纸张纹理,画面长宽比为16:9。\n\n排版采用严谨的视觉层级:主标题使用粗体无衬线黑体字,正文使用清晰的现代等宽字体。配色方案极其克制,以纯白色为底,深炭黑为主视觉文字和边框,浅石板灰用于背景色块和次要信息区分,图标采用精致的银灰色线框绘制。\n\n在画面正上方居中位置,使用醒目的深炭黑粗体字排布着大标题“SenseNova-U1”。标题正下方是浅石板灰色的等宽字体副标题“新一代端到端统一多模态大模型家族”。\n\n画面主体分为左、中、右三个相等的垂直信息区块,区块之间通过充足的负空间进行物理隔离。\n\n左侧区块的主题是概述。顶部有一个银灰色线框绘制的、由放大镜和齿轮交织的图标,旁边是粗体小标题“Overview”。该区块内从上到下垂直排列着三个要点:第一个要点旁边是一个代表文档与照片重叠的极简图标,紧跟着文字“多模态模型家族,统一文本/图像理解和生成”。向下是由两个相连的同心圆组成的架构图标,配有文字“基于NEO-Unify架构(端到端统一理解和生成)”。最下方是一个带有斜线划掉的眼睛和漏斗形状的图标,明确指示文本“无需视觉编码器(VE)和变分自编码器(VAE)”。\n\n中间区块展示模型矩阵。顶部是一个包含两个分支节点的树状网络图标,旁边是粗体小标题“两个模型规格”。区块内分为上下两个包裹在浅石板灰色极细边框内的卡片。上方的卡片内画着一个代表高密度的实心几何立方体图标,大字标注“SenseNova-U1-8B-MoT”,下方是等宽字体说明“8B MoT 密集主干模型”。下方的卡片内画着一个带有闪电符号的网状发光大脑图标,大字标注“SenseNova-U1-A3B-MoT”,下方是等宽字体说明“A3B MoT 混合专家(MoE)主干模型”。在这两个独立卡片的正下方,左侧放置一个笑脸轮廓图标搭配文字“将在HF等平台公开”,右侧放置一个带有折角的书面报告图标搭配文字“将发布技术报告”。\n\n右侧区块呈现核心优势。顶部是一个代表巅峰的上升阶梯折线图图标,旁边是粗体小标题“Highlights”。该区块内部垂直分布着四个带有浅石板灰底色的长方形色块,每个色块内部左侧对应一个具体的图标,右侧为文字。第一个色块内是一个无缝相连的莫比乌斯环图标,配文“原生统一架构,无VE和VAE”。第二个色块内是一个顶端带有星星的奖杯图标,配文“单一统一模型在理解和生成任务上均达到SOTA性能”。第三个色块内是代表文本行与拍立得照片交替穿插的图标,配文“强大的原生交错推理能力(模型原生生成图像进行推理)”。最后一个色块内是一个被切分出一小块的硬币与详细饼状图结合的图标,配文“能生成复杂信息图表,性价比出色”。" --width 2720 --height 1536 --cfg_scale 4.0 --cfg_norm none --timestep_shift 3.0 --num_steps 50 --output output.png --profile

图像编辑

python examples/editing/inference.py --model_path SenseNova/SenseNova-U1-8B-MoT --prompt "Change the animal's fur color to a darker shade." --image examples/editing/data/images/1.jpg --cfg_scale 4.0 --img_cfg_scale 1.0 --cfg_norm none --timestep_shift 3.0 --num_steps 50 --output output_edited.png --profile --compare

8步LoRA加速推理

# Run 8-step LoRA
modelscope download --model SenseNova/SenseNova-U1-8B-MoT-LoRAs  "SenseNova-U1-8B-MoT-LoRA-8step-V1.0.safetensors" --local-dir ./SenseNova/SenseNova-U1-8B-MoT-LoRAs/ 
python examples/t2i/inference.py \
    --model_path SenseNova/SenseNova-U1-8B-MoT \
    --lora_path SenseNova/SenseNova-U1-8B-MoT-LoRAs/SenseNova-U1-8B-MoT-LoRA-8step-V1.0.safetensors \
    --jsonl examples/t2i/data/samples.jsonl \
    --output_dir outputs/ \
    --cfg_scale 1.0 --cfg_norm none --timestep_shift 3.0 --num_steps 8 \
    --profile

也可通过SenseNova-Skills(OpenClaw)将U1作为即用技能集成到Agent或应用中,提供统一的工具调用接口。

SenseNova-Skills地址:https://modelscope.cn/collections/SenseNova/SenseNova-Skills

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐