37000威尼斯蒋智威老师课题组近期在人物视频生成技术方面取得新进展:提出了一种采用离散词元化的生成范式, 通过结合多种细粒度条件,实现了手语视频生成保真度的提升。

Advanced Sign Language Video Generation with Compressed and Quantized Multi-Condition Tokenization. 现有的手语视频生成方法主要依赖单一的粗粒度条件(如骨骼序列)作为中间媒介,这限制了生成视频的自然度和表现力。为了克服这些局限性,本研究工作提出了SignViP框架,通过引入多种细粒度条件(如细粒度姿态和3D手部特征)来显著提升生成视频的保真度。考虑到直接从文本翻译高维连续条件极易出错,SignViP采用了一种离散词元化范式来有效集成和表示这些细粒度条件。具体而言,该框架首先利用多条件词元翻译器将口语文本转化为离散的多条件控制词元,随后通过有限标量量化自编码器将其解码为连续嵌入,最终注入到手语视频扩散模型中以引导视频生成。实验结果表明,SignViP在视频质量、时序连贯性和语义保真度等多个关键指标上均达到了目前最先进的性能。

该项研究工作已被The Thirty-Ninth Annual Conference on Neural Information Processing Systems(NeurIPS 2025)(CCF-A类会议)录用为spotlight论文。欢迎对该研究工作感兴趣的学术同行来信交流:jzw@nju.edu.cn。