现有的姿势条件驱动的数字人视频生成技术主要聚焦于提升生成结果的质量,如视觉逼真度和动作流畅性,然而往往忽视了生成速度较慢的问题,从而限制了其在实时性应用中的有效部署。为此,针对基于扩散模型的数字人生成技术推理延迟高、计算成本大的问题,提出了一种基于扩散模型加速和感知优化的加速框架(DAF-DH)。该方法采用三级加速策略来提高效率并优化生成质量。首先,通过TensorRT优化扩散模型的推理效率。其次,利用基于TensorRT加速的扩散模型,结合降低输入分辨率和抽帧生成的方式,快速生成低分辨率、低帧率的初始视频。最后,设计一个轻量化后处理模块,通过超分辨率和插帧算法提升视频的分辨率和流畅度,从而优化最终生成质量。同时,为了提升主观质量,引入语义特征对齐损失函数,进一步优化视觉感知效果。此外,构建了包含1705个动作序列的DH-Motion数据集,为研究提供基准。实验结果表明,该框架在MimicMotion基础上实现5倍加速比,生成质量有所提升,LPIPS指标降低0.033,FVD指标减少82.9。这些结果证明了DAF-DH有效降低了推理延迟,提升了生成质量,适用于实时数字人视频生成应用。