Tora是阿里巴巴推出的
轨迹可控视频生成框架,依托扩散变换器(DiT)技术,支持文本、图像与运动轨迹的多模态融合输入。用户通过绘制直线、曲线或复合轨迹,即可精准控制视频中物体的位移路径,同时生成720P分辨率、最长204帧的高保真动态画面。平台提供Gradio可视化界面,无需专业技能即可通过 “轨迹绘制 + 文本描述” 快速生成广告、教育演示等场景的视频内容,尤其适合需要动态视觉效果的创意工作流。
Tora是首个轨迹导向的扩散Transformer视频生成系统,由轨迹提取器(TE)、运动引导融合器(MGF)和时空DiT三大模块构成。TE将任意轨迹编码为时空运动贴片,MGF通过自适应归一化层将运动特征融入DiT模型,最终生成严格遵循指定轨迹的物理级真实运动视频。其核心突破在于将传统 “概率生成” 升级为 “确定性工程”,支持从256x256到720P分辨率的动态控制,同时兼容不同时长与宽高比需求,适用于影视制作、游戏动画等对运动精度要求极高的场景。
- 访问平台:登录阿里云 “智作工坊” 或GitHub仓库下载Tora工具包,部署本地环境(需Python 3.10 + 与NVIDIA GPU)。
- 绘制轨迹:在Gradio界面中选择 “轨迹绘制” 工具,手绘路径或导入预设轨迹文件(如
.txt
格式)。 - 输入内容:填写文本描述(如 “红色汽车沿山路行驶”),上传参考图像或指定初始 / 最终帧画面。
- 参数调整:设置视频分辨率(如720P)、时长(最长204帧)、帧率(建议24-30fps)等参数。
- 生成与导出:点击 “生成” 按钮,系统自动渲染视频,完成后可直接下载或集成至业务系统。
- 广告制作:为电商产品生成带使用演示的动态广告,通过轨迹控制突出产品核心卖点(如化妆品涂抹路径)。
- 教育演示:将物理公式转化为可视化动画,例如通过轨迹控制展示行星运行轨迹或分子运动规律。
- 影视特效:为电影、游戏制作高精度动态分镜,例如控制角色跳跃轨迹或物体爆炸碎片的运动路径。
- 虚拟现实:生成适配VR设备的360度动态场景,用户可通过头部追踪与预设轨迹实现交互体验。
- 创意设计师:需快速可视化创意构想,通过轨迹控制实现精准动态表达的设计师。
- 影视从业者:需要制作物理级真实运动特效,减少传统动画逐帧调整成本的影视团队。
- 教育工作者:将抽象知识点转化为动态视频,提升学生理解效率的教师或课程开发者。
- 企业营销人员:缺乏专业剪辑技能,需低成本制作高转化率广告视频的中小企业市场人员。
- 轨迹精度突破:通过轨迹提取器与运动引导融合器,实现像素级位移控制,误差随时间增长极小。
- 多模态灵活性:支持文本、图像、轨迹的任意组合输入,覆盖从概念到成品的全创作流程。
- 性能效率领先:采用DiT架构与SageAttention2技术,在A100 GPU上生成720P视频的速度较传统模型提升52%。
- 低门槛易用性:提供Gradio图形化界面,用户无需编程基础即可完成复杂动态视频制作。
- 开源生态支持:代码与模型权重全量开源,支持二次开发与商业集成。