在刚刚结束的上海世界人工智能大会(WAIC)上,达摩院发布了一站式AI视频创作平台“寻光”。
其定位为PUGC一站式AI视频创作平台,可辅助用户创作剧本、分镜图等,并通过工作流整合提升创作全流程的效率,支持对生成及上传素材进行丰富的AI编辑,提供人物控制、场景控制、风格迁移、运镜控制、目标新增/消除/修改等十多种AI编辑功能,让视频中的元素和对象精准可控。
达摩院希望借由寻光平台进一步提升AI视频创作的效率,目标是用AI能力重塑传统视频制作的整个流程,打造AI时代的全新视频工作流。
业界落地基于图层的视频编辑
在寻光研发的初期,达摩院还与影视传媒从业者及创作者进行了广泛且密集调研,了解其对于视频AIGC创作的需求与痛点。他们发现,视频图层几乎是所有视频创作者们提到频次最高、最迫切的需求。
基于此,寻光平台首次在行业推出系统性的视频图层编辑功能。用户通过文本输入,即可生成符合文本描述且具有透明背景的视频,并且一键将其融合到其他背景视频当中。在传统视频生成能力的基础上,用图层这样一种更灵活的形式来产生内容。
寻光更提供图层拆解功能,轻轻一圈,选定目标立刻拆解为单独的图层视频,再丝滑嵌入不同的背景视频。
用户可以将不同的前景图层跟不同的背景进行图层融合,组合出更多新的视频。图层融合的能力进一步激发AI创作力和想象力,同时能够保持多个分镜头之间的场景和人物的一致性。
在达摩院看来,AI不会取代创作者的工作,而是会优化视频创作的工作流,成为创意驱动的新引擎。
一站式AI创作平台 更简洁的交互,更丰富的编辑能力
剧本创作、分镜设计、素材编辑……传统的视频创作步骤分工明晰、周期冗长。在AI技术的加持下,原本分散在不同制作流程中的创作步骤,如今都可以在寻光平台上流畅完成。
“我们希望让视频编辑像操作ppt一样简洁直观,容易上手。”达摩院视觉技术实验室高级算法专家陈威华在现场介绍,寻光平台的一大亮点在交互方面。
寻光平台在设计时便充分考虑到AI视频创作的特点,将每个视频项目抽象为多个分镜头画面,用户可根据剧本自动生成一组分镜头,也可以自己上传原始视频素材,由算法切分成多个分镜头。
在创作空间里,用户可以很方便的查看每一个分镜头,一个场景内的多个分镜头可以收起或者展开,场景之间可以通过拖拽来调整顺序,场景内的分镜头也可以进行拖拽。用户也可以在任意位置上进行分镜头的添加和新建,可调用图片生成或者视频生成能力去产生内容,也可以添加自己已有的各种素材。
对于每个分镜头,寻光提供完整且智能的AI视频编辑能力进行处理,可依据用户意图,在语义层面而不是像素层面实现编辑。分镜头里的人体、人脸、前景、背景等任意局部目标,都可以进行精细化的编辑和修改。
“我们希望一个视频里的所有元素都是可编辑、可修改的,这样可以给用户的创作提供最大的自由度”,陈威华说。
当下,在AIGC的变革浪潮之中,AI有可能催生出新的视频工作流。无论是专业的影视从业者还是热爱创作的UGC用户,都将从中获益。
“工欲善其事,必先利其器”,达摩院希望寻光视频创作平台能够成为每一位创作者的专属视频工作室,实现AI与创作者之间更紧密、高效的协作,真正释放AI的生产力。
为此,达摩院视觉技术实验室已做了大量技术储备。该实验室致力于多模态视觉信号的理解与生成技术研究,当前的重点研究方向包括更加精准的图像/视频/3D内容生成,更加可控的图像/视频/3D内容编辑,更加高效的生成框架,多模态的理解-生成框架等。
陈威华表示,“寻光”将于近期开放内测,持续迭代,优化交互,欢迎创作者们来定制属于自己的AI工作流。