不要玩ChatGPT更酷的AI视频制作工具来了

发布时间：2023-02-28 09:21:28作者：顺晟科技点击：

我在和ChatGPT聊天的时候，AIGC圈子里已经刷了新货——。

AI制作的乔布斯，他像从画中醒来一样，理直气壮地对着摄像机谈论ChatGPT，声音也颇像原声。

作者& amp# 039；汗青& amp# 039；据报道，视频中的文案是在与ChatGPT的对话中选定的。乔布斯的图像是由AI映射工具Midjourney生成的，AI拟声性工具ElevenLabs提供了语音复刻，最后通过AI视频工具D-ID将视频转换为视频。

通过类似的AI工具，网民们可以使用& amp# 039；魔法& amp# 039；可以移动用制作的纸张制作者，甚至可以轻松制作自己的数字头像。

AIGC降低了创作门槛，越来越多的人试图让AI参与内容创作，从文案、录音、配音到编辑，AI几乎可以全部打包。据外国商业咨询机构Acumen Research and Consulting称，考虑到新一代互联网对内容需求的暴涨，AIGC市长/市场规模预计在2030年将达到1100亿美元。

近年来，AI对话、AI绘画、AI语音技术都有了一定的发展，相对来说，视频领域AI模型的开发和应用才刚刚开始。像D-ID这样只用一张静态照片就能制作虚拟视频的技术真是令人惊讶。

图源：国泰君安证券研究

目前国内外有哪些AI视频制作工具？AI会给视频内容制作和交互体验带来什么变化？本文对此进行了盘点和分析。

AI拼接素材，套上模板秒出视频

普通视频制作包括编写脚本/文案、拍摄视频或寻找第三方素材、剪辑素材、配音、配乐、添加过渡、效果、字幕、标题、封面等。

其中，AI现在可以辅助很多工作，如图形智能匹配视频素材、AI自动剪辑、AI抠门、AI换脸、画质优化恢复。

& ampquot图形电影& ampquot的功能在各平台上推出的剪辑应用程序中很常见。抖音(抖音)切割、快手的快速阴影、百度的百家号、BC的必要切割都是文案，点击一下就可以将照片和视频素材结合在一起，同时生成字幕和配音。

输入的文件可以参考AI助手的回答。例如，& ampquot养猫对一个人会有什么影响& ampquotChatGPT回答说，猫可以消除压力、提高社交能力、提高心理健康、增加运动量等效果。以此为基础进行修改后，可以引入试映会。

视频不到一分钟就自动生成，画面与文案内容基本一致。如果不喜欢素材(例如，想把静态照片变成视频)，在网上素材库搜索并更换可能更合适。

这些素材往往来自网络或第三方服务(如非版权画廊Unsplash、Pexels、AI剪辑应用程序等)，通过AI和机器学习，通过对文件的语义分析、镜头处理、智能匹配来拟合相应的屏幕。

因此，一键画对创作者最大的帮助是节省素材收集时间，减少手动剪辑劳动力，通过自动化、模板化提高视频生产力。

类似的视频自动剪辑工具包括& amp# 039；流明5 &安培；# 039；还有，主打长文旋转视频，提供大量视频模板，操作门槛低，可以像PPT一样拖动文本变成屏幕。官方网站介绍说，Lumen5自2017年成立以来，已有100多万企业客户用于社交媒体营销和推广。

图源流明5

& ampquotvidyo & ampquot出自印度的AI初创团队，支持长视频短视频，通过AI语音识别技术，可以自动从素材上剪下精彩剪辑，适合直播视频切片、播客剪辑，但目前视频语言仅支持英语。

图片来源vidyo

目前，视频制作软件的AI功能以文本匹配视频素材为主，但以后可以添加更多AIGC工具。

比如海外AI视频工具& amp# 039；Fliki & amp# 039；短图形视频、推特等博客链接可以快速生成短视频，在照片素材上提供文本生成AI图像，DALL E提供技术支持。

图源普利基

& ampquotCopydone & ampquot支持从国内AIGC初创公司生成小红书、淘宝等多种平台AI营销文案，同时可以基于文案自动生成图案或拼接视频。

图片源Copydone

海外AI视频网站& amp# 039；QuickVid & amp# 039；集成了GPT-3、DALL E2等AI生成图形的功能，用户只需指定一个视频主题，其馀部分就可以自动生成。但是，二次编辑中的自由度和丰富性比较有限。

图片源QuickVid

此外，视频制作的特定要求也可以使用AI来实现。例如，AI恢复旧视频已经有很多受欢迎的案例。历史资料、早期电影剪辑都是& amp# 039；视频Enhus AI & AMP；# 039；可以通过视频增强软件(如)提高画质和分辨率。

图源站

让照片说话，跨模态AI做到了

目前，AI只能被视为制作辅助视频的小助手。创作度高，从无到有很难快速制作视频，但更强大的模态生成视频的模型(如文字生成视频、图像生成视频)已经在走。

文字生成视频除了在现有素材库中拼接以外，还像AI绘画模型一样，更像是人类学习文本和图像抽象概念的工作方式。

2022年5月，清华大学由联合支持研究院& amp# 039；KOG视频& amp# 039；发表过。这是国内第一个开源文本生成视频模型。Demo主页上的& amp# 039；青年女性在餐厅喝奶茶& amp# 039；选择，可以查看AI生成的4秒视频。分辨率是480480。

图片来源CogVideo

在设计模型中，CogVideo包含94亿参数，可有效利用预先训练的文本-图像模型(CogView2)进行文本-视频模型，并采用多帧速率分层教学策略。

由CogVideo生成的32帧的4秒剪辑

从技术上讲，视频是一帧连续的图像，AI文字生成视频也可以看作是文字生成图像的扩展。一般原理是通过文本生成多个单帧图像，然后使用插值算法在多个帧之间绘制图像，生成前后一致的视频。

以前Disco Diffusion流行的时候，玩家利用动画模式生成2D或3D视频，从而扩展了门槛低、易于创作的AI生成视频应用程序。

例如，AI视频网站& ampquotKaiber & ampquot，用户可以输入图像或文本说明，或从预设中选择几个单词，快速生成4个视频结果。

图源凯伯

最近由美国流行摇滚乐队Linkin Park发布的新mv 《Lost》是Kaiver制作的动画片。

但是目前，跨模态生成视频的AI模型还处于探索阶段。Google、Meta等大型工厂去年发表了相关研究论文，仅发表了演示案例，具体产品尚未上线。

根据Meta官方网站& amp# 039；make-A-Video & amp；# 039；加快了文本-视频模型的培训(不需要一开始就学习视觉和多模态表达)，不需要文本-视频数据对，但允许生成丰富的文本视频、图像(在单个图像或两个图像之间移动)。

图片来源Make-A-Video

谷歌发布的& amp# 039；Imagen Video & amp# 039；哇& amp# 039；Phenaki & amp# 039；道也可以产生类似的效果，Phenaki可以根据一系列提示生成2分钟以上的长视频。

人工智能公司Runway参与了第一个版本的Stable Diffusion的构建，最近推出了新的视频生成器& amp# 039；gen-1 & amp；# 039；发表了。开放内测，表示可以将视频转换成某种风格。

图源根-1

Gen-1官网显示，用户可以使用指定的样式渲染原始视频、使用文本指令修改视频中的部分素材、渲染3D模型和输出自定义视频，提供参考图表。

图源根-1

在AI生成3D短视频方面，最近国内的深氧技术完成了1000万元级天使船融资，引入了GPT3.5、Transformer、Diffusion Model等AI技术红利

图片来源O3.xyz

无模式AI生成视频正在加速，& amp# 039；用嘴制作视频& amp# 039；可以看出是，以后有可能在短视频、视频、设计、游戏、电商等很多行业应用。

前面提到的& ampquotd-ID & amp；quot回到中，生成数字人/虚拟头像也是图像生成视频的一种类型，这些工具目前在企业培训和营销中使用了更多的应用案例。

2020年推出的AI视频制作产品& ampquotSynthesia & ampquot显示成千上万家公司已经在使用。用户可以从现有演员库中选择或上传自己的视频，创建AI图像，然后输入脚本，用AI配音、拼接材质输出视频。

图源信特西亚

合成通过训练神经网络达到逼真的合成效果。与传统视频制作相比，减少真人拍摄录制等，节省制作费用和周期，一键制作多语言视频，方便本地化服务。因此，企业经常用于大规模生成员工培训、产品入门演示、营销等视频。

D-ID很久以前就开发了图像处理技术，与MyHeritage一起开发& amp# 039；深度香水& amp# 039；以推出节目而闻名。通过AI工具，用户可以将死者静态的照片制作成生动的动态视频。

最近乘着ChatGPT热潮，用各种AI工具组合制作的视频更加引人注目，D-ID的体验门槛低，即使是不懂视频创作的新手，只要上传一张照片，几分钟内就能制作出有角色解说的视频。

图片来源D-ID

D-ID会自动向角色添加一系列面部动作，以模拟轻微的头部动作，但有时表情会显得有点奇怪，太真实的照片是& amp# 039；恐怖曲& amp# 039；可能会引起的反应。

同时，用户不能上传政治、性别、犯罪、名人、歧视性图像，D-ID会告知违规风险。换句话说，AI生成视频技术与其他生成内容一样，将面临版权、道德等问题。

下一波AIGC浪潮，我们如何应对

去年，Stability AI的CTO Tom Mason认为，文字生成图像后，下一波将是视频、音频和3D。

当AI能承担写文章、画画、制作视频、大部分创作任务时，人类接下来该做什么？

这里只讲我的想法，首先技术人员可以继续开发和完善AI模型。抖音网站上已经挂着AIGC方向机器学习工程师的招聘需求。

图片源抖音career

抖音支持& ampquotAIGC最近的突破使我确信AIGC技术可以用于商业目的，特别是创意制作& ampquot表示。想想AI生成/支持广告创意脚本，甚至AI生成的商业形象和视频，就能永远改变创意制作产业。& ampquot

目前的AI视频模型无法快速生成AI绘图等高质量的作品(例如视频模糊、动作不自然、细节不足等问题)。但是，随着国内AIGC的技术发展，相关场景应用生态系统，包括前面提到的部分AI技术企业，已经开始提供付费服务，有可能为个人和企业提供提高内容生产力的空间。

与其担心内容制作者会不会被AI取代，不如学会理解和使用AI工具，让AI把更多的时间花在核心优势上，而不是重复性的琐事上，从而创造出更高质量的内容。

确实，随着AI的加入，内容竞争将更加激烈。一位创作者在D-ID出现时表示& ampquot所有原告式、新闻广播式纯搬运类视频都将受到巨大冲击& ampquot说。

从用户角度来看，即使是AI批量生成，如果是高质量的内容怎么办？我们担心的其实是劣质内容的泛滥。

平台和用户都必须避免滥用AI，包括生成虚假、仇恨、歧视或有害内容、欺诈等。谷歌出于安全和伦理原因，在Imagen Video的内部实验中应用了输入文本提示过滤和输出视频内容过滤，但还存在重要的相关风险，因此暂时不会发布两个视频生成模型的代码或Demo。

总之，AI技术大大降低了从文本到视频内容创作的门槛，相反，AIGC推进了内容产业创新，目前至少可以实现一定程度的成本节约，但在发展初期还没有建立新的规则和秩序，最终如何改变行业还得看人的作用。

(申报)

上一篇 : 跳槽加薪梦碎年轻人等“金三银四”
下一篇 : ChatGPT疯了怎么办？李小兵·迪:我可以折断两把钥匙

公司动态

AI拼接素材，套上模板秒出视频

让照片说话，跨模态AI做到了

下一波AIGC浪潮，我们如何应对