不要玩ChatGPT更酷的AI视频制作工具来了
发布时间:2023-02-28 09:21:28作者:顺晟科技点击:
我在和ChatGPT聊天的时候,AIGC圈子里已经刷了新货——。
AI制作的乔布斯,他像从画中醒来一样,理直气壮地对着摄像机谈论ChatGPT,声音也颇像原声。
作者& amp# 039;汗青& amp# 039;据报道,视频中的文案是在与ChatGPT的对话中选定的。乔布斯的图像是由AI映射工具Midjourney生成的,AI拟声性工具ElevenLabs提供了语音复刻,最后通过AI视频工具D-ID将视频转换为视频。
通过类似的AI工具,网民们可以使用& amp# 039;魔法& amp# 039;可以移动用制作的纸张制作者,甚至可以轻松制作自己的数字头像。
AIGC降低了创作门槛,越来越多的人试图让AI参与内容创作,从文案、录音、配音到编辑,AI几乎可以全部打包。据外国商业咨询机构Acumen Research and Consulting称,考虑到新一代互联网对内容需求的暴涨,AIGC市长/市场规模预计在2030年将达到1100亿美元。
近年来,AI对话、AI绘画、AI语音技术都有了一定的发展,相对来说,视频领域AI模型的开发和应用才刚刚开始。像D-ID这样只用一张静态照片就能制作虚拟视频的技术真是令人惊讶。
图源:国泰君安证券研究
目前国内外有哪些AI视频制作工具?AI会给视频内容制作和交互体验带来什么变化?本文对此进行了盘点和分析。
AI拼接素材,套上模板秒出视频
普通视频制作包括编写脚本/文案、拍摄视频或寻找第三方素材、剪辑素材、配音、配乐、添加过渡、效果、字幕、标题、封面等。
其中,AI现在可以辅助很多工作,如图形智能匹配视频素材、AI自动剪辑、AI抠门、AI换脸、画质优化恢复。
& ampquot图形电影& ampquot的功能在各平台上推出的剪辑应用程序中很常见。抖音(抖音)切割、快手的快速阴影、百度的百家号、BC的必要切割都是文案,点击一下就可以将照片和视频素材结合在一起,同时生成字幕和配音。
输入的文件可以参考AI助手的回答。例如,& ampquot养猫对一个人会有什么影响& ampquotChatGPT回答说,猫可以消除压力、提高社交能力、提高心理健康、增加运动量等效果。以此为基础进行修改后,可以引入试映会。
视频不到一分钟就自动生成,画面与文案内容基本一致。如果不喜欢素材(例如,想把静态照片变成视频),在网上素材库搜索并更换可能更合适。
这些素材往往来自网络或第三方服务(如非版权画廊Unsplash、Pexels、AI剪辑应用程序等),通过AI和机器学习,通过对文件的语义分析、镜头处理、智能匹配来拟合相应的屏幕。
因此,一键画对创作者最大的帮助是节省素材收集时间,减少手动剪辑劳动力,通过自动化、模板化提高视频生产力。
类似的视频自动剪辑工具包括& amp# 039;流明5 &安培;# 039;还有,主打长文旋转视频,提供大量视频模板,操作门槛低,可以像PPT一样拖动文本变成屏幕。官方网站介绍说,Lumen5自2017年成立以来,已有100多万企业客户用于社交媒体营销和推广。
图源流明5
& ampquotvidyo & ampquot出自印度的AI初创团队,支持长视频短视频,通过AI语音识别技术,可以自动从素材上剪下精彩剪辑,适合直播视频切片、播客剪辑,但目前视频语言仅支持英语。
图片来源vidyo
目前,视频制作软件的AI功能以文本匹配视频素材为主,但以后可以添加更多AIGC工具。
比如海外AI视频工具& amp# 039;Fliki & amp# 039;短图形视频、推特等博客链接可以快速生成短视频,在照片素材上提供文本生成AI图像,DALL E提供技术支持。
图源普利基
& ampquotCopydone & ampquot支持从国内AIGC初创公司生成小红书、淘宝等多种平台AI营销文案,同时可以基于文案自动生成图案或拼接视频。
图片源Copydone
海外AI视频网站& amp# 039;QuickVid & amp# 039;集成了GPT-3、DALL E2等AI生成图形的功能,用户只需指定一个视频主题,其馀部分就可以自动生成。但是,二次编辑中的自由度和丰富性比较有限。
图片源QuickVid
此外,视频制作的特定要求也可以使用AI来实现。例如,AI恢复旧视频已经有很多受欢迎的案例。历史资料、早期电影剪辑都是& amp# 039;视频Enhus AI & AMP;# 039;可以通过视频增强软件(如)提高画质和分辨率。
图源站
让照片说话,跨模态AI做到了
目前,AI只能被视为制作辅助视频的小助手。创作度高,从无到有很难快速制作视频,但更强大的模态生成视频的模型(如文字生成视频、图像生成视频)已经在走。
文字生成视频除了在现有素材库中拼接以外,还像AI绘画模型一样,更像是人类学习文本和图像抽象概念的工作方式。
2022年5月,清华大学由联合支持研究院& amp# 039;KOG视频& amp# 039;发表过。这是国内第一个开源文本生成视频模型。Demo主页上的& amp# 039;青年女性在餐厅喝奶茶& amp# 039;选择,可以查看AI生成的4秒视频。分辨率是480480。
图片来源CogVideo
在设计模型中,CogVideo包含94亿参数,可有效利用预先训练的文本-图像模型(CogView2)进行文本-视频模型,并采用多帧速率分层教学策略。
由CogVideo生成的32帧的4秒剪辑
从技术上讲,视频是一帧连续的图像,AI文字生成视频也可以看作是文字生成图像的扩展。一般原理是通过文本生成多个单帧图像,然后使用插值算法在多个帧之间绘制图像,生成前后一致的视频。
以前Disco Diffusion流行的时候,玩家利用动画模式生成2D或3D视频,从而扩展了门槛低、易于创作的AI生成视频应用程序。
例如,AI视频网站& ampquotKaiber & ampquot,用户可以输入图像或文本说明,或从预设中选择几个单词,快速生成4个视频结果。
图源凯伯
最近由美国流行摇滚乐队Linkin Park发布的新mv 《Lost》是Kaiver制作的动画片。
但是目前,跨模态生成视频的AI模型还处于探索阶段。Google、Meta等大型工厂去年发表了相关研究论文,仅发表了演示案例,具体产品尚未上线。
根据Meta官方网站& amp# 039;make-A-Video & amp;# 039;加快了文本-视频模型的培训(不需要一开始就学习视觉和多模态表达),不需要文本-视频数据对,但允许生成丰富的文本视频、图像(在单个图像或两个图像之间移动)。
图片来源Make-A-Video
谷歌发布的& amp# 039;Imagen Video & amp# 039;哇& amp# 039;Phenaki & amp# 039;道也可以产生类似的效果,Phenaki可以根据一系列提示生成2分钟以上的长视频。
人工智能公司Runway参与了第一个版本的Stable Diffusion的构建,最近推出了新的视频生成器& amp# 039;gen-1 & amp;# 039;发表了。开放内测,表示可以将视频转换成某种风格。
图源根-1
Gen-1官网显示,用户可以使用指定的样式渲染原始视频、使用文本指令修改视频中的部分素材、渲染3D模型和输出自定义视频,提供参考图表。
图源根-1
在AI生成3D短视频方面,最近国内的深氧技术完成了1000万元级天使船融资,引入了GPT3.5、Transformer、Diffusion Model等AI技术红利
图片来源O3.xyz
无模式AI生成视频正在加速,& amp# 039;用嘴制作视频& amp# 039;可以看出是,以后有可能在短视频、视频、设计、游戏、电商等很多行业应用。
前面提到的& ampquotd-ID & amp;quot回到中,生成数字人/虚拟头像也是图像生成视频的一种类型,这些工具目前在企业培训和营销中使用了更多的应用案例。
2020年推出的AI视频制作产品& ampquotSynthesia & ampquot显示成千上万家公司已经在使用。用户可以从现有演员库中选择或上传自己的视频,创建AI图像,然后输入脚本,用AI配音、拼接材质输出视频。
图源信特西亚
合成通过训练神经网络达到逼真的合成效果。与传统视频制作相比,减少真人拍摄录制等,节省制作费用和周期,一键制作多语言视频,方便本地化服务。因此,企业经常用于大规模生成员工培训、产品入门演示、营销等视频。
D-ID很久以前就开发了图像处理技术,与MyHeritage一起开发& amp# 039;深度香水& amp# 039;以推出节目而闻名。通过AI工具,用户可以将死者静态的照片制作成生动的动态视频。
最近乘着ChatGPT热潮,用各种AI工具组合制作的视频更加引人注目,D-ID的体验门槛低,即使是不懂视频创作的新手,只要上传一张照片,几分钟内就能制作出有角色解说的视频。
图片来源D-ID
D-ID会自动向角色添加一系列面部动作,以模拟轻微的头部动作,但有时表情会显得有点奇怪,太真实的照片是& amp# 039;恐怖曲& amp# 039;可能会引起的反应。
同时,用户不能上传政治、性别、犯罪、名人、歧视性图像,D-ID会告知违规风险。换句话说,AI生成视频技术与其他生成内容一样,将面临版权、道德等问题。
下一波AIGC浪潮,我们如何应对
去年,Stability AI的CTO Tom Mason认为,文字生成图像后,下一波将是视频、音频和3D。
当AI能承担写文章、画画、制作视频、大部分创作任务时,人类接下来该做什么?
这里只讲我的想法,首先技术人员可以继续开发和完善AI模型。抖音网站上已经挂着AIGC方向机器学习工程师的招聘需求。
图片源抖音career
抖音支持& ampquotAIGC最近的突破使我确信AIGC技术可以用于商业目的,特别是创意制作& ampquot表示。想想AI生成/支持广告创意脚本,甚至AI生成的商业形象和视频,就能永远改变创意制作产业。& ampquot
目前的AI视频模型无法快速生成AI绘图等高质量的作品(例如视频模糊、动作不自然、细节不足等问题)。但是,随着国内AIGC的技术发展,相关场景应用生态系统,包括前面提到的部分AI技术企业,已经开始提供付费服务,有可能为个人和企业提供提高内容生产力的空间。
与其担心内容制作者会不会被AI取代,不如学会理解和使用AI工具,让AI把更多的时间花在核心优势上,而不是重复性的琐事上,从而创造出更高质量的内容。
确实,随着AI的加入,内容竞争将更加激烈。一位创作者在D-ID出现时表示& ampquot所有原告式、新闻广播式纯搬运类视频都将受到巨大冲击& ampquot说。
从用户角度来看,即使是AI批量生成,如果是高质量的内容怎么办?我们担心的其实是劣质内容的泛滥。
平台和用户都必须避免滥用AI,包括生成虚假、仇恨、歧视或有害内容、欺诈等。谷歌出于安全和伦理原因,在Imagen Video的内部实验中应用了输入文本提示过滤和输出视频内容过滤,但还存在重要的相关风险,因此暂时不会发布两个视频生成模型的代码或Demo。
总之,AI技术大大降低了从文本到视频内容创作的门槛,相反,AIGC推进了内容产业创新,目前至少可以实现一定程度的成本节约,但在发展初期还没有建立新的规则和秩序,最终如何改变行业还得看人的作用。
(申报)
- 上一篇 : 跳槽加薪梦碎 年轻人等“金三银四”
- 下一篇 : ChatGPT疯了怎么办?李小兵·迪:我可以折断两把钥匙