不知所云的AI绘画对内容创作者有什么用?
发布时间:2022-10-01 09:42:44作者:顺晟科技点击:
AI绘画的发展速度超乎我们的想象。
很多人可能会惊讶。两年前,艾只能画一些难以辨认的模糊图片。现在一个没有绘画基础的人,用AI输入几个关键词,等待几十秒,就能生成更多的精品。如果多加练习,有些作品甚至可以达到商业水平。
AI是如何突然进入科技大爆炸时代的?
从今年2月Disco Diffusion出来,4月MidJourney上线,DALL-E2内测,然后5月6月Google推出Imagen和Parti,然后7月稳定扩散内测开源。各种AI绘画技法迅速变化升级,有些画家感觉几乎是“一日千里”。
这股浪潮也从国外蔓延到了中国。百度等互联网大公司,以及一大批美术、人工智能从业者和爱好者,纷纷投入到AI绘画这个新领域。代表平台有文易欣格、6pen、迪亚马特等。
与此同时,关于艾绘画的争议和争论愈演愈烈。近日,AI画作《太空歌剧院》在美国科罗拉多博览会艺术大赛中获得“数码艺术/数码装饰照片”类别最高奖。结果遭到了画家的质疑和抵制。
对于内容创作者来说,现在如何理解AI绘画?有哪些应用场景和需要探索的问题?我们与一些创作者交谈,并分析了各种平台的案例。
文章分为三个部分:第一部分是关于AI画的基本原理和发展历史的简单科普,第二部分列举了一些AI画的具体应用案例,第三部分是讨论AI画目前存在的争议和问题,希望对感兴趣的朋友有所帮助,欢迎友好交流。
AI绘画是材料的拼贴?
首先,我们这里讨论的AI绘画主要是一个通过文本生成图像的计算机程序,即“text2image”。
比如这张图是由文字“80年代泰迪熊在月球上从事新的AI研究”(80年代在月球上研究AI的泰迪熊)在DALL E2上生成的。
稍微修改一下描述,把位置改成“90年代技术的水下”,得到下图:
如你所见,AI绘画不是对现有素材的简单“拼接和拼贴”,而是根据文字描述创造新的图像。某种程度上实现了“举一反三”,可以帮助人类画出各种奇思妙想。这背后是大量复杂的深度学习训练。
我们先从艾画的技术发展史来初步了解一下文圣画的基本原理。
艾绘画发展的时间线,其源头是“逗沙”
深度学习在计算机视觉领域的发展可以追溯到2012年,由AI学者吴恩达和杰夫迪恩进行的猫脸识别实验(通过1000台计算机创建了多达10亿个相互连接的“神经网络”,经过数万张猫脸图片的模型训练,最终绘制出一张模糊的猫脸),这意味着机器学会了自主识别猫脸。
此后,科学家们继续对AI图像生成方向进行深入研究,提出了“GAN(世代对抗网络)”,通过生成器和鉴别器的博弈,不断提高生成能力。这就像老师检查学生画的画是否像,如果不像,学生再修改,等等。
从2015年到2020年,从甘开始,AI绘画模型被探索了很多,但此时AI仍然不能根据文字生成图片。
直到2021年1月,OpenAI陆续发布了连接文本和图像的两个神经网络DALL E和CLIP。CLIP(跨模态预训练模型)基于大规模的图像和文本数据集进行比较学习训练,可以提取文本和视觉特征相互匹配。也就是说,AI可以把“猫”这个词和猫的形象联系起来,关联的特征非常丰富。
CLIP推出一年后,2022年2月,Somnai等多个开源社区的工程师制作了一个ai图像生成器Disco Diffusion(简称DD),可以理解输入的主题内容、艺术风格、结构视角和修饰语,生成的图像更加华丽。作为一个免费的开源项目,DD安装在Google Colab上,可以用浏览器运行。AI绘画从此进入大众视野。
迪斯科扩散默认绘画,输入文本:一个奇异的灯光房子的美丽绘画,照耀着它的光穿过混乱的血海,由格雷格鲁特考斯基和托马思金凯德创作,在artstation上流行。‘黄色配色’(一个奇怪灯塔的漂亮画,它的光在汹涌的血海中闪耀,格雷格鲁特考斯基和托马斯金凯德风格,a站流行,黄色配色)
但DD不是“剪辑GAN”的组合,而是“剪辑扩散”,扩散(扩散模型)也是目前最流行的图像生成模型。
这种中途扩散有什么区别?
可以看出DD图像生成的过程是从模糊逐渐清晰的。
每个图像的本质是像素矩阵。扩散首先不断地给图像添加高斯噪声,图像就变成了一堆随机噪声。然后,它学习通过反转噪声过程来恢复数据。
扩散模型的扩散过程和逆扩散过程
所以当我们在DD中输入一段文字描述时,程序从扩散随机产生的噪声开始。CLIP会不断计算和检查图片和描述的一致性,不断迭代和修改,直到噪点变成正确关联的线条和颜色,从而生成符合要求的图像。
AI研究者“FeiArt”认为,基于生成模型的AI绘画是一种“有码到无码”的艺术。
虽然DD已经实现了文生图,但是因为是开源的,入门门槛比较高。仅仅是满屏的代码可能就已经让新手小白望而却步了。
“一开始你要自己调整二三十个参数,准备一个合适的提示,这样才能画出理想的画面效果。对用户理解算法逻辑,写关键词的要求非常高。但是现在的版本基本不需要调整参数,只需要写关键词就可以了。”数字艺术家Mindplayer向我们介绍了DD的经历。她今年3月开始在哔哩哔哩与小红书分享AI绘画和教程,是中国最早的玩家。
DD出圈不到一个月,更成熟、门槛更低的产品——Midjourney(简称MJ)很快出现。目前,社区成员超过260万。
MJ挂载在Discord(国外流行的虚拟社交平台)上,是一个开放的社区。用户加入后,他们在聊天框中输入描述性文本并发送。群里的机器人会回复生成图片。
默认情况下,每次将生成4张图片。用户可以点击图片下方的按钮继续深化(u1/2/3/4),也可以在此基础上生成一张风格一致、局部改动的图片(v1/2/3/4)。
此时,艾绘画的肌理和想象已经表现出一定的审美水平和艺术效果。上面提到的获奖作品《太空歌剧院》是MJ生成的,作者在此基础上进行了修改和完善。
当我们在Google Trends中搜索“ai绘画”这个关键词的时候,可以看到近两年来,尤其是今年7月份以来,热度迅速上升。
很大一部分热量是由于稳定扩散(简称SD)。
“相比DD,MJ可能更突出作品的质量和独特的深化互动。SD优于超级全面的风格和极快的速度,对初学者比较友好。网页版简单易用,可以体验很多免费使用的图片。”艾画设计师“鱼摇”说。
新SD账号可免费使用200积分,每次生成根据画面精细度、张数等参数消耗不同积分,每次至少消耗一个积分。但是SD是完全开源的,用户可以选择在线使用或者本地使用。
6pen最近在微博推出了flash活动,用户可以通过写关键词发送到微博,体验用SD生成图片。
SD出现后,AI绘画的浪潮越来越汹涌。很多创作者表示,前两天可能还在讨论的功能,第二天就开发出来了。除了文生图,现在已经实现了图像对图像、修复、出涂等功能,AI绘画还可以驾驭民族风、二次元等多样风格。
外夫扩散(二奶发生器)
Mat国丰管道
AI绘画在内容领域的应用如何?
现阶段,AI绘画正在成为艺术、影视、广告、建筑、时尚、新媒体等创意行业从业者的有力助手,可以辅助日常工作,提高输出效率,降低时间和经济成本。
比如《大脑玩家mindplayer》用AI设计LOGO。最初的工艺是先构思,手绘,然后输入电脑进行调整。中间可能要花很多时间和精力来来回回的沟通,但是在AI的帮助下,效率很高。“我告诉艾我想做什么,我们在一个小时内完成了工作。”
在AI的基础上优化并不难,作品商业化也不难。
影视导演海鑫在微信官方账号“全民熊猫计划”、3354《5队长李承炫秀在这条街》分享了他的公司首次尝试将AI设计融入影视美术设计,工作流程大致是Midjourney-Blender-UE的虚拟制作。
他表示,在极短的生产准备时间内,AI创作的效率得到了极大的提升,证明AI投入工业使用是完全可行的。
除了辅助设计,AI还能激发创造力。时尚博主“JINNY”和婚礼策划人“aiaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
PPT设计师、美术博主“西蒙_高加文”经常分享AI行业资讯和实用工具。他尝试用AI生成无缝的纹理贴图,设计素材的获取变得更加自由。
数字艺术家、博主小红书《对方在画图》告诉我们,具体应用要看创作者的知识背景和提示的文字能力。不同行业背景的人写出来的字不一样,画出来的内容也不一样。
这些从业者在网络上发布的作品,让更多人看到了AI绘画的可能性,非专业人士也跃跃欲试,一展身手。有人认为专业人士在AI绘画方面会更有优势,使用起来会更得心应手。事实上,这种优势随着技术迭代一直在缩小。
“以前,一个人永远画不出一幅画来画出一个漂亮的、可读的图像,这可能需要很多年的训练。但现在如果有熟悉AI画图系统的人教你,你可能两三天就学会了一般的描绘方法,努力学习的时间成本会降低很多。”“大脑玩家mindplayer”说。
“每个人都可以成为艺术家。”我们列举了AI绘画在内容领域的几个应用方向。
1.有经验的创作者可以利用AI拓展新的内容主题,创新互动形式。
大谷斯皮策擅长还原老照片和视频,现在他可以将AI绘画与手绘相结合,“还原”莫奈1875年所画的印象派油画《撑阳伞的女人》的写实风格场景。
他用AI选取若干局部区域进行绘画生成,然后辅助手绘修改细节,完善关节,完成了这项工作。
百万航空媒体自由撰稿人、航空画师白薇最近发布了自己用ai制作的漫画,是一部赛博式的神秘题材。
随着技术的发展,创作者平台也会给予更多的AI工具支持,新的内容玩法值得期待。
例如,今年9月,百度万象大会推出“创作者AI助手团”,通过大文模、文风、图文转视频等技术,为创作者提供“AI文案助手”、“AI插画助手”、“AI视频制作助手”,帮助创作者实现“一人成队”。
2.物化AI图片,进一步实现增收。
基于AI的“摇鱼”作品在很多领域都有拓展和尝试,比如物化成卡牌游戏的卡牌人物,拼图
此外,还有创作者将AI生成的图片进一步优化成数字收藏,在链上出售。
3.图形作者拥抱“绘图自由”,可以尝试生成自己的符合内容的封面图和插图。
微信官方账号5月18日以来的《槽边往事》封面图片,基本都是作者和菜头本人用AI生成的,最后附上了部分图片的描述。他还在文章中分享了自己的创作经验。
本文的封面图像也是首次使用稳定扩散生成的。“一个女生坐在书房的书桌前,桌上放着一台笔记本电脑,窗外是秋天,还有金黄的银杏树。”没有修改过两次。
4.二次创作门槛降低,UGC内容数量增加。
现在AI画画入门越来越方便了。新手不会写关键词,可以去搜索发烧友创建的网站,分组“抄作业”。SD也可以访问Photoshop插件,创作门槛更低。
借助AI的图片生成能力,不会画画的用户有机会实现自己的奇思妙想,为自己的爱好做一些新颖的插画、音乐mv、鬼畜玩梗等创作,从而踏入内容创作的大门。
上《艾蓉丝谢》用艾画的歌。
5.扩展和探索AI生成视频。
AI绘画的下一步是视频。近期AI作品《乌鸦》获得2022年戛纳电影节最佳短片。据作者格伦马歇尔(Glenn Marshall)介绍,这部作品将真人舞蹈视频素材《Painted》输入到OpenAI的CLIP中,然后系统根据“荒凉景观中的乌鸦绘画”的描述将其转化为动画。
UP的主打《闲云》由Disco Diffuse绘制,经Topaz Video Enhance AI优化放大,再现周杰伦新歌《最伟大的作品》的MV,播放量83万,是目前其哔哩哔哩贡献播放量最高的作品。
据百度文新介绍,AI生成视频,是AI生成图像的延伸。从技术本质上来说,视频可以认为是一系列的“画面”,即视频帧,序列中的帧在画面和逻辑上是有关联的。所以从严格的技术抽象层面来说,AI生成视频的难度相对更大。
文生图技术目前可以通过简单的技术组合,如分步扩散生成,将生成的图像扩展为生成的视频,但效果并不理想。综上所述,AI以生成图像的方式生成视频,目前还处于前沿探索阶段。
AI绘画仍待探索的问题
AI绘画的快速发展伴随着许多争议和问题。
大脑玩家Mindplayer说,“AI绘画可以作为一种工具快速应用,每个人都可以画出自己的理想世界,但然后呢?这可能是行业内外的人都在思考的问题。”
艺术从业者担心会不会被AI取代,所以会失业。
今年8月,《大西洋月刊》文章使用了中旅创作的图片作为插图,引起了不小的争议。如果未来媒体大量使用AI画图,插画师和摄影师的生存空间会不会被挤压,甚至行业会不会被摧毁?
的确,人工智能的力量会给人们的生活带来巨大的改变。将来技术普及后,必然会取代一些重复性高的初级岗位。但是“艺术已死”的说法真的符合现实吗?AI画画有创意吗?
Midjourney的创始人David Holz曾经在每周三的办公时间回答过这个问题:
虽然乐观的从业者已经投身于AI绘画的研究,但在行业上下游,受到冲击的付费画廊首先用行动表示了抵制。
最近,继Newgrounds、PurplePort和FurAffinity之后,图库服务提供商Getty Images禁止上传和出售AI生成的图片,这意味着DALL E、Midjourney和Stable Diffusion等工具生成的作品将无法上传和获得任何收入。而且上传到之前平台的AI生成的图像都被删除了。
Getty Images首席执行官克雷格彼得斯(Craig Peters)表示,这一禁令是出于对人工智能生成内容合法性的担忧以及保护网站客户的愿望。然而,他没有透露Getty Images是否因出售人工智能生成的作品而面临诉讼纠纷
事实上,目前国内外对AI生成图像的合规性存在较大争议。
上面我们提到过,AI生成图像的原理是深入学习大量的图形数据,它会抓取别人在网上发表的作品。生成的图像与训练好的作品相似,有时甚至混有原始水印痕迹。所以有人认为培训库涉嫌抄袭侵权,也有从业者公开表示禁止AI学习自己的作品。最近被线下抵制的日本AI绘画平台Micmic就是一个典型的例子。
说到商业用途,AI生成的图片版权归谁所有?不同的平台在这个问题上各有各的看法,这要看相应的版权说明。
有些平台注明属于制作方。比如6Pen声明不保留版权,生成的图片版权属于制作方,可以随意用于商业目的。有的属于平台,有的完全开源,不属于任何人。
根据中旅的服务协议,输入提示的人享有生成图像的著作权,但提示著作权的归属尚无定论。据观察,行业内出现了卖文字提示、AI洗稿的现象,有的甚至是偷图直接卖。有些壁纸号是重灾区,所以很多创作者选择不公开作品的提示,并标注禁止转载和商业化。
一般的AI画师通过增加原创性,使用AI作为辅助或基础材料来避免侵权。“西蒙_阿尔温”认为,如果存在以下一种或多种情况,建议不要将其用于商业用途:
关于版权问题,百度文新表示非常重视图片的版权。如果以后平台开放的生成图片侵犯了原作者的权益,百度将提供投诉反馈渠道,为相关权利人提供权利救济渠道并快速处理。“艾文生地图的版权问题是国内外法律不断讨论的方向。百度会跟进国内外的发展,会结合国内法律法规给大家更新最新进展。”
另外,AI本身没有价值判断,只是从训练库中提取的数据的特征与人输入的数据相对应。当人们故意输入暴力、血腥、色情等敏感信息时。或者利用生成的图片捏造事实,AI也可能陷入伦理困境。在这方面,DALL E2做了很多限制和干预,比如减少性别偏见的产生,防止训练模型产生逼真的个人面孔。
人工智能是一个新兴的行业,可以看出相关的行业规范在向前发展。
10月1日生效的《上海市促进人工智能产业发展条例》立法确立了人工智能产品和服务的行为底线,明确相关主体在开发应用人工智能时,应当遵守法律法规,增强道德意识,不得从事相关禁止行为。比如,禁止提供危及用户人身或财产安全、侵犯个人隐私或个人信息权的产品和服务;禁止利用算法技术实施价格歧视或者消费欺诈等侵害消费者权益的行为,实施垄断或者不正当竞争。
纵观内容生态的发展,大致可以分为四个阶段:专业生成内容(PGC)、用户生成内容(UGC)、AI辅助制作内容、AI生成内容(AIGC)。AI GC(人工智能生成内容)是通过AI技术自动或辅助生成内容的生产方式。
源量子比特智库《AIGC/AI生成内容产业展望报告》
“未来十年,AIGC将颠覆现有的内容生产模式,能够以十分之一的成本、百倍的生产速度,实现具有独特价值和独立视角的内容创作。”百度高级副总裁、百度移动生态事业群(MEG)总经理何接君在2022万象大会上表示。
可以预见,人工智能将在未来深刻影响各类内容创作领域。潘多拉的魔法
- 上一篇 : 浦源宇宙公司发了大财:收入5-6亿 VC排队砸钱
- 下一篇 : 小红书 为什么媒体扎堆在这里办公?