公司动态
分享创造价值 合作实现共赢

公司动态

当前位置: 首页 > 新闻动态 > 公司动态

从机器学习到AIGC

发布时间:2022-12-05 09:32:02作者:顺晟科技点击:

1.几个问题

AIGC最近成为热点,不少小游戏开始出现在小红书上,比较流行的是头像二次元化,效果很好。高端局通常使用Stable Diffusion、MidJourney等工具生成AI图片。

AIGC是Artificial Inteligence Generated Content的缩写,实际上不仅仅是画画。所有的东西,包括声音、图像和视频,都可以用类似的技术制作。

(这里有一些视频示例,如https://imagen . research . Google/video/。)

作为破圈先锋,AIGC的画仍然更令人震惊。

图片

(Dall-E2官方主页:https://openai.com/dall-e-2/)

图片

我们可以想象科学家观察到一个现象后总结规律的方法。

古代科学家认为天空是圆的,这是最直观的推测。因为太阳月亮星星的运行使用这个解释是合理的。后来观察到地球是球形的,其地心说是直观的逻辑。如果以后观察更多的天文现象,就会发现太阳是太阳系的中心,地球在公转中自转。

这种进化符合一种逻辑:根据目前的信息解释现象,用最简单的方式解释。新现象出现,无法解释,添加其他因素使其复杂化,无法解释新现象。

机器学习就是这样。

认识一个人能不能买口红最直观的方法是判断ta的性别。如果是女性,买口红的概率更高。(John F . Kennedy,口红,口红,口红,口红,口红,口红)人的属性不断变化,但性别是我们判断“买口红”这个命题的“特征提取”。我们找到这个规律后,就可以以性别为特征制作模型。

用户简介输入-性别提取和判断-输出

现实变得更加复杂,男性也能生活,很多时候在春节或节日送礼物。那么性别(男人)购买日(节日附近)也可能成为重要特征,所以要引入新的特征向量,即购买日。

输入用户简介-提取和判断性别购买日期-输出

根据新的用户资料和购买行为,我们会不断发现新的特征有利于我们的判断。所以除了节假日,还引入了更多新的特征,比如看用户女朋友/家人的生日。比如女性里面,买口红的概率更高,可能出现在某个年龄段。这样做的话,“特征”越来越多。

输入用户简介-按性别提取购买日期年龄.判断-输出

我们输出的结论肯定会越来越准确。这是机器学习操作的基本逻辑。

也就是说,要提取这么多特征来判断,必须看到不同的特征对输出的影响程度。性别和年龄可能有点重要,其他的可能权重较小。如何判断?如果确实不能成为人,就要训练模特。

机器学习的模式是投入我们筛选的特征维度(性别、年龄等)、大量正负事例(训练集),让机器学习非常复杂的公式。公式说明了每个特征对结果的影响程度。

这里面训练集的规模将成为重点,事例越多越准确。在过去的时代,很多训练集需要人工标记,尺寸员和富士康工人一样被认为是劳动密集型工作,判断这个事件是正值还是负值。比如文字识别,这个词是什么词?图像分类识别,这是猫还是狗?一段翻译正确吗?

这也是为什么互联网公司团队往往有最好的“算法”。我们提到算法好的时候,大多数情况下,这家公司机器学习模型的准确度很高。这个准确度来自公司收集的大量用户行为数据。用户用正确的行动免费标记企业。比如购买消费行为、浏览点击行为等。

这就是机器学习的原理。当然,这是白话说。具体提取特征的方法、判断权重和要素之间相互作用的方法、分类方法、建模方法等其实是非常复杂的技术操作。

深度学习与AIGC原理

随着机器学习发展到21世纪,计算机的性能大大提高,开始进化为深度学习(Deep Learning)。

深度学习是“深度学习”的。因为不仅可以学习模型如何正确,还可以学习建模本身。

在前面提到的例子中,我们要弄清楚一个人是否能买口红,还是从“生活观察”出发,这个特征是否相关。它的特征有关系吗?

深度学习的逻辑不需要判断。也就是说,一个大脑将所有信息转换成深度学习模式,自己判断哪个有用,哪个无用。(约翰f肯尼迪)。

这些优点很明显,可以涵盖更多的特征,收集更多的数据。而且,深度学习算法可以嵌套多个层次,因此可以解决更复杂的场景和更复杂的数据。

因此,深度学习的效果会明显好转。

图片

(卷积神经网络,即卷积神经网络、CNN的示意图、源CSDN)

就像我们举例的那样,还是用单一维度的判断买口红。通过深度学习,可以处理图像区域、视频区域、大量像素颜色值、位置等。

但是深度学习也有问题。也就是说,如果绕过人为提取特征、人为判断规律,深度学习的模式很少得到解释。这就像黑匣子一样。我们知道每次都能给出正确的答案,但不知道为什么会给。甚至可以拆开盒子,从很多函数、公式、逻辑来判断未知的——是否会买口红,也可以判断这个人右脚脚趾是否有胎记。

在深度学习领域,2014年横空推出了一种生成对抗网络(GAN,Generative adversarial network)的新算法。它在以后的AIGC领域是无敌的,非常受欢迎,效果非常好。而且其原理甚至非常文学化。

GAN解决这个问题的方式是放老师和学生们玩游戏。模特就像一个学生。提出试题的答案,老师判断对错,直到满意为止。老师满意后,学生们对老师不满,认为这些问题太简单了,老师得出了一些更难的问题,我要继续提高成绩,所以老师也要进步,给新的试题,直到学生几乎答不上来为止;接着学生们继续努力学习,解答问题,达到阈值后,老师继续学习和出题。正如GAN的名字所述,对立模式一起上升。

这个算法的逻辑是竞争能使人成长。

图片

(根据原始图像通过GAN生成的一些实例。资料来源:https://gitcode . net/mirrors/yenchenlin/pix 2 pix-tensorflow)

它的具体实现当然更复杂。您只需知道,它为基于原始内容(噪音)、补充和丰富细节的图像提供了最佳性能。

GAN是AIGC中最常用的机器学习算法之一。另一种常见的是diffusion model,例如,它非常适合基于原始内容(噪音)生成内容。文章开头的那几张画是以diffusion model的原理为基础的。

所以综上所述,在机器学习的发展过程中,大大简化了人工参与的环节和程序,丰富了输入和输出的维度和准确性,从“能不能买口红”这样简单的问题演变成了可以制作宠物的照片、虚无缥缈的视频、模仿某人的声音。(推荐英剧《真相捕捉》。讲述了围绕Deepfake等技术的犯罪故事。)。

在这个过程中,很多公式和模型的复杂性已经变得难以解释,甚至变得无法遍历和阅读。说起这个,大家可能也会有这样的感觉:虽然这几年机器学习进展很快,但仍然围绕早期机器学习的原理,通过——,通过大量的数据训练机器,机器可以更好地预测概率。

统计、概率、训练和经验主义

我们可以改变视角,用更形象的表达方式来理解机器学习是如何实现我们看到的人工智能的。

自然语言处理/机器翻译领域,我们目光所及的翻译工具,例如从汉语到英语,机器所做的工作如下。

当给出的第一个汉语单词出现时,翻译哪个英语单词的概率更大?

给定的第二个汉语单词出现在第一个汉语单词后面时,翻译哪个英语单词的概率更大?

……。

例如,与AIGC领域(如画小狗)相比,机器做的事情如下:

当给定的关键词是小狗时,第一个像素点在哪个位置,哪个颜色的概率更大?

……。

画完脸后有耳朵吗?

那么,有几只耳朵的概率更高吗?

当你需要左耳的时候,第一个像素出现在什么位置,哪个颜色会出现得更多?

……。

机器在过程中使用模型,但实际模型都是基于统计概率的模型。机器就像疯狂地回忆他记得的所有过去的画一样。所有狗狗的形象都努力使结果更接近“大概率”。

这就是为什么在各AI绘图工具中,关键词越准确,图片就越成立。因为准确性意味着缩小范围,所以同类型图片的风格和容貌更接近,所以图片的模仿效果会更好。

这里训练的统计概率模型的过程是像古代杂技演员一样,让宠物做计算问题的方式。出现几个数字的时候应该选择什么答案,宠物是靠背,这是统计概率的问题,不是数学计算的问题。训练过程中给予的奖惩就像机器学习一样(机器学习中也有奖惩概念)。

这也是机器学习的神经网络,也是人的神经网络和目前差异最大的地方。我们很好地利用计算机夸张的性能和存储能力,拥有巨大的统计概率模型,存储大量数据训练集中获得的内存结果,但最终也有以统计和概率为中心的。事实上,机器仍在大量采用过去的绘画进行“创作”,但确实不同的拼凑和处理会产生意想不到的效果。因为绘画本身就是对现实世界的抽象。因为如果离开,效果最好。

写长篇小说或拍摄一部逻辑完整的电影会太费力。

5.对几个问题的回答

我们再回到原来的问题,尝试一下答案。

-AIGC能解决什么问题?什么问题不能解决?

如前所述,AIGC能解决的是在历史上进行总结和学习,解决统计概率解决的问题。

不能解决的是创造新事物、总结规律和解释世界的问题。

-AIGC能取代真正的创作者吗?

在某种程度上。

即使与经验主义、原理、Alpha go没有本质区别,AIGC在足够的领域有很大的价值,可以替代很多人力成本。

例如,AIGC的绘画可以取代今天的许多插图。很多自媒体朋友已经在用封面代替没有版权的照片。

古语说,读书破万卷,写毛笔,好像有上帝一样。(西方谚语)AIGC的文本工具其实是为我们读万卷书的助手。例如,我们要写文章,那对我们制作人物小传作为参考,提供场景描写作为素材大有帮助。(约翰f肯尼迪)。

但是,实际上,对于很多需要“创造”的场景,AIGC没有帮助。例如,如果机器学习的训练集是三年前的话,就写不出传染病的故事,传染病中我们都难以预测的场景也是无法想象的。

几年前就有人说AIGC替代作者,但现在再看,应用较多的是短新闻方面。根据概率,可以给好“好”的新闻稿件,但这与过去的短新闻形式一致,风格相似,容易模仿。(阿尔伯特爱因斯坦,Northern Exposure,“艺术”)观点、态度和扩张的想法当然很难用统计概率来捉摸。

Aigc是否意味着人工智能的质变?

没有。

AIGC的逻辑与半个世纪前统计机器学习的根本逻辑没有区别。或者是根据统计概率的训练集推测的。即使Siri偶尔会给出微妙的回答,对话也确实发生过。Siri只是在概率上模仿而已。

即使是AI画的最绝情的画,也是基于人类历史上所有画的基础创作,还是基于人类作品的杂交。艺术性高并不意味着AI有“智慧”。

人类可以做总结、演绎、总结等逻辑,这台机器还是做不到。甚至机器学习的黑匣子越来越暗,模型越来越难解释,导致机器在更好地统计和记忆的路上来回走动,放弃解释和研究规律。)。

但是说到这里,通过统计概率真的不能产生智能吗?也可以反问。这在目前看来很难,但不一定是假命题。人类自身的神经网络仍然是朝阳研究领域。这得留下时间回答。

(申报)

TOP

QQ客服

18910140161