公司动态
分享创造价值 合作实现共赢

公司动态

当前位置: 首页 > 新闻动态 > 公司动态

Google AI图4牛携手创业 天使估值7亿

发布时间:2023-03-04 09:21:40作者:顺晟科技点击:

最近谷歌像个大勺子。不,又是AIGC核心成员携手奔跑!

杨子伟此次独家获悉,与Google Sybe Bay一起,文生道核心团队——AI绘画模式Imagen论文的4名核心作者为了运营自己的AI公司而出去了。公司名称尚未对外公布,但新公司将保持一致的路线是明确的。

以Imagen为基础,沿着原始项目进行,不仅可以文生图,还可以继续视频方向。

核心人才创业,当然VC插头——已经以1亿美元惊人的天使评价完成了第一轮融资,更多VC想给钱,来不及投资。

这也被认为是文生道、文生影像和AIGC赛道上最著名的研究团队之一。

文生图骨干成员共创AIGC新公司

新公司联盟4名成员、Chitwan Saharia、William Chan、Jonathan Ho和Mohammad Norouzi都来自Google。

他们专注于AIGC的文生图版,DALLE成为对抗DALLE-2的大杀手Imagen的论文合著者非常重要。

2023030314162073750.jpg

首先,我要介绍Imagen的联合作品Chitwan Saharia。

Chitwan本科毕业于孟买理工大学计算机科学与工程系,在孟买理工大学和蒙特利尔大学均担任程序和算法研究助理。2019年加入Google、base多伦多,从二级软件工程师成为高级研究科学家,3年后于去年12月从Google离职。

Chitwan有语音识别、机器翻译经验,在Google工作时主要领导image-to-image扩散模型。

第二篇William Chan也是Imagen论文合著的。他也是计算机工程出身,就读于加拿大滑铁卢大学和卡内基梅隆大学,中间在新加坡国立大学做过一年交换生。

在卡内基梅隆大学获得博士学位后,威廉在加拿大最大的社区大学之一乔治布朗大学主修烘焙和烹饪(?),学了三年。

威廉从2012年开始加入谷歌,2016年成为谷歌大脑的一部分,去年5月离职时,他已经是谷歌大脑多伦多的研究科学家。

而且简介是Jonathan Ho,加州大学伯克利分校博士毕业。

他不仅是Imagen论文的core contribution,也是Diffusion Model基础《Denoising Diffusion Probabilistic Models》的作品。

2023030314162073751.jpg

博士毕业于UC伯克利计算机科学专业Jonathan,在OpenAI做了一年研究科学家,2019年加入Google,一起工作了两年零八个月,去年11月作为研究科学家从Google离职。

新公司的最后一次共同创立是Mohammad Norouzi,也是Imagen论文的共同作品。

他在多伦多大学计算机科学博士就读期间获得了谷歌ML博士奖学金。毕业后,他加入title大脑工作了7年,title的最后一个title是高级研究科学家,重点是模型的生成。

同时,Mohammad是Google神经机器翻译组的原始成员,也是SimCLR的共同发明者。他在GitHub网站上小幅公开了自己最近的动向。

除了这句话以外,关于新公司的详细信息没有在任何社交平台上进一步透露。

这是谷歌最近流出的第N品脱。

过去两个月,先是旧世界(Shane Gu,& amp# 039;再一步想想& amp# 039;研究员)在内的4名以上谷歌大脑成员加入了OpenAI。情人节的时候,Hyung Won Chung和CoT的第一部作品Jason Wei组队叛逃了OpenAI。

这个星期三,你觉得怎么样?嘿,又跑了一个:

2023030314162073752.jpg

OpenAI摇头丸,一勺谷歌勺子受伤的世界诞生了。

Imagen是什么?

Google去掉的这四个人,我们再回来谈谈为他们的职业生涯赢得掌声的Imagen项目。

Imagen是Google发布的文生图模型,发布时间是DALL-E2刚出来一个月后。

放在正文开头的熊猫告诉李茂珍& ampquot非常快乐的毛绒熊猫在厨房里装扮成制作面团的厨师的高对比度画像,然后墙上还有一幅画着花的画& ampquot输入“”完成的要素之一AI制作了画。

在Imagen出现之前,文生道共享了CLIP从文本特征映射到图像特征,然后引导GAN或Diffusion模型创建图像的例程。

Imagen没有走特别的道路,而是打开了text-to-image的新范式。

纯语言模型只负责文本特征编码,特定的文本到图像操作被Imagen扔进图像生成模型中。

特别地,Imagen包括一个被冻结的语言模型T5-XXL(Google自行制作),用作文本编码器。T5-XXL的C4训练集包括800GB的纯文本语料,文本理解能力比CLIP强得多。因为后者只以有限的图片进行训练。

图像生成部分使用一系列扩散模型,先生是低分辨率图像,再一步超级采样。(阿尔伯特爱因斯坦,图像生成,图像生成,图像生成,图像生成,图像生成,图像生成)

2023030314162073753.jpg

依靠新的采样技术,Imagen允许较大的引导权重,因此不会像原始作业那样降低采样质量。这将提高图像的保真度,并更好地完成图像-文本对齐。

概念上很简单,但Imagen的效果仍然令人震惊。

生成的狗庆州技术是一流的。

与燃烧的DALLE-2相比,Imagen能够更准确地了解两种颜色要求同时发生的情况。

2023030314162073754.jpg

由于画画和写字的这种要求,Imagen也成功地完成了,不仅写得正确,还增加了魔术般的火焰效果(否)。

2023030314162073755.jpg

之后对研究更有帮助的是,谷歌通过Imagen的研究优化了扩散模型。

首先,增加“未分类者指南”(classifier-free guidance)的权重可以改善图形对齐,同时损害图像保真度。

为了解决这个错误,每个阶段都引入了一种称为动态阈值的新扩散采样技术,以防止过度饱和。

2023030314162073756.jpg

第二,在使用高引导权重的同时,增加低分辨率图像中的噪声,可以改善扩散模型的多样性不足问题。

第三,扩散模型的经典结构U-Net得到了改进,成为Efficient U-Net。后者提高了内存使用效率、收敛速度和推理时间。

后来在Imagen进行了微调,Google在& amp# 039;指向哪里& amp# 039;推出了能做版本的文生也是模特的DreamBooth。上传并生成3 ~ 5张指定物体照片的背景、动作或表情,用文本说明指定物体想要的场景& ampquot闪存和ampquot可以做到。

例如,酱阿姨:

2023030314162073757.jpg

还是酱阿姨:

2023030314162073768.jpg

也许Imagen效果太出色了,柴哥后来亲自发布的Google AI是视频选手队长& amp# 039;Imagen Video & amp# 039;好像可以制作1280*768分辨率、每秒24帧的视频剪辑。

哦,等等,谷歌上有Imagen Vedio,是不是撞到了四人的新公司?

仔细看下面的论文,不管是Imagen还是Imagen Video,都有很多关于风险、社会影响力的内容。

为了安全性、AI伦理、公平性等,Imagen和Imagen Vedio没有直接开源,没有开放API,甚至没有demo。

市面上出现开源复盘本也不是最正宗的味道。

在此之前,谷歌的年度内部员工调查& amp# 039;谷歌geist & amp# 039;中,职员们曾质疑谷歌的执行能力下降。也许这四个人离家出走,继续做Imagen,做Imagen的视频版,可能是为了把项目放在更开放的AI环境中。

而且,这种离家创业也是热钱飙升到AIGC的结果。

所以,既然AIGC的创业热潮已经从太平洋那边开始,太平洋那边也不会无声无息。

也许你已经听说了同样大的工厂离家创业。欢迎爆料~ ~

(申报)

TOP

QQ客服

18910140161