公司动态
分享创造价值 合作实现共赢

公司动态

当前位置: 首页 > 新闻动态 > 公司动态

一句话 与GPT-4的差距是什么?

发布时间:2023-03-20 09:28:59作者:顺晟科技点击:

本周无疑是AI爆炸周。昨晚微软推出微软365Copilot,办公软件全面接入生成式AI功能。在刚刚过去的疯狂星期四,“中国GPT”文新也迎来了备受瞩目的亮点时刻。当天下午2点,百度创始人李彦宏出现在发布会现场,展示了文心的使用场景表现。

据悉,从3月16日起,首批用户通过邀请码说一句关于官网的话就可以在文心体验产品,产品将陆续开放给更多用户。值得注意的是,昨日发布会开始后,百度集团港股股价持续下跌,最高跌幅一度达到9%,收盘时最终下跌6%。然而,今天情况发生了逆转。截至记者发稿时,百度香港股价已持续上涨超过14%。

无独有偶,在文新正式上线的前一天,OpenAI正式公布了大型号GPT-4,距离上一次惊艳的ChatGPT上线仅4个月。最新的官方GPT-4不仅提高了语言模型的能力,还增加了“多模态”图像识别功能。简而言之,GPT 4号更聪明,更人性化。

对于文新伊彦和GPT-4来说,几乎同时在线的节奏意味着他们之间的比较是不可避免的。新榜编辑部在第一时间获得内测资格后,分别向文欣怡和搭载GPT-4版本的微软必应提出了九个相同的问题,看他们如何回应。(想了解问答的朋友可以直接跳转到第三部分)P . S月16日起,个人用户可登陆yiyan.baidu.com,点击“立即体验”参与排队。文心一言:是不及预期,还是值得期待?

“十月怀胎,生一次。”在文心正式发布之前,李彦宏用这句话总结了百度多年来在文心AI系列产品上的布局。2019年3月,百度推出文心二胎1.0以来,经历了多次迭代。此次发布的文新是对之前产品的延续和升级。

李彦宏还表示,对于文新,大家的期望是对ChatGPT甚至GPT4进行基准测试,这个门槛还是很高的。在全球各大厂商中,百度最先发布。(ChatGPT由OpenAI开发,不隶属于微软,双方是合作伙伴。)

在产品演示环节,李彦宏演示了文易欣在文学创作、商业文案、数学计算、中文理解、多模态生成五个使用场景的表现,如概括小说《三体》的核心内容、命名公司、写广告语、计算同笼鸡兔的数学问题、根据文字自动生成图片和视频等。图片

值得注意的是,以上演示链接均为预先录制的视频演示,现场并未演示向文心实时提问的效果,让不少用户感到失望,认为产品并未达到预期的惊艳效果,间接影响了百度在资本市场的走势,导致其港股价格在发布会期间直接跳水。意想不到的示范效果,与百度高调宣布文心的话,抢着推出产品有关。

今年年初ChatGPT出圈后不久,百度宣布正在筹备一款类似的AI产品,预计3月份对外开放。在2月底发布2022年Q4和年度财报后,李彦宏在致全体员工的信中提到,“百度的很多主流业务都与文心安易进行了整合,包括搜索、智能云、Apollo自动驾驶和小型智能设备”。

同时,文新还在紧锣密鼓的测试和开放中。据《华尔街日报》报道,文心上线前一周,有百度员工表示,产品的基础功能还不完善,基于它的AI模型还在接受数据训练。或许是各种因素的叠加。李彦宏在发布会一开始就表示,文新在内测期的话并不完美,但考虑到市场需求,一定会推出,并强调用户反馈可以帮助文新不断优化迭代。

发布会上,李彦宏宣布已有650家机构宣布加入文心伊彦生态,李彦宏也表示看好未来AI市场的爆发式需求。百度官方数据显示,截至3月17日10点,已有7.6万家企业申请文信伊彦API调用服务测试。“百度敢于在当下这个时点发布自己的大模型,还是有很大的勇气,行业关注度很高,客观上能够促进国内AIGC上下游的发展。”一帧视频CEO雷涛告诉我们,其旗下产品“一帧秒创”也支持文字转视频,所以比较关注文心一言的多模态输出能力,但发布会演示的效果不及预期。

他认为,对于中国的互联网创业者来说,现在是一个“AI平权”的阶段。今天,任何人工智能创业公司与百度的差距都远远小于百度与OpenAI的差距,所以小公司也有机会在中国互联网上与行业巨头竞争。并且基于已有模型成果的应用开发,小公司也有更多尝试的机会。AIGC的黄金十年可能已经开启。GPT-4升级多模态,国内如何接招?

回顾文心伊彦的诞生,除了百度自身十几年的技术积累,ChatGPT才是引爆这场AI技术大战的关键点。今年2月初,微软推出了新的人工智能搜索引擎Bing和Edge浏览器,谷歌发布了实验性的对话AI服务Bard。“中国版ChatGPT”在哪里?很多目光转向了百度等国内厂商,很快百度官方公布了文心的一句话。

无独有偶,在文新发布的前一天,3月15日凌晨,OpenAI推出了多模态大型模型GPT-4。这一里程碑式的升级,让人感叹“这个压力给了百度”。GPT-4主要有以下更新:1 .新的视觉输入GPT-4支持将图像作为输入,并生成相应的文本描述、分类和分析。图像支持包括带有文本和照片的文件、图表或截图。

在示例演示中,我们可以看到GPT-4不仅可以处理图表,回答考试问题,总结论文摘要,还可以解释题干图。比如GPT-4看到了这张图的特别之处,就是一个人挂在车上熨衣服的极端操作。对于地图和鸡块的结合,GPT-4也能点出梗的幽默。图片在GPT-4大会上,有一张网站设计草图参赛,甚至当场只用了十秒钟就生成了完整的前端HTML代码,制作了一个网站。图片

不过目前图像输入还是研究的预览版,并没有对C端用户开放。2.更长的上下文GPT-4可以处理超过25,000个单词的文本,允许使用长格式内容来创建、扩展对话以及搜索和分析文档。这意味着用户不用像以前一样分几段提问,处理长文本更方便。例如,进入蕾哈娜的一个百科网站,GPT-4可以阅读内容并根据要求整合信息,回答她在超级碗中的表现如何。图片

3.可控性(角色扮演)目前,开发者(很快所有ChatGPT用户)可以通过在“系统”消息中输入描述来指定AI的风格和任务。换句话说,AI可以根据用户的要求进行角色扮演,用特定人物的语气风格说话,比如例子中的苏格拉底的导师,莎士比亚的海贼。图片此外,与上一代GPT-3.5相比,GPT-4的答题深度、专业性和解题能力也有了显著提升。

根据官方的介绍,GPT-3.5和GPT-4的区别可能在随意的交谈中很微妙。但当任务的复杂程度达到足够的阈值时,差异就会出现:——GPT-4比GPT-3.5更可靠,更有创造性,可以处理更微妙的指令。图片GPT-4能用A~Z开头的单词讲述灰姑娘的故事,不重复。

实验表明,GPT-4在各种专业测试和学术基准中的表现与人类相当。比如它通过了模拟律师考试,它的分数是考生的10%左右;相比之下,GPT的得分为3.5,比倒数第一名低10%。图片

在安全问题上,OpenAI花了6个月的时间使GPT-4更安全、更一致,据内部评估,与GPT-3.5相比,GPT-4响应违规内容请求的可能性降低82%,产生事实响应的可能性高40%。但OpenAI承认,GPT-4仍然不完全可靠,例如会生成有害建议、错误代码或不准确信息,我们在使用时需要谨慎辨别。

除了模型的提升,目前OpenAI已经与多家公司合作将GPT-4搭载到他们的产品中,官网列出的案例涵盖语言学习、金融、咨询、教育、生活助手、语言保护等领域。

“GPT-4改变了游戏规则,它开辟了很多领域。”移动支付公司Stripe应用机器学习团队的产品负责人Eugene Mann说道。

GPT-4的发布正推动着创业者和互联网大厂纷纷跟进,国内在模型层可能暂时难以赶上,而在机会更多的应用层,目前国内的AI创业竞赛似乎才刚刚开始。

图片

李彦宏表示最大的机会在于应用开发

据科创板日报,综合多个第三方机构的统计,目前,国内AIGC领域的项目数量在30个以内,主要集中在聊天咨询、文案策划、图像创作、音乐生成、视频制作以及游戏等应用领域。

AI创业者王凯认为,在ChatGPT3.5出来之前,国内应用层多数是to b的场景,打个比方来说,之前是自行车比赛,ChatGPT3.5出来后变成汽车比赛了。现在国内AI应用层还没到爆发期,个人或者初创公司的机会就是找个垂直场景、垂直行业把AI当作生意模式的一环去做。

文心一言 VS Bing(搭载GPT-4)

国内的大模型与国外有多大差距?长期关注AI的即刻用户“哥飞”称,GPT-4很强,文心一言的水平估计在GPT2.5左右。

最后,新榜编辑部分别向文心一言与使用GPT-4技术的Bing提出了9个不同的问题,涵盖生活问题、数学推理、文案创作等类型,看看谁“更像人”。

Q1:什么工作钱多事少离家近?

文心一言:快递员、外卖骑手、钟点工、卖早点小吃。

QQ截图20230317135021.png

Bing:互联网、金融、咨询、自由职业者。

图片

Q2:

1、笼子里有30只鸡和兔子,一共84条腿,有几只鸡几只兔子

2、笼子里有30只鸡和兔子,一共54条腿,有几只鸡几只兔子(题目出错了,无解)

3、笼子里有10只鸭子和小狗,鸭子2条腿,小狗4条腿,一共24条腿,有几只鸭子几只小狗

文心一言:都答错了。

图片

Bing:第一题对了,第二题错了,第三题计算过程正确,但没显示答案。

*滑动查看所有回答*

图片

图片

图片

Q3:帮我写一篇sk2大红瓶面霜的小红书种草笔记。小红书种草笔记的风格是,每行文字不超过20个字并且都以emoji表情符号开头,文风浮夸高调

文心一言:指导你写,自己不写,并且显示不出emoji表情包。

图片

Bing:像模像样,很有礼貌。

图片

Q4:用一个图片表情包形容你跟我聊天的心情

文心一言: 《强 颜 欢 笑》

图片

Bing:不能画图,但跟你聊天真开心。

图片

Q5:重写宋慧乔主演的《黑暗荣耀》 这部韩剧的结尾:

文心一言:虽然我没看过,但我能给你套上一个万能结尾。

图片

Bing:有些狗血的BE,但起码我看过。

图片

Q6:用文言文总结这个故事:

文心一言:总结了,但不是文言文。

图片

Bing:是文言文,但没总结,追问之后可以。

图片

图片

Q7:模仿李白的《将进酒》 写一首诗,主题是肯德基疯狂星期四

文心一言:现代诗,肯德基满意地V我50。

图片

Bing:人生在世须尝鲜,莫使美味空过眼。

图片

Q8:以表格形式列出百度2022年各个季度的营收额

文心一言:神奇的7季度出现了,是李彦宏看到也会无语的程度。

图片

Bing:比文心一言靠谱,但不多(部分日期和数字对不上)。

图片

Q9:你现在是一个悬疑小说的编剧,设计一个密室谋杀案件,说明具体手法

文心一言:好像学会了,又好像没学会。

图片

Bing:生成答案后立马删除(差点忘了这是不能说的)。

图片

图片

以上是我们向文心一言和Bing提出的问题,考虑到文心一言目前尚在小范围内测,如果你有想问的问题,欢迎留言,我们帮你问。

(举报)

TOP

QQ客服

18910140161