TMT观察网_独特视角观察TMT行业

實(shí)測文心一言4.0,真的和GPT-4相差無幾了嗎?互聯(lián)網(wǎng)+

差評(píng) 2023-10-19 17:58
分享到:
導(dǎo)讀

。這一回要測一測,昨天才發(fā)布的文心一言大模型 4.0。

。這一回要測一測,昨天才發(fā)布的文心一言大模型 4.0。 今天,咱們就開門見山啊。這一回要測一測,昨天才發(fā)布的文心一言大模型 4.0。 之所以要測它,是因?yàn)槔顝┖曜蛱煸跁?huì)上說的那句: 文心大模型 4.0 綜合水平與 GPT-4 相比已經(jīng)毫不遜色。 這話一出,很多人就沸騰了。 據(jù)李彥宏這邊的說法,文心 4.0 在 記憶、理解、邏輯和生成四塊,進(jìn)步神速。 盡管他也在現(xiàn)場親自演示了很多案例,但很多用戶是壓根不買賬的。 不少人調(diào)侃說: “ 騙騙兄弟就可以了,別把自己也騙了啊。 ” 那到底是毫不遜色,還是吹牛扯淡呢,咱們直接親自試試就知道了。 這回,憑借世超的人脈,也是很幸運(yùn)地拿到了搶先內(nèi)測的資格。 既然他吹自己和 GPT-4 比毫不遜色,那我們就讓這倆互掐一下,比比斤兩。 從拿到資格開始,世超試了一整天。這次也不跟大家賣關(guān)子了,直接說測試結(jié)論: 總體來說, GPT-4 穩(wěn)定勝利,但文心一言 4.0 居然意外地某些方面壓過 GPT-4 一頭。 那么世超這次測試,還是從比較常見的幾個(gè)測評(píng)角度入手,這樣體現(xiàn)的更全面、真實(shí)。 但是,測試難度我們是和之前的 GPT-4 測評(píng)難度對(duì)齊的。 這比賽的第一輪,先測點(diǎn)大家喜聞樂見的吧。 先從比較輕松的弱智吧和語義陷阱題入手,也正好可以考察一下 邏輯和理解能力。 不過,這塊很多大模型都有專門訓(xùn)練,問了很多題都沒把它們考倒。但是,經(jīng)過不懈努力,還是被世超抓到了漏洞。 我問了一個(gè)非常經(jīng)典的弱智吧問題: 世界上真的有 “ 龍 ” ,那我就在某地被 “ 一條龍 ” 服務(wù)過。 沒想到,這題兩個(gè) AI 沒一個(gè)能做對(duì)的。。。 先看 GPT-4 這邊,由于不知道這倆 “ 龍 ” 到底嘛意思,就開始亂編一些歷史典故。 文心這邊,也沒有聰明到哪去,也是亂編了一種 “ 幽默 ” 的說法。 甚至,世超后面又給了它一次機(jī)會(huì),追問它:兩個(gè)龍是同一個(gè)龍嗎? 文心依然極其堅(jiān)定地給了我一個(gè)完全錯(cuò)誤的答案。 不過,到了第二題, GPT-4 就站起來了。 當(dāng)我問:公司是個(gè)溫暖的大家庭,怪不得我總是當(dāng)孫子。 文心這邊還在那 “ 溫暖的公司 ” 、 “ 沒有等級(jí)差別 ” 。 但再看人家 GPT-4 這個(gè)外國 AI ,早就讀懂了中國人的話里有話, 表面溫暖,實(shí)則冰冷 不過,當(dāng)世超又追加了一道領(lǐng)導(dǎo)題。事態(tài)卻突然徹底反轉(zhuǎn),反而是文心贏得很徹底。 世超問了幾個(gè)流行的段子: “ 領(lǐng)導(dǎo)夾菜你轉(zhuǎn)桌,領(lǐng)導(dǎo)喝水你剎車 ” ,讓它們給仿寫幾個(gè)。 其實(shí)這題要想做對(duì),并不容易。 不僅僅需要精準(zhǔn)地理解提問,并且要能夠推理出句子的規(guī)律和情感色彩。 兩邊 AI 給我的句子,對(duì)仗都蠻工整的,就是 GPT-4 語義徹底理解反了。領(lǐng)導(dǎo)的馬屁拍的非常完美,可惜就是答案全錯(cuò)。 文心這邊給的這些答案,才真的符合當(dāng)代青年的領(lǐng)導(dǎo)文化。 不過溫馨提示,實(shí)操的時(shí)候建議開始以 GPT-4 為準(zhǔn)。 這第一輪比拼結(jié)束,文心 VS GPT-4 不分高下, 1 比 1 打了平手。 看來,文心一言說自己進(jìn)步神速,不是完全在吹牛啊。 第二輪比賽,世超還想繼續(xù)玩點(diǎn)有意思的,試試 AI 解讀梗的能力。 當(dāng)年, GPT-4 上線時(shí)能解梗圖,那是叱詫風(fēng)云了好長一段時(shí)間。 這一次,世超不僅僅讓它們讀梗圖,還要加碼測試一下,看他們聯(lián)網(wǎng)能力能不能應(yīng)對(duì)各種網(wǎng)絡(luò)上的新梗。 因?yàn)榍懊娑际菧y中文語義,世超覺得對(duì) GPT-4 有點(diǎn)不公平,所以特地選了個(gè)中英注解都有的梗圖。 就像我的人生一樣 不知道在忙些什么 不知道是不是有英文輔助,這一次 GPT-4 梗圖解讀能力強(qiáng)的不是一星半點(diǎn)。 不光能看懂 “ 狗狗” 是這張梗圖的關(guān)鍵角色,而且讀懂了笑點(diǎn)在于 “ 認(rèn)真幫忙 ” 和 “ 毫無效果 ” 的對(duì)比。 但是,文心這邊卻還在一板一眼地把梗圖,當(dāng)閱讀理解題來做。。。 而且嘴還蠻硬,你說這張圖好笑,它堅(jiān)持: 這沒啥讓人發(fā)笑的,搞不懂你在樂什么。 不過,文心雖然不擅長解釋梗圖。但到了中文互聯(lián)網(wǎng)梗,又馬上扳回了一城。 世超問了個(gè)關(guān)于最近互聯(lián)網(wǎng)上的新晉網(wǎng)紅完顏慧德老師的 lonely 梗。 這如果不是十級(jí)沖浪選手,一看到這個(gè)句子,估計(jì)是一臉蒙圈的。 結(jié)果,文心不光點(diǎn)出了梗來源,而且正確解釋了這是個(gè)諧音梗。 雖然最后很可惜,把 “ 倫理 ” 錯(cuò)誤理解成了 “ 理論 ” ,就差這臨門一腳,沒踢進(jìn)去。 但如果文心這邊是沒滿分,那 GPT-4 這邊恐怕屬于不及格了。。 不光沒讀懂梗,連出處都找錯(cuò)了,讓你去大型紀(jì)錄片《 完顏慧德傳奇》里面找一找答案。 這第二輪比賽的兩道小測試下來,雙方各有千秋,不分高下吧。文心的熱梗更新很快, GPT-4 圖片解讀更強(qiáng)。 兩輪比賽下來,目前還沒分出個(gè)高低來,焦灼在了 2 比 2 。 接下來,為了拉開比分的差距,咱們得上點(diǎn)狠貨了。 前面兩輪語義理解都更偏基礎(chǔ),我們?cè)贉y試一下專業(yè)能力。第三輪直接頂上 GPT-4 的超級(jí)強(qiáng)項(xiàng)—— 代碼題。 不知道還有沒有人記得,當(dāng)年 GPT-4 花了 60 秒,做出一個(gè)完整的貪吃蛇小游戲,震撼了整個(gè)江湖。 現(xiàn)在我們用同樣的測試,讓文心來試一下。 因?yàn)榇a比較長,所以這里就不完全展示了。 咱們可以直接劃到下面,看最后的效果。 先來看 GPT-4 老大哥,依然是穩(wěn)定發(fā)揮。大概幾十秒,就做出一個(gè)完整的、可以玩的貪吃蛇游戲。包括蛇的移動(dòng)、點(diǎn)的隨機(jī)出現(xiàn)、吃完后體積增大這些效果。 但是,來到文心這一邊,就是徹底不及格了。 不說別的,這貪吃蛇根本就沒動(dòng)起來,而且后面試著讓文心自己修正代買,結(jié)果也是越改越錯(cuò)。 這不是動(dòng)圖沒動(dòng) 是文心就沒做出動(dòng)的效果來 不過,也不代表文心就很拉,這樣懸殊的實(shí)力差距,其實(shí)是因?yàn)?GPT-4 的代碼能力太變態(tài)了。 如果我們稍微降低一點(diǎn)難度,讓它們根據(jù)草圖,來做網(wǎng)站,那文心也是能自如應(yīng)對(duì)的。 但是,盡管這樣,從下面兩個(gè)網(wǎng)站的效果比較來看, GPT-4 還是更精美、更完整。 文心一言 GPT-4 這第三輪的比賽, GPT-4 是毫無疑問地全面吊打了。現(xiàn)在比分也被拉開了, 文心 VS GPT-4 = 2:3 。 為了避免不公平,既然前面試了一個(gè) GPT-4 的強(qiáng)項(xiàng),那接下倆也測一個(gè)文心說自己比較厲害的能力—— 記憶。 世超找了一份曾經(jīng)采訪導(dǎo)盲犬相關(guān)人士的采訪文件,全采訪資料總共有一萬三千多個(gè)字。 把這一大份文件丟給這倆 AI 之后,我問了一個(gè)最簡單的問題: 為什么說導(dǎo)盲犬是騙局? 讓人有點(diǎn)意外的是, GPT-4 雖然答案是對(duì)的,可是分析得牛頭不對(duì)馬嘴。 我問騙局的原因,他和我說訓(xùn)練難度和導(dǎo)盲犬的導(dǎo)盲能力。。 反倒是文心這一邊理解的很準(zhǔn)確,它回答的成本高、夸大宣傳、不如導(dǎo)盲設(shè)備前景好等等,這些才是關(guān)鍵信息。 文心在記憶和理解方面,確實(shí)挺扎實(shí)。算是成功扳回一城,把比分重新拉回到平局 3 :3 。 既然事態(tài)這么膠著,那這最后一輪, 我們就再試一個(gè)比較有意思的題。 之前 GPT-4 Vision 版提過,這一代的 GPT-4 圖片識(shí)別能力很強(qiáng),可以給合照里的單人進(jìn)行標(biāo)注、給圖片排序等等。 前面好幾道試題,已經(jīng)證明了文心的圖片識(shí)別能力也完全不弱。所以,這最后一題,咱們就用圖片來一決高下。 世超丟了一張牙齒的 X 光片進(jìn)去,讓雙方給我當(dāng)醫(yī)生,診斷診斷病情。 倆 AI 都診斷出了存在的智齒阻生問題,而且 GPT-4 甚至看出了上排牙齒存在不整齊的問題,有三顆牙齒是重疊狀態(tài)。 雖然文心一言也發(fā)現(xiàn)了智齒阻生的問題,也指出了可能存在的其他問題。但還是 GPT-4 的答案更準(zhǔn)確,更貼切。 這五輪比賽結(jié)束,文心一言還是 4 :3 輸給了 GPT-4 ,在代碼這方面,更是被狠狠吊打了。。但在文心的 中文語義理解和記憶這些方面,也確實(shí)如百度所說,提升了不少。 除了上面我們這些基礎(chǔ)測試,這次文心一言還上線了好幾個(gè)插件功能。 比如一鏡流影( 視頻生成 )、說圖解畫( 圖片解讀 )、 E 言易圖( 可視化數(shù)據(jù)分析 ) 比如說一句話 做一個(gè)金毛爬樓梯的視頻,幾分鐘之后一條配好音的視頻就做好了。 不過,目前也不是非常完善,經(jīng)常出現(xiàn)素材不夠,無法生成視頻的情況。 作為一個(gè)玩具體驗(yàn)一下,還是挺有意思的,真當(dāng)生產(chǎn)力工具,多少有點(diǎn)夠嗆。 雖然如此,但文心 4.0 的表現(xiàn)已經(jīng)讓我眼前一亮了。 說實(shí)話,原本世超并不對(duì)文心抱有太大的希望。 因?yàn)?GPT-4 的強(qiáng)悍,大家都有目共睹。 在這么強(qiáng)的對(duì)手面前,很容易顯得你的努力都白費(fèi)了。。。 這回盡管還是輸了,但起碼你能感受到進(jìn)步的地方,更擅長的領(lǐng)域。 不過,最后還是要強(qiáng)調(diào)一下,世超的測試只能從常規(guī)的角度來簡單對(duì)比兩個(gè)大模型。只能算 帶大家嘗個(gè)鮮,搶先體驗(yàn)一下,并沒有辦法,完全代表大模型的實(shí)力情況。 到底幾斤幾兩,還需要等徹底開放之后。大家親自上手體驗(yàn),才會(huì)有更深的感受。 撰文:四大 編輯:面線 & 江江 封面:萱萱 圖片、資料來源 文心一言、GPT-4
GPT- 文心 理解 世超 能力
分享到:

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。


主站蜘蛛池模板: 扒渣机厂家_扒渣机价格_矿用扒渣机_铣挖机_撬毛台车_襄阳永力通扒渣机公司 | 德州万泰装饰 - 万泰装饰装修设计软装家居馆 | 钣金加工厂家-钣金加工-佛山钣金厂-月汇好 | 膜结构车棚|上海膜结构车棚|上海车棚厂家|上海膜结构公司 | 走心机厂家,数控走心机-台州博城智能科技有限公司 | 雨燕360体育免费直播_雨燕360免费NBA直播_NBA篮球高清直播无插件-雨燕360体育直播 | 体视显微镜_荧光生物显微镜_显微镜报价-微仪光电生命科学显微镜有限公司 | 河南凯邦机械制造有限公司 | 砍排机-锯骨机-冻肉切丁机-熟肉切片机-预制菜生产线一站式服务厂商 - 广州市祥九瑞盈机械设备有限公司 | 常州企业采购平台_常州MRO采购公司_常州米孚机电设备有限公司 | 数控走心机-走心机价格-双主轴走心机-宝宇百科 | 广东泵阀展|阀门展-广东国际泵管阀展览会 | 食品级焦亚硫酸钠_工业级焦亚硫酸钠_焦亚硫酸钠-潍坊邦华化工有限公司 | 技德应用| 重庆监控_电子围栏设备安装公司_门禁停车场管理系统-劲浪科技公司 | 北京翻译公司-专业合同翻译-医学标书翻译收费标准-慕迪灵 | 纸箱网 -纸箱机械|设备|包装纸盒|包装印刷行业门户网站 | 伺服电机_直流伺服_交流伺服_DD马达_拓达官方网站 | 上海租奔驰_上海租商务车_上海租车网-矢昂汽车服务公司 | 船用锚链|专业锚链生产厂家|安徽亚太锚链制造有限公司 | [官网]叛逆孩子管教_戒网瘾学校_全封闭问题青少年素质教育_新起点青少年特训学校 | MOOG伺服阀维修,ATOS比例流量阀维修,伺服阀维修-上海纽顿液压设备有限公司 | 东莞工厂厂房装修_无尘车间施工_钢结构工程安装-广东集景建筑装饰设计工程有限公司 | 一技任务网_有一技之长,就来技术任务网 | 锥形螺带干燥机(新型耙式干燥机)百科-常州丰能干燥工程 | 冷轧机|两肋冷轧机|扁钢冷轧机|倒立式拉丝机|钢筋拔丝机|收线机-巩义市华瑞重工机械制造有限公司 | 优考试_免费在线考试系统_培训考试系统_题库系统_组卷答题系统_匡优考试 | 塑胶跑道施工-硅pu篮球场施工-塑胶网球场建造-丙烯酸球场材料厂家-奥茵 | nalgene洗瓶,nalgene量筒,nalgene窄口瓶,nalgene放水口大瓶,浙江省nalgene代理-杭州雷琪实验器材有限公司 | 大学食堂装修设计_公司餐厅效果图_工厂食堂改造_迈普装饰 | 黑龙江「京科脑康」医院-哈尔滨失眠医院_哈尔滨治疗抑郁症医院_哈尔滨精神心理医院 | 佛山市钱丰金属不锈钢蜂窝板定制厂家|不锈钢装饰线条|不锈钢屏风| 电梯装饰板|不锈钢蜂窝板不锈钢工艺板材厂家佛山市钱丰金属制品有限公司 | 高扬程排污泵_隔膜泵_磁力泵_节能自吸离心水泵厂家-【上海博洋】 | 青岛成人高考_山东成考报名网 | 环比机械| SMC-ASCO-CKD气缸-FESTO-MAC电磁阀-上海天筹自动化设备官网 | 板框压滤机-隔膜压滤机配件生产厂家-陕西华星佳洋装备制造有限公司 | 电池高低温试验箱-气态冲击箱-双层电池防爆箱|简户百科 | 铁艺,仿竹,竹节,护栏,围栏,篱笆,栅栏,栏杆,护栏网,网围栏,厂家 - 河北稳重金属丝网制品有限公司 山东太阳能路灯厂家-庭院灯生产厂家-济南晟启灯饰有限公司 | 网站建设-临朐爱采购-抖音运营-山东兆通网络科技 | 液氮罐(生物液氮罐)百科-无锡爱思科 |