#斯坦福抄襲中國大模型##斯坦福團(tuán)隊道歉#,今天下午,兩個詞條分別沖上微博熱搜第2和第5位,引發(fā)熱議。
斯坦福團(tuán)隊承認(rèn)抄襲中國大模型沖上熱搜
簡單說,就是國外一個AI團(tuán)隊主導(dǎo)的開源大模型,被證實套殼抄襲了國內(nèi)清華系明星創(chuàng)業(yè)公司面壁智能的開源模型。目前,團(tuán)隊已經(jīng)公開道歉,并下架模型。
斯坦福AI團(tuán)隊抄襲中國大模型
5月29日,一個來自斯坦福的AI團(tuán)隊在網(wǎng)上發(fā)布文章《Llama 3-V: Matching GPT4-V with a 100x Smaller Model and 500 Dollars》,并開始廣而告之:成功訓(xùn)練出一個SOTA多模態(tài)模型Llama3-V,性能比GPT-4V、Gemini Ultra、Claude Opus更強(qiáng),而訓(xùn)練成本僅需500美元。后三個大模型,都是全球范圍知名的多模態(tài)“巨無霸”。
由于團(tuán)隊成員擁有斯坦福(其中兩人是斯坦福本科生)、特斯拉、SpaceX、亞馬遜等亮眼背景,Llama3-V第一時間被推到了聚光燈下,登上開發(fā)者社區(qū)Hugging Face(抱抱臉)首頁,引發(fā)眾多開發(fā)者關(guān)注。
很快,有用戶開始在Hugging Face以及社交平臺X上提出質(zhì)疑:Llama3-V是否套殼MiniCPM-Llama3-V 2.5?后者為面壁智能推出的開源端側(cè)多模態(tài)模型,5月21日剛剛發(fā)布。
事情迅速發(fā)酵。經(jīng)過一些開發(fā)者的比較,兩者在模型結(jié)構(gòu)、代碼、配置文件等方面完全相同,只是進(jìn)行了一些重新格式化,并將部分變量重新命名。
面對質(zhì)疑,斯坦福團(tuán)隊一開始選擇“辯解”:只是使用MiniCPM-Llama3-V 2.5的tokenizer(分詞器),并且宣稱在后者發(fā)布前就已開始這項工作。
6月2日晚,面壁智能團(tuán)隊確認(rèn)抄襲事實。
面壁智能首席科學(xué)家劉知遠(yuǎn)在知乎上表示:“已經(jīng)比較確信Llama3-V是對我們MiniCPM-Llama3-V 2.5套殼!
而CEO李大海也在朋友圈發(fā)文:“我們對這件事深表遺憾。一方面感慨這也是一種受到國際團(tuán)隊認(rèn)可的方式,另一方面呼吁大家共建開放、合作、有信任的社區(qū)環(huán)境。”
CEO李大海對此事表示遺憾
目前,Llama3-V團(tuán)隊的其中兩位成員Aksh Garg和Siddharth Sharma,也就是那兩位斯坦福本科生,已在社交平臺上向面壁智能團(tuán)隊道歉:“我們向作者道歉,并對自己沒有努力驗證這項工作的原創(chuàng)性感到失望。我們對所發(fā)生的事情承擔(dān)全部責(zé)任,并已撤下Llama3-V,再次致歉。”
Llama3-V團(tuán)隊的其中兩位成員在社交平臺道歉
同時,Aksh Garg解釋Siddharth Sharma和自己主要是負(fù)責(zé)推廣,編寫代碼的是Mustafa Aljadery,而他目前已經(jīng)聯(lián)系不上。
目前已經(jīng)看不到Mustafa Aljadery的社交平臺內(nèi)容
核心證據(jù):來自戰(zhàn)國時期的清華簡
在朋友圈發(fā)文中,李大海給出確認(rèn)抄襲的一大理由是:經(jīng)過測試,面壁智能團(tuán)隊發(fā)現(xiàn)Llama3-V不僅能識別“清華簡”的戰(zhàn)國古文字,而且在犯錯的地方也和MiniCPM-Llama3-V 2.5如出一轍。
公開資料顯示,清華簡,是清華大學(xué)于2008年7月收藏的一批戰(zhàn)國竹簡,屬于中國學(xué)術(shù)史上先秦文獻(xiàn)的重大發(fā)現(xiàn)。此后,清華大學(xué)成立專門研究團(tuán)隊,先后在已故著名歷史學(xué)家、考古學(xué)家、古文字學(xué)家李學(xué)勤及黃德寬教授的帶領(lǐng)下開展簡文整理研究,以復(fù)原這批幸免于焚書坑儒與秦漢戰(zhàn)火的重要歷史“拼圖”。
這些年里,研究者們在一間不足20平方米的小屋里,用一面42英寸顯示屏讀簡,整理成果以一年一輯的速度出版公布,至今已出版13輯。諸子思想、歷史文化、天文歷法、律法術(shù)數(shù)、醫(yī)學(xué)方技……中國傳統(tǒng)文獻(xiàn)中的經(jīng)史子集均有發(fā)現(xiàn),竹簡的內(nèi)容逐漸清晰起來。
據(jù)李大海解釋,此次識別清華簡的訓(xùn)練數(shù)據(jù),采集和標(biāo)注均由清華NLP實驗室和面壁智能團(tuán)隊完成。“耗時數(shù)月,從卷帙浩繁的清華簡中一個字一個字掃描下來,并逐一進(jìn)行數(shù)據(jù)標(biāo)注,融合進(jìn)模型中”,且數(shù)據(jù)尚未對外公開。
Llama3-V在犯錯的地方也和MiniCPM-Llama3-V 2.5如出一轍
此外,Llama3-V、MiniCPM-Llama3-V 2.5兩個模型在高斯擾動驗證(一種用于驗證模型相似性的方法)后,在正確和錯誤表現(xiàn)方面都高度相似。
巧的是,上周日清華大學(xué)在官方微信公眾號上轉(zhuǎn)載了新華社《瞭望》新聞周刊刊發(fā)的特稿《破譯千年竹簡 求索文明密碼》,回憶這2500位先秦“客人”來到清華的故事。
文中提到,清華簡整理研究工作的難點之一,就是“認(rèn)字”。“清華簡是戰(zhàn)國時期楚國人所寫,其中有些字沒有流傳下來,有的字形是首次出現(xiàn),即便將一些字辨識出來,其字義的理解也需要下大功夫去研究,因為這些竹簡文獻(xiàn)只有極少數(shù)可與傳世文獻(xiàn)對照參證。因此,‘考字釋詞’耗費巨大精力,把字詞探究清楚了,做到文通字順,才能真正了解文獻(xiàn)記載了什么內(nèi)容,進(jìn)而判斷其價值!
清華校園內(nèi)的戰(zhàn)國竹筒
橙柿互動·都市快報 記者 童蔚
以上文章轉(zhuǎn)載自互聯(lián)網(wǎng),版權(quán)歸原創(chuàng)者所有。如有來源標(biāo)注錯誤或者侵權(quán),請聯(lián)系我們,我們將及時處理。
|