探花视频在线观看_国产日韩精品在线看_粉嫩av一区二区三区粉嫩_国产精品视频一区在线观看_在线播放国产一区_国产欧美在线观看一区_亚洲精品永久视频_亚洲影视一区

中國(guó)西藏網(wǎng) > 即時(shí)新聞 > 國(guó)內(nèi)

大模型發(fā)展亟需高質(zhì)量“教材”相伴

發(fā)布時(shí)間:2024-01-15 14:39:00來(lái)源: 科技日?qǐng)?bào)

  【AI世界】

  ◎本報(bào)記者 羅云鵬

  1月5日,美國(guó)人工智能公司OpenAI表示,正在與數(shù)十家出版商洽談達(dá)成文章授權(quán)協(xié)議,以獲取內(nèi)容來(lái)訓(xùn)練其人工智能模型。2023年12月27日,《紐約時(shí)報(bào)》起訴OpenAI和微軟公司,指控這兩家公司未經(jīng)許可使用其數(shù)百萬(wàn)篇文章訓(xùn)練人工智能模型。而早在2023年3月,就有消息顯示谷歌Bard模型的部分訓(xùn)練數(shù)據(jù)來(lái)源于ChatGPT。

  這些事件劍指同一個(gè)問(wèn)題——大模型高質(zhì)量語(yǔ)料短缺。“對(duì)于從頭開(kāi)始訓(xùn)練的模型,語(yǔ)料短缺會(huì)在非常大的程度上限制大模型發(fā)展?!苯?,哈爾濱工業(yè)大學(xué)(深圳)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院教授邵睿在接受科技日?qǐng)?bào)記者采訪時(shí)說(shuō):“增加語(yǔ)料對(duì)于提升大模型能力的邊際效益正在減弱,高質(zhì)量語(yǔ)料的缺乏正日益成為限制大模型發(fā)展的瓶頸?!?/p>

  大模型訓(xùn)練語(yǔ)料短缺問(wèn)題嚴(yán)重

  科技部新一代人工智能發(fā)展研究中心2023年發(fā)布的《中國(guó)人工智能大模型地圖研究報(bào)告》顯示,從全球已發(fā)布的大模型數(shù)量來(lái)看,中國(guó)和美國(guó)大幅領(lǐng)先,占全球總數(shù)的80%以上。

  雖然大模型發(fā)展如火如荼,但大模型高質(zhì)量語(yǔ)料短缺已成為全球共性問(wèn)題。公開(kāi)資料顯示,大模型對(duì)數(shù)據(jù)供給要求極高。比如,訓(xùn)練GPT-4和Gemini Ultra大概需要4萬(wàn)億至8萬(wàn)億個(gè)單詞。麻省理工學(xué)院等高校研究人員預(yù)測(cè),到2026年之前,機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會(huì)耗盡所有可用的高質(zhì)量語(yǔ)料數(shù)據(jù)。研究機(jī)構(gòu)EpochAI亦公開(kāi)表示,最早在2024年,人類就可能會(huì)陷入訓(xùn)練數(shù)據(jù)荒,屆時(shí)全世界的高質(zhì)量訓(xùn)練數(shù)據(jù)都將面臨枯竭。OpenAI也公開(kāi)表達(dá)過(guò)對(duì)數(shù)據(jù)告急的擔(dān)憂。

  值得注意的是,當(dāng)前大模型數(shù)據(jù)集主要為英文。中文語(yǔ)料面臨的短缺問(wèn)題更加嚴(yán)峻。

  中國(guó)工程院院士、鵬城實(shí)驗(yàn)室主任高文曾公開(kāi)表示,全球通用的50億大模型數(shù)據(jù)訓(xùn)練集里,中文語(yǔ)料占比僅為1.3%。

  上海數(shù)據(jù)交易所市場(chǎng)發(fā)展部副總經(jīng)理章健此前公開(kāi)表示,當(dāng)前大模型行業(yè)存在語(yǔ)料供應(yīng)不足的問(wèn)題,特別是在垂直細(xì)分領(lǐng)域,一些共享、免費(fèi)下載的語(yǔ)料數(shù)量雖然大,質(zhì)量卻不高。“我們?cè)谧非笳Z(yǔ)料數(shù)量增長(zhǎng)的同時(shí),也要重視質(zhì)量。”章健說(shuō)。

  高質(zhì)量語(yǔ)料應(yīng)具備七大特征

  那么,何為高質(zhì)量語(yǔ)料?記者采訪時(shí),包括騰訊、商湯科技、哈爾濱工業(yè)大學(xué)(深圳)等企業(yè)和高校專業(yè)人士均給出一致答案:高質(zhì)量語(yǔ)料應(yīng)具備多樣性、大規(guī)模、合法性、真實(shí)性、連貫性、無(wú)偏見(jiàn)和無(wú)害等七大特征。

  邵睿表示,高質(zhì)量語(yǔ)料應(yīng)具有多樣性高、句式流暢的特點(diǎn)。騰訊機(jī)器學(xué)習(xí)平臺(tái)算法負(fù)責(zé)人康戰(zhàn)輝認(rèn)為,語(yǔ)料的多樣性是保證語(yǔ)料質(zhì)量的基礎(chǔ),要通過(guò)不同的途徑采集新聞、小說(shuō)、詩(shī)歌、科技文章等不同類型的語(yǔ)料。這有助于大模型學(xué)習(xí)到更豐富的語(yǔ)言表達(dá)。

  同時(shí),高質(zhì)量語(yǔ)料要具有較大規(guī)模,因?yàn)榇竽P托枰罅空Z(yǔ)料來(lái)學(xué)習(xí)語(yǔ)言規(guī)律并提高泛化能力。只有擁有充足的語(yǔ)料,大模型才能更好地捕捉細(xì)微的語(yǔ)言特征。

  此外,高質(zhì)量語(yǔ)料應(yīng)是合法且無(wú)害的。不合法或有害的語(yǔ)料可能導(dǎo)致模型產(chǎn)生不恰當(dāng)?shù)幕卮鸹蚪ㄗh,或無(wú)意中泄露他人隱私。

  “高質(zhì)量語(yǔ)料還應(yīng)該具有真實(shí)性和連貫性,以便讓大模型更好地理解語(yǔ)境并生成符合邏輯的回答?!笨祽?zhàn)輝說(shuō),語(yǔ)料庫(kù)應(yīng)該充分反映語(yǔ)料的多樣性并避免偏見(jiàn),這樣大模型在不同場(chǎng)景下回答不同用戶的問(wèn)題時(shí)才能做到盡可能科學(xué)客觀。

  完善相關(guān)機(jī)制提高語(yǔ)料質(zhì)量

  記者在采訪中了解到,目前訓(xùn)練大模型的語(yǔ)料有一部分是從數(shù)據(jù)公司購(gòu)買的,也有一部分是從網(wǎng)絡(luò)公開(kāi)語(yǔ)料或者公開(kāi)數(shù)據(jù)集中獲取并整理的。“從數(shù)據(jù)公司購(gòu)買的語(yǔ)料質(zhì)量較高,并且大多是垂域數(shù)據(jù),但其數(shù)據(jù)量較少且價(jià)格較貴?!鄙垲Uf(shuō),“網(wǎng)絡(luò)公開(kāi)語(yǔ)料通用性較好,數(shù)據(jù)量大,但數(shù)據(jù)質(zhì)量無(wú)法保證,數(shù)據(jù)格式難以統(tǒng)一。”

  “人類產(chǎn)生的有效信息,包括大量高價(jià)值信息可能不一定是互聯(lián)網(wǎng)數(shù)據(jù),而是沉散在各行各業(yè)里的數(shù)據(jù)。”商湯科技發(fā)言人說(shuō),“怎樣更多匯聚數(shù)據(jù),設(shè)計(jì)更多、更好的網(wǎng)絡(luò)結(jié)構(gòu),用更多的計(jì)算資源去支撐更大容量的高質(zhì)量語(yǔ)料,產(chǎn)生更強(qiáng)的智能,是一個(gè)至關(guān)重要的問(wèn)題?!边@位發(fā)言人認(rèn)為,要解決語(yǔ)料問(wèn)題,不僅要靠增加語(yǔ)料總量,還需要提高語(yǔ)料質(zhì)量,甚至要考慮完善數(shù)據(jù)交換機(jī)制,推動(dòng)人工智能數(shù)據(jù)基礎(chǔ)設(shè)施化。

  正如這位發(fā)言人所說(shuō),目前業(yè)界正在采取一些措施,推動(dòng)數(shù)據(jù)交換機(jī)制的建設(shè)。記者梳理發(fā)現(xiàn),2023年7月,深圳數(shù)據(jù)交易所聯(lián)合近50家單位成立開(kāi)放算料聯(lián)盟。該聯(lián)盟將圍繞高質(zhì)量中文訓(xùn)練數(shù)據(jù)和多模態(tài)訓(xùn)練數(shù)據(jù),協(xié)調(diào)數(shù)據(jù)要素、數(shù)據(jù)治理、訓(xùn)練數(shù)據(jù)、數(shù)據(jù)標(biāo)注、合成數(shù)據(jù)等相關(guān)標(biāo)準(zhǔn)制定,協(xié)助數(shù)據(jù)交易所增加與大模型相關(guān)的新品類和新專區(qū)。

  同樣是2023年7月,在2023世界人工智能大會(huì)現(xiàn)場(chǎng),中國(guó)大模型語(yǔ)料數(shù)據(jù)聯(lián)盟成立。同年8月,上海人工智能實(shí)驗(yàn)室宣布,聯(lián)合中國(guó)大模型語(yǔ)料數(shù)據(jù)聯(lián)盟成員單位共同開(kāi)源發(fā)布“書(shū)生·萬(wàn)卷”1.0多模態(tài)預(yù)訓(xùn)練語(yǔ)料。這次開(kāi)源的數(shù)據(jù)總量超過(guò)2TB,包含超5億個(gè)文本、2200萬(wàn)個(gè)圖文交錯(cuò)文檔、1000個(gè)影像視頻。

  除了建設(shè)更為完善的體制機(jī)制,數(shù)據(jù)清洗等技術(shù)手段也能在一定程度上解決高質(zhì)量語(yǔ)料短缺難題。但要看到,這些技術(shù)手段有較高門檻。商湯科技發(fā)言人透露,該公司在數(shù)據(jù)清洗的過(guò)程中投入了上千塊GPU的算力。OpenAI在無(wú)數(shù)場(chǎng)合介紹過(guò)GPT-4訓(xùn)練的經(jīng)驗(yàn),但從未公開(kāi)過(guò)數(shù)據(jù)清洗的經(jīng)驗(yàn)。(科技日?qǐng)?bào))

(責(zé)編:陳濛濛)

版權(quán)聲明:凡注明“來(lái)源:中國(guó)西藏網(wǎng)”或“中國(guó)西藏網(wǎng)文”的所有作品,版權(quán)歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來(lái)源中國(guó)西藏網(wǎng)和署著作者名,否則將追究相關(guān)法律責(zé)任。

国产精品一二三| 精品97人妻无码中文永久在线| 国产精品久久久久久亚洲av| 亚洲成人网在线播放| 男人天堂中文字幕| 亚洲av综合色区无码一二三区 | 免费不卡视频| а√天堂资源官网在线资源| 大奶一区二区三区| 最新成人av网站| 久久综合资源网| 色综合天天综合狠狠| 欧美一卡在线观看| 欧美二区在线播放| 你懂的视频在线一区二区| 黄色大片中文字幕| 蜜桃无码一区二区三区| 国产一级片一区二区| 国产91色蝌蚪视频| 日本视频在线免费观看| 久久伊人精品| 日韩电影免费在线看| 亚洲视频一二三区| 亚洲国产精品久久久久秋霞不卡| 日本aⅴ大伊香蕉精品视频| 色一情一区二区三区四区| 羞羞的视频在线| 四虎成人永久免费视频| 91高清国产| 成人福利在线观看视频| 精品在线观看入口| 成人教育av在线| 91精品国产综合久久精品图片| 91精品国产亚洲| 日本xxxxx18| 亚洲一区二区自偷自拍| 人人妻人人澡人人爽精品日本| 久久综合色播| 欧美性aaa| 久久久久看片| 色婷婷激情久久| 青草热久免费精品视频| 久久久久久久中文| 国产一级性生活| 天堂网在线.www天堂在线 | 在线免费观看成人网| 一道本在线观看| 性欧美大胆高清视频| 日日夜夜精品一区| 外国成人免费视频| 亚洲精品乱码久久久久久久久| 在线观看精品国产视频| 免费国产一区| 成年人视频软件| 国产亚洲第一的欧洲日产| 欧美色图天堂| 久久高清一区| 欧美精品欧美精品系列| 亚洲最大福利网| 你懂得在线视频| 欧美性猛交xxxx乱大交丰满| www.欧美日本韩国| 在线不卡亚洲| 欧美日韩激情一区二区三区| 成人国产亚洲精品a区天堂华泰| 色噜噜狠狠一区二区| 99草在线视频| 3p视频在线观看| 日韩视频精品在线观看| 欧美在线免费播放| 91影视免费在线观看| 欧美高清性xxxx| 污视频在线播放| 亚洲精品a区| 国产日韩欧美电影| 欧美—级高清免费播放| 2022亚洲天堂| 刘亦菲久久免费一区二区| 岛国中文字幕在线| 美女性感视频久久| 亚洲精品自拍第一页| 国产freexxxx性播放麻豆| 国产精品露脸视频| aiai在线| 久久精品国产色蜜蜜麻豆| 日韩黄色av网站| 日本a视频在线观看| 亚洲国产精品一| 韩国久久久久久| 99re在线精品| 97超级碰碰人国产在线观看| 四虎成人在线播放| 小黄文在线观看| 日韩av字幕| 欧美午夜www高清视频| 欧美日韩精品免费观看视一区二区| 一区二区视频免费看| 超碰在线12| 一区二区三区国产在线| 亚洲精品999| 国产偷人视频免费| 福利视频理论电影| 亚洲天堂中文字幕在线观看| 亚洲自拍另类综合| 国产私拍一区| 中文字幕一区二区人妻电影| 乱人伦中文视频在线| 国产精品一区二区x88av| 欧美日韩成人黄色| 超碰97人人干| 最新版sss视频在线| 亚洲一区黄色| 成年无码av片在线| 久久精品国产亚洲av久| 中文字幕一区免费| 美日韩一级片在线观看| 久久久久久有精品国产| 萌白酱视频在线| 国产视频第一区| 国产成人av一区二区| 日本精品久久久久久久| 婷婷在线精品视频| dy888亚洲精品一区二区三区| 不卡免费追剧大全电视剧网站| 国产91精品网站| 久久综合综合久久| 自由的xxxx在线视频| 国产精品午夜在线| 久久精品国产精品国产精品污 | 欧美乱熟臀69xxxxxx| 久久国产成人精品国产成人亚洲| 欧美77777免费视频| 残酷重口调教一区二区| 亚洲国模精品私拍| 精品国产一区在线| 久久精品色图| 久久九九全国免费| 久久综合九色综合久99| 亚洲免费一级片| 日韩美女精品| 亚洲欧美在线播放| 蜜桃精品一区二区| 日本中文字幕视频在线| 国产精品国产三级国产有无不卡 | 九一亚洲精品| 日韩精品在线视频观看| 加勒比精品视频| 午夜老司机在线观看| 中文字幕在线不卡视频| 久久av秘一区二区三区| 国产精品久久久久久久泡妞| 久久精品亚洲人成影院| 久久天天躁狠狠躁夜夜躁| 欧产日产国产v| 中文字幕日本一区二区| 欧美伦理视频网站| 亚洲自拍偷拍精品| 97在线观看免费观看高清 | 97自拍视频| 日韩一级免费视频| 婷婷综合亚洲| 欧美最猛性xxxxx(亚洲精品)| 天天干天天干天天干天天| 欧美成年网站| 亚洲全黄一级网站| 亚洲成人生活片| 久久久人成影片一区二区三区在哪下载 | **精品中文字幕一区二区三区| 日韩欧美色综合网站| 在线免费观看日韩av| sm久久捆绑调教精品一区| 欧美午夜久久久| 日本wwwwwww| 丁香花电影在线观看完整版| 日韩欧美一区二区三区久久| 国产一级片自拍| 国产不卡在线| 欧美美女喷水视频| 91网站免费入口| 日本精品不卡| 亚洲精品国产精品久久清纯直播| 少妇无套高潮一二三区| 欧美xxxx性| 色伦专区97中文字幕| 国产成人无码av| 久久综合88| 国产精品老牛影院在线观看| 香蕉久久国产av一区二区| 日韩视频一区| 蜜桃免费一区二区三区| eeuss影院www影院| 91麻豆免费观看| 在线视频日韩一区 | 美女黄色在线网站大全| 成人动漫一区二区在线| 精品丰满人妻无套内射| 国产在线一二| 欧美日韩1234| 日本学生初尝黑人巨免费视频| 精品国产一区二区三区av片|