探花视频在线观看_国产日韩精品在线看_粉嫩av一区二区三区粉嫩_国产精品视频一区在线观看_在线播放国产一区_国产欧美在线观看一区_亚洲精品永久视频_亚洲影视一区

中國西藏網(wǎng) > 即時新聞 > 時政

大模型發(fā)展亟需高質(zhì)量“教材”相伴

發(fā)布時間:2024-01-19 10:29:00來源: 科技日報

  科技日報記者 羅云鵬

  1月5日,美國人工智能公司OpenAI表示,正在與數(shù)十家出版商洽談達(dá)成文章授權(quán)協(xié)議,以獲取內(nèi)容來訓(xùn)練其人工智能模型。2023年12月27日,《紐約時報》起訴OpenAI和微軟公司,指控這兩家公司未經(jīng)許可使用其數(shù)百萬篇文章訓(xùn)練人工智能模型。而早在2023年3月,就有消息顯示谷歌Bard模型的部分訓(xùn)練數(shù)據(jù)來源于ChatGPT。

  這些事件劍指同一個問題——大模型高質(zhì)量語料短缺。“對于從頭開始訓(xùn)練的模型,語料短缺會在非常大的程度上限制大模型發(fā)展。”近日,哈爾濱工業(yè)大學(xué)(深圳)計算機(jī)科學(xué)與技術(shù)學(xué)院教授邵睿在接受科技日報記者采訪時說:“增加語料對于提升大模型能力的邊際效益正在減弱,高質(zhì)量語料的缺乏正日益成為限制大模型發(fā)展的瓶頸。”

  大模型訓(xùn)練語料短缺問題嚴(yán)重

  科技部新一代人工智能發(fā)展研究中心2023年發(fā)布的《中國人工智能大模型地圖研究報告》顯示,從全球已發(fā)布的大模型數(shù)量來看,中國和美國大幅領(lǐng)先,占全球總數(shù)的80%以上。

  雖然大模型發(fā)展如火如荼,但大模型高質(zhì)量語料短缺已成為全球共性問題。公開資料顯示,大模型對數(shù)據(jù)供給要求極高。比如,訓(xùn)練GPT-4和Gemini Ultra大概需要4萬億至8萬億個單詞。麻省理工學(xué)院等高校研究人員預(yù)測,到2026年之前,機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會耗盡所有可用的高質(zhì)量語料數(shù)據(jù)。研究機(jī)構(gòu)EpochAI亦公開表示,最早在2024年,人類就可能會陷入訓(xùn)練數(shù)據(jù)荒,屆時全世界的高質(zhì)量訓(xùn)練數(shù)據(jù)都將面臨枯竭。OpenAI也公開表達(dá)過對數(shù)據(jù)告急的擔(dān)憂。

  值得注意的是,當(dāng)前大模型數(shù)據(jù)集主要為英文。中文語料面臨的短缺問題更加嚴(yán)峻。

  中國工程院院士、鵬城實驗室主任高文曾公開表示,全球通用的50億大模型數(shù)據(jù)訓(xùn)練集里,中文語料占比僅為1.3%。

  上海數(shù)據(jù)交易所市場發(fā)展部副總經(jīng)理章健此前公開表示,當(dāng)前大模型行業(yè)存在語料供應(yīng)不足的問題,特別是在垂直細(xì)分領(lǐng)域,一些共享、免費下載的語料數(shù)量雖然大,質(zhì)量卻不高。“我們在追求語料數(shù)量增長的同時,也要重視質(zhì)量。”章健說。

  高質(zhì)量語料應(yīng)具備七大特征

  那么,何為高質(zhì)量語料?記者采訪時,包括騰訊、商湯科技、哈爾濱工業(yè)大學(xué)(深圳)等企業(yè)和高校專業(yè)人士均給出一致答案:高質(zhì)量語料應(yīng)具備多樣性、大規(guī)模、合法性、真實性、連貫性、無偏見和無害等七大特征。

  邵睿表示,高質(zhì)量語料應(yīng)具有多樣性高、句式流暢的特點。騰訊機(jī)器學(xué)習(xí)平臺算法負(fù)責(zé)人康戰(zhàn)輝認(rèn)為,語料的多樣性是保證語料質(zhì)量的基礎(chǔ),要通過不同的途徑采集新聞、小說、詩歌、科技文章等不同類型的語料。這有助于大模型學(xué)習(xí)到更豐富的語言表達(dá)。

  同時,高質(zhì)量語料要具有較大規(guī)模,因為大模型需要大量語料來學(xué)習(xí)語言規(guī)律并提高泛化能力。只有擁有充足的語料,大模型才能更好地捕捉細(xì)微的語言特征。

  此外,高質(zhì)量語料應(yīng)是合法且無害的。不合法或有害的語料可能導(dǎo)致模型產(chǎn)生不恰當(dāng)?shù)幕卮鸹蚪ㄗh,或無意中泄露他人隱私。

  “高質(zhì)量語料還應(yīng)該具有真實性和連貫性,以便讓大模型更好地理解語境并生成符合邏輯的回答。”康戰(zhàn)輝說,語料庫應(yīng)該充分反映語料的多樣性并避免偏見,這樣大模型在不同場景下回答不同用戶的問題時才能做到盡可能科學(xué)客觀。

  完善相關(guān)機(jī)制提高語料質(zhì)量

  記者在采訪中了解到,目前訓(xùn)練大模型的語料有一部分是從數(shù)據(jù)公司購買的,也有一部分是從網(wǎng)絡(luò)公開語料或者公開數(shù)據(jù)集中獲取并整理的。“從數(shù)據(jù)公司購買的語料質(zhì)量較高,并且大多是垂域數(shù)據(jù),但其數(shù)據(jù)量較少且價格較貴。”邵睿說,“網(wǎng)絡(luò)公開語料通用性較好,數(shù)據(jù)量大,但數(shù)據(jù)質(zhì)量無法保證,數(shù)據(jù)格式難以統(tǒng)一。”

  “人類產(chǎn)生的有效信息,包括大量高價值信息可能不一定是互聯(lián)網(wǎng)數(shù)據(jù),而是沉散在各行各業(yè)里的數(shù)據(jù)。”商湯科技發(fā)言人說,“怎樣更多匯聚數(shù)據(jù),設(shè)計更多、更好的網(wǎng)絡(luò)結(jié)構(gòu),用更多的計算資源去支撐更大容量的高質(zhì)量語料,產(chǎn)生更強(qiáng)的智能,是一個至關(guān)重要的問題。”這位發(fā)言人認(rèn)為,要解決語料問題,不僅要靠增加語料總量,還需要提高語料質(zhì)量,甚至要考慮完善數(shù)據(jù)交換機(jī)制,推動人工智能數(shù)據(jù)基礎(chǔ)設(shè)施化。

  正如這位發(fā)言人所說,目前業(yè)界正在采取一些措施,推動數(shù)據(jù)交換機(jī)制的建設(shè)。記者梳理發(fā)現(xiàn),2023年7月,深圳數(shù)據(jù)交易所聯(lián)合近50家單位成立開放算料聯(lián)盟。該聯(lián)盟將圍繞高質(zhì)量中文訓(xùn)練數(shù)據(jù)和多模態(tài)訓(xùn)練數(shù)據(jù),協(xié)調(diào)數(shù)據(jù)要素、數(shù)據(jù)治理、訓(xùn)練數(shù)據(jù)、數(shù)據(jù)標(biāo)注、合成數(shù)據(jù)等相關(guān)標(biāo)準(zhǔn)制定,協(xié)助數(shù)據(jù)交易所增加與大模型相關(guān)的新品類和新專區(qū)。

  同樣是2023年7月,在2023世界人工智能大會現(xiàn)場,中國大模型語料數(shù)據(jù)聯(lián)盟成立。同年8月,上海人工智能實驗室宣布,聯(lián)合中國大模型語料數(shù)據(jù)聯(lián)盟成員單位共同開源發(fā)布“書生·萬卷”1.0多模態(tài)預(yù)訓(xùn)練語料。這次開源的數(shù)據(jù)總量超過2TB,包含超5億個文本、2200萬個圖文交錯文檔、1000個影像視頻。

  除了建設(shè)更為完善的體制機(jī)制,數(shù)據(jù)清洗等技術(shù)手段也能在一定程度上解決高質(zhì)量語料短缺難題。但要看到,這些技術(shù)手段有較高門檻。商湯科技發(fā)言人透露,該公司在數(shù)據(jù)清洗的過程中投入了上千塊GPU的算力。OpenAI在無數(shù)場合介紹過GPT-4訓(xùn)練的經(jīng)驗,但從未公開過數(shù)據(jù)清洗的經(jīng)驗。

(責(zé)編:李雨潼)

版權(quán)聲明:凡注明“來源:中國西藏網(wǎng)”或“中國西藏網(wǎng)文”的所有作品,版權(quán)歸高原(北京)文化傳播有限公司。任何媒體轉(zhuǎn)載、摘編、引用,須注明來源中國西藏網(wǎng)和署著作者名,否則將追究相關(guān)法律責(zé)任。

老司机aⅴ在线精品导航 | 九九热国产在线| 国产一区二区三区四区视频| 黄色的毛片免费| porn亚洲| 精品国产1区| av亚洲精华国产精华精| 5月丁香婷婷综合| 91国产一区在线| 老司机激情视频| 91久久国产综合| 久久99国产视频| av在线免费观看网址| 欧美精品尤物在线观看| 久久九九影视网| 亚洲天堂av电影| 日韩av大全| jizzjizz日本少妇| 四虎成人欧美精品在永久在线| 香蕉视频在线播放| 国产精品久久占久久| 久久久美女毛片| 中文字幕欧美日韩va免费视频| 欧美不卡三区| 亚洲AV成人无码网站天堂久久| 性欧美videos粗暴| 欧美aaaaaaa| 亚洲欧美日韩一区在线观看| 欧美日韩一区免费| 国产精品久久久久91| 看看黄色一级片| 成人免费视频国产| avtt亚洲| 野花国产精品入口| 欧美日韩一区国产| 官网99热精品| 中文字幕人妻一区二区三区在线视频| 在线永久免费观看黄网站| 免费在线播放电影| 日韩av电影天堂| 精品国产乱码久久久久久蜜臀| 久久久一本精品99久久精品66| 日韩女同一区二区三区| 夜色视频网站| 久久久精品区| 欧美国产日韩亚洲一区| 国模吧一区二区三区| 亚州精品一二三区| 性xxxx搡xxxxx搡欧美| 菠萝蜜视频在线观看www入口| 毛片av一区二区| 亚洲精品永久免费精品| 日韩精品第1页| 中文字幕在线观看第二页| 国产免费av高清在线| 一本色道久久综合| 欧美大片一区二区三区| 国产高潮呻吟久久久| 日韩不卡在线播放| av福利在线播放| 男人天堂欧美日韩| 亚洲精品天天看| 91专区在线观看| 五月天激情婷婷| 成人精品三级| 综合电影一区二区三区 | 日本中文字幕在线免费观看| 在线一二三区| 亚洲激情黄色| 亚洲乱码国产乱码精品精| 波多野结衣之无限发射| 亚洲国产剧情在线观看| 高清av不卡| 国产精品久久久久久久久免费相片| 国产91九色视频| 久久精品国产亚洲AV成人婷婷| 又黄又爽无遮挡| 亚洲欧美日本日韩| 中文字幕无线精品亚洲乱码一区 | 亚洲综合在线五月| 成人蜜桃视频| 无码人妻精品一区二区三区蜜桃91| 日本不卡视频| 成人av高清在线| 国产精品久久久久久影视| 欧美视频www| 国产51人人成人人人人爽色哟哟 | 国产精品影视在线| 韩国v欧美v日本v亚洲| 成人黄色免费网址| 亚洲女人天堂在线| 老司机午夜精品| 欧美一级大胆视频| 久久中文免费视频| 超碰在线最新| 久久精品欧美日韩精品| 亚洲综合大片69999| 狠狠狠狠狠狠狠| 99久久伊人| 色香蕉成人二区免费| 全黄性性激高免费视频| 久久亚洲国产中v天仙www| 欧美国产一区二区三区激情无套| 亚洲电影免费观看高清完整版在线| 国产精品天天av精麻传媒| 免费vip影院| 校园激情久久| 欧美制服第一页| 欧美亚洲精品天堂| 色综合天天色| 欧美天天综合网| 五月婷婷六月合| 婷婷丁香六月天| 国产高清一区日本| 91精品国产91久久久久青草| 91 中文字幕| 亚洲精品观看| 精品美女在线观看| 久久久精品人妻一区二区三区| 天海翼一区二区三区四区在线观看| 精品一区免费av| 91人人爽人人爽人人精88v| 国产精品探花视频| 夜夜春成人影院| 中文字幕在线看视频国产欧美在线看完整| av网站有哪些| 免费av在线网址| 亚洲午夜一二三区视频| av在线com| 成人性a激情免费视频| 精品一区二区三区不卡| 国产精品污www一区二区三区| 色wwwwww| 狠狠入ady亚洲精品| 2018国产精品视频| 日韩xxx视频| 久久99国内| 欧美日韩成人精品| 久久久久99精品成人片我成大片| 久久久久毛片免费观看| 亚洲精品自在久久| 欧美高清视频一区二区三区| 福利一区视频| 亚洲精品suv精品一区二区| 无码国产69精品久久久久同性| 欧美xxxx少妇| 8v天堂国产在线一区二区| 欧产日产国产精品98| 麻豆av在线免费观看| 欧美性大战久久久久久久蜜臀 | aa在线免费观看| 在线观看你懂| 亚洲曰韩产成在线| 在线能看的av网站| av免费网站在线观看| 欧美在线999| 亚洲黄色小说视频| a成人v在线| 国产亚洲精品久久久久久777| 久久精品亚洲无码| 天天操综合520| 26uuu另类亚洲欧美日本一| 亚洲av无码一区二区乱子伦| 在线播放亚洲| 国内成+人亚洲| 777影院狠狠色| 国产精品视频一二三区 | 妞干网视频在线观看| 在线观看午夜看亚太视频| 亚洲综合色视频| 亚洲熟妇一区二区| 亚洲优女在线| 一区二区三区日韩在线| 国产女优在线播放| 极品尤物久久久av免费看| 国产精品久久久久久久久婷婷| 黄色小视网站| 国产精品成人一区二区三区夜夜夜 | 国产精品久久综合av爱欲tv| 先锋影音中文字幕| 国产精品羞羞答答xxdd| 成人免费在线视频播放| 高清福利在线观看| 日韩一区二区三区电影| 日本三级中文字幕| 亚洲深深色噜噜狠狠爱网站| 粉嫩高清一区二区三区精品视频| xfplay资源站夜色先锋| 亚洲欧美影音先锋| 人妻激情偷乱频一区二区三区| 欧美黑粗硬大| 性欧美在线看片a免费观看| 中文字幕成人乱码在线电影| 成人在线视频一区二区| 狠狠热免费视频| 日韩欧美另类一区二区| 欧美激情在线一区| 国产激情小视频| 亚洲激情自拍视频| 国产一二三四视频|