日本久久久久久,热99视频国产视频,亚精产品一三三三三区av久久久,国产一第1页一草草影院

行業(yè)門戶
NEWS CENTRE
首頁(yè)
>
新聞中心
>
AI世界的新難題:互聯(lián)網(wǎng)的信息不夠用了!
AI世界的新難題:互聯(lián)網(wǎng)的信息不夠用了!
2024-04-02 閱讀:480

來(lái)源:硬AI

高質(zhì)量數(shù)據(jù)的緊缺正成為AI發(fā)展的重要障礙。

4月1日,據(jù)媒體報(bào)道,隨著OpenAI、Google等企業(yè)不斷深入發(fā)展AI技術(shù),科技巨頭們遇到了一個(gè)新問(wèn)題:現(xiàn)有的互聯(lián)網(wǎng)信息量可能不足以支撐他們訓(xùn)練更先進(jìn)的AI系統(tǒng)。

科技巨頭的AI系統(tǒng),比如能與人類聊天的ChatGPT,是通過(guò)學(xué)習(xí)網(wǎng)上的信息變得越來(lái)越聰明的。但現(xiàn)在,高質(zhì)量、有用的信息日益緊缺,同時(shí),一些網(wǎng)站開始限制AI公司訪問(wèn)他們的數(shù)據(jù)。據(jù)業(yè)界一些高管和研究人員表示,AI行業(yè)對(duì)高質(zhì)量文本數(shù)據(jù)的需求可能在兩年內(nèi)超過(guò)供應(yīng),這將可能減緩AI技術(shù)的發(fā)展速度。

面對(duì)信息不足的問(wèn)題,AI公司正在嘗試各種方法來(lái)尋找新的信息源。比如OpenAI正在考慮用YouTube視頻里的對(duì)話來(lái)訓(xùn)練它們的下一代智能模型GPT-5。有的公司甚至創(chuàng)造合成數(shù)據(jù)來(lái)學(xué)習(xí),盡管這種方法被許多研究人員認(rèn)為可能會(huì)導(dǎo)致系統(tǒng)發(fā)生嚴(yán)重故障,但不失為克服數(shù)據(jù)短缺的一種潛在途徑。

據(jù)悉,這些努力大多保密進(jìn)行,因?yàn)檎业接行У慕鉀Q方案可能成為企業(yè)在激烈競(jìng)爭(zhēng)中的關(guān)鍵優(yōu)勢(shì)。隨著數(shù)據(jù)需求不斷增長(zhǎng),找到新的學(xué)習(xí)材料、與數(shù)據(jù)所有者的合作,讓AI系統(tǒng)變得更加聰明,就成了這個(gè)行業(yè)的重要備戰(zhàn)區(qū)。

OpenAI的GPT-5面臨10萬(wàn)億到20萬(wàn)億tokens的數(shù)據(jù)短缺

AI語(yǔ)言模型的構(gòu)建依賴于從互聯(lián)網(wǎng)上收集的大量文本數(shù)據(jù),這些數(shù)據(jù)包括科學(xué)研究、新聞文章、維基百科條目等。這些材料被分解成“tokens”,tokens可以是完整的單詞或單詞的一部分。AI模型通過(guò)分析和理解這些tokens之間的關(guān)系和模式,學(xué)會(huì)了如何生成流暢、自然的語(yǔ)言,從而能夠回答問(wèn)題、撰寫文章甚至創(chuàng)作詩(shī)歌。

模型的能力在很大程度上取決于它訓(xùn)練的數(shù)據(jù)量。通常情況下,數(shù)據(jù)越多,模型的性能就越好,因?yàn)樗懈嗟睦觼?lái)學(xué)習(xí)不同的語(yǔ)言用法和復(fù)雜性。

OpenAI通過(guò)為其GPT系列模型提供海量訓(xùn)練數(shù)據(jù),不斷提升性能,借此成為世界頂尖AI公司。這展示了大數(shù)據(jù)訓(xùn)練對(duì)于AI發(fā)展的重要性。

但是,隨著GPT-4模型的不斷擴(kuò)大,OpenAI對(duì)數(shù)據(jù)的需求也在急劇增長(zhǎng)。Epoch研究所的AI研究員Pablo Villalobos估計(jì),GPT-4訓(xùn)練涉及的數(shù)據(jù)量高達(dá)12萬(wàn)億tokens,而未來(lái)模型,如GPT-5,可能需要60萬(wàn)億到100萬(wàn)億tokens。因此,即便是利用所有可用的高質(zhì)量語(yǔ)言和圖像數(shù)據(jù),研發(fā)GPT-5仍可能面臨10萬(wàn)億到20萬(wàn)億tokens的數(shù)據(jù)短缺。至于如何彌補(bǔ)這一巨大的數(shù)據(jù)缺口,目前尚無(wú)明確方案。

據(jù)媒體報(bào)道,為應(yīng)對(duì)數(shù)據(jù)短缺挑戰(zhàn),AI公司正在嘗試各種方法來(lái)尋找新的信息源。Meta創(chuàng)始人扎克伯格近期強(qiáng)調(diào),公司通過(guò)Facebook和Instagram等平臺(tái)擁有的大量數(shù)據(jù),為其AI研發(fā)提供了重要優(yōu)勢(shì)。扎克伯格表示,Meta能夠利用網(wǎng)絡(luò)上數(shù)以百億計(jì)的公開共享圖片和視頻,這些數(shù)據(jù)的規(guī)模超過(guò)了大多數(shù)常用數(shù)據(jù)集,盡管其中高質(zhì)量數(shù)據(jù)的比例尚不明確。

而OpenAI則考慮使用其自動(dòng)語(yǔ)音識(shí)別工具Whisper轉(zhuǎn)錄的高質(zhì)量視頻和音頻示例。此外,OpenAI還在考慮建立一個(gè)數(shù)據(jù)市場(chǎng),以評(píng)估每個(gè)數(shù)據(jù)點(diǎn)對(duì)模型訓(xùn)練的貢獻(xiàn)并據(jù)此向內(nèi)容提供者支付費(fèi)用,這一創(chuàng)新想法也引起了Google的關(guān)注。

Epoch研究所預(yù)測(cè)AI數(shù)據(jù)短缺危機(jī)將推遲至2028年

兩年前,Villalobos和他的同事寫道,到2024年年中,對(duì)高質(zhì)量數(shù)據(jù)的需求超過(guò)供給的可能性為50%,到2026年發(fā)生這種情況的可能性為90%。自那以后,他們變得更加樂(lè)觀,在AI研究員Pablo Villalobos及其團(tuán)隊(duì)的審慎評(píng)估下,新的預(yù)期顯示,這種短缺風(fēng)險(xiǎn)將延遲至2028年。

這項(xiàng)樂(lè)觀的更新基于對(duì)當(dāng)前數(shù)據(jù)質(zhì)量和可用性的深刻洞察。Villalobos指出,互聯(lián)網(wǎng)上的絕大多數(shù)數(shù)據(jù)并不適合作為AI訓(xùn)練材料。在無(wú)盡的信息流中,只有一小部分?jǐn)?shù)據(jù)(遠(yuǎn)低于先前預(yù)計(jì))能對(duì)AI模型的增長(zhǎng)和發(fā)展做出實(shí)質(zhì)性貢獻(xiàn)。

同時(shí),各大社交媒體平臺(tái)和新聞出版商已開始限制其數(shù)據(jù)被用于AI訓(xùn)練。他們擔(dān)心如果數(shù)據(jù)被自由用于AI訓(xùn)練,可能導(dǎo)致內(nèi)容創(chuàng)造者和平臺(tái)本身失去應(yīng)得的經(jīng)濟(jì)回報(bào)。

此外,普羅大眾對(duì)于個(gè)人隱私的保護(hù)意識(shí)顯著提升,許多人對(duì)于將私人對(duì)話如iMessage中的聊天記錄提供給AI訓(xùn)練的意愿較低,人們可能擔(dān)心他們的隱私可能會(huì)受到侵犯。

最近,一位女記者就OpenAI最新模型Sora的訓(xùn)練數(shù)據(jù)向CTO Murati提問(wèn)時(shí),Murati未能明確回答,這引發(fā)了業(yè)界對(duì)OpenAI管理層對(duì)于訓(xùn)練數(shù)據(jù)來(lái)源的關(guān)注度的質(zhì)疑。這一事件觸發(fā)了更廣泛的討論,關(guān)于公共領(lǐng)域數(shù)據(jù)的所有權(quán)問(wèn)題——我們?cè)诰W(wǎng)絡(luò)上發(fā)布的內(nèi)容,究竟是屬于個(gè)人私密還是公共共享的資產(chǎn)?

因此,這些因素共同導(dǎo)致了數(shù)據(jù)獲取的困境。隨著用戶和監(jiān)管機(jī)構(gòu)對(duì)數(shù)據(jù)使用的監(jiān)控趨嚴(yán),研究者們必須在保護(hù)隱私與數(shù)據(jù)采集之間找到新的均衡。

13560189272
地址:廣州市天河區(qū)黃埔大道西201號(hào)金澤大廈808室
COPYRIFHT ? 2010-2020 廣州市名聯(lián)網(wǎng)絡(luò)科技有限公司 ALL RIGHTS RESERVED 粵ICP備10203057號(hào)
  • 這里是二維碼