亚洲欧洲日产韩国不卡/手机看片1024久久精品你懂的/魔镜号亚洲一区二区三区在线/一本久中文视频播放

找手機(jī)游戲就上融易行 專業(yè)手游媒體門戶網(wǎng)站!

游戲更新 | 安卓游戲 | 蘋果游戲 | 推薦游戲 | 軟件更新 | 文章更新 | 熱門文章 | 推薦文章

銀色獨(dú)角獸(銀色獨(dú)角獸系列的《幻影》讀后感)

時(shí)間:2024-02-15 09:49:38    編輯:azu

銀色獨(dú)角獸

1.感謝清華大學(xué)自然語言處理實(shí)驗(yàn)室對預(yù)訓(xùn)練語言模型框架的梳理。我們將沿著這條線索,探索預(yù)訓(xùn)練語言模型的前沿技術(shù)。紅框是之前的足跡,綠框是本期的介紹。歡迎留言討論交流!令人震驚的

2.在詳細(xì)閱讀本文之前,讓我們先來看看GPT-2,這也是GPT家族豪門的一次驚人表現(xiàn)。在一項(xiàng)生產(chǎn)任務(wù)中,OpenAI給出了這樣一個(gè)開頭:

銀色獨(dú)角獸

在一項(xiàng)驚人的研究中,科學(xué)家們發(fā)現(xiàn)了一群生活在安第斯山脈一個(gè)偏遠(yuǎn)的未開發(fā)山谷中的獨(dú)角獸。更令人驚訝的是,這些獨(dú)角獸能說一口流利的英語。

4.用這樣一句話,GPT-2可以寫出下面的故事:

由于它們獨(dú)特的角,科學(xué)家將其命名為奧維德獨(dú)角獸。這些長著四只銀角的獨(dú)角獸以前從未被科學(xué)家們見過。

銀色獨(dú)角獸

6 .....它還描述了這些獨(dú)角獸是如何被發(fā)現(xiàn)的,權(quán)威人士評論了這些生物是如何出現(xiàn)的。最后,人們認(rèn)為查明這些獨(dú)角獸是否是外星種族的唯一方法是通過DNA。

7.這種嚴(yán)重的胡說八道讓編輯感到羞愧。GPT-2如此強(qiáng)大并非沒有道理。接下來,讓我們回到學(xué)術(shù)界,檢查GPT家庭的戶口本!通過生成性預(yù)訓(xùn)練提高語言理解能力(2018年)

8.GPT是“生成性預(yù)訓(xùn)練”的縮寫,由OpenAI的四位作者于2018年發(fā)表。我想在這篇文章的基礎(chǔ)上談?wù)凣PT模型的特點(diǎn)及其與以前模型的相似之處。下圖顯示了GPT和埃爾莫的結(jié)構(gòu)圖。

9.GPT模式與之前的模式不同:

銀色獨(dú)角獸

10.GPT模型與以前模型的共同點(diǎn)是:模型細(xì)節(jié)。

11.GPT使用多層變換解碼器作為語言模型的分層結(jié)構(gòu)。GPT模型有12層,每層是一個(gè)轉(zhuǎn)換器的解碼器,具有768維隱藏狀態(tài)和12個(gè)注意頭。位置式前饋網(wǎng)絡(luò)使用3072維內(nèi)部狀態(tài)。輸入層的Tokens經(jīng)過單詞嵌入和位置嵌入,最后通過softmax得到輸出的概率分布。使用2000輪預(yù)熱來訓(xùn)練語言模型,最大學(xué)習(xí)速率為2.5e-4,然后通過余弦調(diào)度將其降低為0,通過dropout將其降低為0.1,最大輸入長度為512。該模型在直接達(dá)到finetune的目標(biāo)時(shí)已經(jīng)訓(xùn)練了三輪。

12.與此同時(shí),GPT使用BPE語音進(jìn)行了40,000次合并。BPE算法在論文《帶子詞單元的生僻字的神經(jīng)機(jī)器翻譯》中也有具體的代碼。簡單來說,算法將計(jì)算相鄰字符的二元模型的出現(xiàn)次數(shù),并合并每次出現(xiàn)次數(shù)最多的二元模型。最初的字典是256個(gè)unicode,在num_merges的最后一次合并后,字典中出現(xiàn)了更多的num_merges,這在整篇文章中出現(xiàn)了更多的“根”,例如lower中的low和wide中的est。編輯自己運(yùn)行下面的代碼,最終得到vocab {W5,WER 2,WER 6,東部3}。最常見的字符對是合并的,它們往往具有獨(dú)立的含義,而未合并的相鄰字符對顯然很少共同表達(dá)某種含義,因此它們被單獨(dú)嵌入是合理的。【/h/]語言模型是無監(jiān)督的多任務(wù)學(xué)習(xí)器(2019)

13.GPT-2是GPT家族的杰出后裔,也由OpenAI出版。GPT-2希望在不做任何改變的情況下使模型在下游任務(wù)中獲得更好的性能,即零射擊。

14.為了實(shí)現(xiàn)這一目標(biāo),該模型應(yīng)該是通用的,不能只在某些任務(wù)上進(jìn)行訓(xùn)練。它的語言模型目標(biāo)類似于GPT,但由于該模型可以在多個(gè)任務(wù)上表現(xiàn)良好,因此該模型的預(yù)測不應(yīng)僅基于前幾個(gè)單詞作為條件,還應(yīng)將任務(wù)考慮在內(nèi)。

15.與GPT相比,GPT2的幾個(gè)變化:

16.其最小的模型結(jié)構(gòu)相當(dāng)于GPT模型,第二個(gè)相當(dāng)于BERT-LARGE,而最大的是真正稱為GPT2的模型具有1.5B個(gè)參數(shù)。該模型非常龐大,比最先進(jìn)的預(yù)訓(xùn)練語言模型大12倍,數(shù)據(jù)集大15倍。作者認(rèn)為,在龐大的數(shù)據(jù)集上進(jìn)行高效訓(xùn)練后,一個(gè)龐大的模型可以在不同的任務(wù)中取得優(yōu)異的結(jié)果。事實(shí)上,在沒有任何標(biāo)記數(shù)據(jù)的情況下,GPT2可以在七個(gè)任務(wù)上超越原始的最先進(jìn)水平。我驚呆了!

17.更令人驚訝的是,GPT2甚至可以編寫代碼!!!

18.難怪臉書人工智能研究所的Tim rocktschel在閱讀了GPT2編寫的代碼后會說:我們有大麻煩了!GPT2如此強(qiáng)大,以至于OpenAI的研究人員決定暫時(shí)不公布訓(xùn)練模型中使用的數(shù)據(jù)或最大的真實(shí)GPT2參數(shù),因?yàn)樗麄冋J(rèn)為該模型有被惡意濫用的風(fēng)險(xiǎn)= =未完待續(xù)。

最新游戲

玩家評論