美女在线国产爆插,日本又黄又粗暴的gif动态图,1000部无码18勿进入免费,天天干妹子,全免费级毛片免费播放,kkkk国产在线播放,AV黄色网址在线观看


首頁(yè)
產(chǎn)品系列
行業(yè)應(yīng)用
渠道合作
新聞中心
研究院
投資者關(guān)系
技術(shù)支持
關(guān)于創(chuàng)澤
| En
 
  當(dāng)前位置:首頁(yè) > 新聞資訊 > 機(jī)器人知識(shí) > 深度解析大規(guī)模參數(shù)語(yǔ)言模型Megatron-BERT  
 

深度解析大規(guī)模參數(shù)語(yǔ)言模型Megatron-BERT

來(lái)源:智東西      編輯:創(chuàng)澤      時(shí)間:2020/6/18      主題:其他   [加盟]
大家好,我是NVIDIA解決方案架構(gòu)師王閃閃。今天主要和大家分享兩個(gè)部分的內(nèi)容:

1.  BERT模型深度解析

2.  大規(guī)模參數(shù)的語(yǔ)言模型Megatron-BERT

我們今天主要是溫故知新我先帶大家復(fù)習(xí)一下BERT模型的整體架構(gòu),內(nèi)容不會(huì)特別偏數(shù)學(xué),主要把BERT一些要點(diǎn)給大家說(shuō)清楚,包括BERT的輸入/輸出以及具體它是怎么工作的,然后介紹NVIDIA基于BERT開(kāi)發(fā)出的一系列好的模型。

先介紹一下自然語(yǔ)言處理常見(jiàn)的應(yīng)用方向,類是序列標(biāo)注,比如命名實(shí)體的識(shí)別、語(yǔ)義標(biāo)注、詞性標(biāo)注,循環(huán)智能也是用了序列標(biāo)注。第二類是分類任務(wù),如文本分類和情感分析,這個(gè)方向目前在量化金融L域,尤其是對(duì)沖基金上應(yīng)用性很強(qiáng),尤其是情感分析。我記得3、4年前,有一條新聞?wù)f斯坦福大學(xué)的一個(gè)碩士生,暑期在他的宿舍里用幾塊GPU卡,自己搭建了一個(gè)小的超J計(jì)算機(jī),他把Twitter上的信息全部錄下來(lái),每天更新。他使用了BERT進(jìn)行情感分析,把每天每個(gè)人的信息分成三類:positive積J、neutral中性、negative消J。他把三類情感的量化信息和當(dāng)天納斯達(dá)克股票的升跌情況匯總,進(jìn)行了統(tǒng)計(jì)分析,發(fā)現(xiàn)如果Twitter上的信息大部分都是積J的,那么股票就有很大的概率會(huì)上漲。我們現(xiàn)在把這類數(shù)據(jù)叫做情感分析因子,它在股票分析上是一個(gè)特別重要的推進(jìn)方向,能讓模型越發(fā)準(zhǔn)確。第三類NLP應(yīng)用方向就是對(duì)句子關(guān)系的判斷,如自然語(yǔ)言的推理、問(wèn)答系統(tǒng),還有文本語(yǔ)義相似性的判斷。后一類,是生成式任務(wù),如機(jī)器翻譯、文本摘要,還有創(chuàng)造型的任務(wù)比如機(jī)器寫(xiě)詩(shī)、造句等。

BERT模型深度解析

現(xiàn)在我們進(jìn)入正題:對(duì)BERT的講解。要了解BERT,先我們要說(shuō)一下Transformer,因?yàn)锽ERT主要就是基于Transformer和注意力機(jī)制,這兩點(diǎn)也是BERT能從GPT、RNN、LSTM等一系列架構(gòu)中能脫穎而出的很大原因。Attention,專業(yè)的叫法是Attention Mechanism,Attention是一個(gè)Encoder+Decoder的模型機(jī)制。Encoder-Decoder模型是在深度學(xué)習(xí)中比較常見(jiàn)的模型結(jié)構(gòu):在計(jì)算機(jī)視覺(jué)中這個(gè)模型的應(yīng)用是CNN+RNN的編輯碼框架;在神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的應(yīng)用是sequence to sequence模型,也就是seq2seq。而編碼(Encoder)就是將序列編碼成一個(gè)固定長(zhǎng)度的向量,解碼(Decoder)就是將之前生成的向量再還原成序列。

那么問(wèn)題來(lái)了,為什么要在Encoder-Decoder模型機(jī)制中引入Attention呢?因?yàn)?Encoder-Decoder模型有兩個(gè)比較顯著的弊端:

一是Encoder會(huì)把序列信息壓縮成一個(gè)固定長(zhǎng)度的向量,那么在Encoder的輸出中,我們暫且把它叫做語(yǔ)義編碼c,c就有可能無(wú)法完全地表示出全部序列的信息,尤其是當(dāng)信息特別長(zhǎng)時(shí)。

二是先輸入到網(wǎng)絡(luò)中的信息會(huì)被后輸入的信息覆蓋掉,輸入的信息越長(zhǎng),對(duì)先前輸入信息的遺忘程度就越大。因?yàn)檫@兩個(gè)弊端,Decoder在解碼的一開(kāi)始就沒(méi)有獲得一個(gè)相對(duì)完整的信息,也就是語(yǔ)義編碼c沒(méi)有一個(gè)相對(duì)完整的信息輸入,那么它解碼的效果自然就不好。有的同學(xué)可能會(huì)說(shuō)想要解決RNN記憶力差的問(wèn)題,可以考慮用LSTM。我們的確可以考慮LSTM,但LSTM對(duì)超長(zhǎng)距離的信息記憶,效果也不是很好。

我們?cè)賮?lái)看看Attention為什么能夠解決這個(gè)問(wèn)題。Attention,顧名思義是注意力。它是模仿人類的注意力,人類在處理一個(gè)問(wèn)題時(shí)會(huì)把注意力放到那個(gè)特別重要的地方,比如我們?cè)诙虝r(shí)間內(nèi)去看一張照片,眼落到照片上的位置可能是某個(gè)建筑物或者是某個(gè)人,這取決于我們不同的目的和興趣等。我們不會(huì)在短時(shí)間之內(nèi)記清楚甚至是看清楚照片上的全部細(xì)節(jié),但是我們會(huì)將注意力聚焦在某個(gè)特定的細(xì)節(jié)上并記住它。Attention模型終輸出結(jié)果也是能夠達(dá)到這么一個(gè)效果。 

Attention的機(jī)制早也是應(yīng)用在計(jì)算機(jī)視覺(jué)上面,然后是在自然語(yǔ)言處理上面發(fā)揚(yáng)光大。由于2018年在GPT模型上的效果非常顯著,所以Attention和 Transformer才會(huì)成為大家比較關(guān)注的焦點(diǎn)。之所以Attention的能力在NLPL域得到了徹底釋放,是因?yàn)樗鉀Q了RNN不能并行計(jì)算的弊端,Attention使其每一步的計(jì)算不依賴于上一步的計(jì)算,達(dá)到和CNN一樣的并行處理效果。并且由于Attention只關(guān)注部分的信息,所以它的參數(shù)較少,速度就會(huì)快。其次RNN記憶能力較差,所以大家一開(kāi)始想到的解決方式都是用LSTM和GRU(Gated Recurrent Unit)來(lái)解決長(zhǎng)距離信息記憶的問(wèn)題,但是都沒(méi)有起到很好的效果。Attention由于只關(guān)注長(zhǎng)文本中的一個(gè)小部分,可以準(zhǔn)確地識(shí)別出關(guān)鍵信息,所以取得了特別不錯(cuò)的效果。

下面我們來(lái)說(shuō)一下Attention是怎么實(shí)現(xiàn)的聚焦。主要是因?yàn)樗遣捎昧穗p向的RNN,能夠同時(shí)處理每個(gè)單詞前后的信息。在Decoder中,它先計(jì)算每一個(gè)Encoder在編碼隱藏層的狀態(tài),然后會(huì)和Decoder隱藏層狀態(tài)比較,做出相關(guān)程度的評(píng)定。得到的權(quán)值會(huì)通過(guò)softmax歸一化得到使用的權(quán)重,也就是我們前面所說(shuō)的編碼向量c。然后對(duì)Encoder中對(duì)應(yīng)的不同狀態(tài)的權(quán)重進(jìn)行加權(quán)求和,有了編碼c之后,我們就可以先計(jì)算Decoder隱藏層的狀態(tài),然后再計(jì)算Decoder的輸出。這就是一個(gè)比較完整的在BERT當(dāng)中運(yùn)用Attention以及Encoder-Decoder模型的使用案例。Attention根據(jù)計(jì)算區(qū)域、權(quán)值的計(jì)算方式等會(huì)有很多不同變種。

不止是在NLPL域,在其他很多L域中,Transformer的模型由于很好用都是大家選的,主要的一個(gè)運(yùn)用機(jī)制就是Attention。我們之后會(huì)說(shuō)到的Transformer模型會(huì)用到 Multi-head Attention和Self-Attention。先說(shuō)一下Self-Attention,Self-Attention是將原文中每個(gè)詞和該句子中所有單詞之間進(jìn)行注意力的計(jì)算,主要是為了尋找原文內(nèi)部的關(guān)系。對(duì)應(yīng)到閱讀理解任務(wù),這個(gè)模型就可以判定一篇文章中的兩段話是不是同一個(gè)意思。Multi-head Attention,則是對(duì)一段原文使用多次的注意力,每次會(huì)關(guān)注到原文的不同部分,相當(dāng)于多次地在單層中使用Attention,然后把結(jié)果給拼接起來(lái)。 







億級(jí)視頻內(nèi)容如何實(shí)時(shí)更新

基于內(nèi)容圖譜結(jié)構(gòu)化特征與索引更新平臺(tái),在結(jié)構(gòu)化方面打破傳統(tǒng)的數(shù)倉(cāng)建模方式,以知識(shí)化、業(yè)務(wù)化、服務(wù)化為視角進(jìn)行數(shù)據(jù)平臺(tái)化建設(shè),來(lái)沉淀內(nèi)容、行為、關(guān)系圖譜,目前在優(yōu)酷搜索、票票、大麥等場(chǎng)景開(kāi)始進(jìn)行應(yīng)用

基于真實(shí)環(huán)境數(shù)據(jù)集的機(jī)器人操作仿真基準(zhǔn)測(cè)試

通過(guò)使用仿真和量化指標(biāo),使基準(zhǔn)測(cè)試能夠通用于許多操作領(lǐng)域,但又足夠具體,能夠提供系統(tǒng)的有關(guān)信息

看高清視頻,如何做到不卡頓

優(yōu)酷智能檔突破“傳統(tǒng)自適應(yīng)碼率算法”的局限,解決視頻觀看體驗(yàn)中高清和流暢的矛盾

京東姚霆:推理能力,正是多模態(tài)技術(shù)未來(lái)亟需突破的瓶頸

姚霆指出,當(dāng)前的多模態(tài)技術(shù)還是屬于狹隘的單任務(wù)學(xué)習(xí),整個(gè)訓(xùn)練和測(cè)試的過(guò)程都是在封閉和靜態(tài)的環(huán)境下進(jìn)行,這就和真實(shí)世界中開(kāi)放動(dòng)態(tài)的應(yīng)用場(chǎng)景存在一定的差異性

利用時(shí)序信息提升遮擋行人檢測(cè)準(zhǔn)確度

Tube Feature Aggregation Network(TFAN)新方法,即利用時(shí)序信息來(lái)輔助當(dāng)前幀的遮擋行人檢測(cè),目前該方法已在 Caltech 和 NightOwls 兩個(gè)數(shù)據(jù)集取得了業(yè)界領(lǐng)先的準(zhǔn)確率

基于網(wǎng)格圖特征的琵琶指法自動(dòng)識(shí)別

根據(jù)各種指法的具體特點(diǎn),對(duì)時(shí)頻網(wǎng)格圖、時(shí)域網(wǎng)格圖、頻域網(wǎng)格圖劃分出若干個(gè)不同的計(jì)算區(qū)域,并以每個(gè)計(jì)算區(qū)域的均值與標(biāo)準(zhǔn)差作為指法自動(dòng)識(shí)別的特征使用,用于基于機(jī)器學(xué)習(xí)方法的指法自動(dòng)識(shí)別

知識(shí)圖譜在個(gè)性化推薦領(lǐng)域的研究進(jìn)展及應(yīng)用

新加坡國(guó)立大學(xué)NExT中心的王翔博士分析了知識(shí)圖譜在個(gè)性化推薦領(lǐng)域的應(yīng)用背景,并詳細(xì)介紹了課題組在個(gè)性化推薦中的相關(guān)研究技術(shù)和進(jìn)展,包括基于路徑、基于表征學(xué)習(xí)、基于圖神經(jīng)網(wǎng)絡(luò)等知識(shí)圖譜在推薦系統(tǒng)中的融合技術(shù)

重構(gòu)ncnn,騰訊優(yōu)圖開(kāi)源新一代移動(dòng)端推理框架TNN

新一代移動(dòng)端深度學(xué)習(xí)推理框架TNN,通過(guò)底層技術(shù)優(yōu)化實(shí)現(xiàn)在多個(gè)不同平臺(tái)的輕量部署落地,性能優(yōu)異、簡(jiǎn)單易用。騰訊方面稱,基于TNN,開(kāi)發(fā)者能夠輕松將深度學(xué)習(xí)算法移植到手機(jī)端高效的執(zhí)行,開(kāi)發(fā)出人工智能 App,真正將 AI 帶到指尖

達(dá)摩院金榕教授113頁(yè)P(yáng)PT詳解達(dá)摩院在NLP、語(yǔ)音和CV上的進(jìn)展與應(yīng)用實(shí)踐

達(dá)摩院金榕教授介紹了語(yǔ)音、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)三大核心AI技術(shù)的關(guān)鍵進(jìn)展,并就AI技術(shù)在在實(shí)際應(yīng)用中的關(guān)鍵挑戰(zhàn),以及達(dá)摩院應(yīng)對(duì)挑戰(zhàn)的創(chuàng)新實(shí)踐進(jìn)行了解讀

OpenAI發(fā)布了有史以來(lái)最強(qiáng)的NLP預(yù)訓(xùn)練模型GPT-3

2020年5月底OpenAI發(fā)布了有史以來(lái)最強(qiáng)的NLP預(yù)訓(xùn)練模型GPT-3,最大的GPT-3模型參數(shù)達(dá)到了1750億個(gè)參數(shù)

多尺度圖卷積神經(jīng)網(wǎng)絡(luò):有效統(tǒng)一三維形狀離散化特征表示

解決了傳統(tǒng)圖卷積神經(jīng)網(wǎng)絡(luò)中圖節(jié)點(diǎn)學(xué)習(xí)到的特征對(duì)圖分辨率和連接關(guān)系敏感的問(wèn)題,可以實(shí)現(xiàn)在低分辨率的三維形狀上學(xué)習(xí)特征,在高低分辨率形狀之上進(jìn)行測(cè)試,并且保持不同分辨率特征的一致性

履約時(shí)間預(yù)估:如何讓外賣更快送達(dá)

外賣履約時(shí)間預(yù)估模型,預(yù)估的是從用戶下單開(kāi)始到騎手將餐品送達(dá)用戶手中所花的時(shí)間
 
資料獲取
新聞資訊
== 資訊 ==
» 人形機(jī)器人運(yùn)動(dòng)控制:制約商業(yè)化落地進(jìn)程的
» 山東省機(jī)器人產(chǎn)業(yè)高質(zhì)量發(fā)展行動(dòng)計(jì)劃(20
» 2025AI賦能教育:高考志愿填報(bào)工具使
» 核電人形機(jī)器人的八點(diǎn)特性:高輻射耐受性,
» 核電人形機(jī)器人專題報(bào)告[工業(yè)應(yīng)用場(chǎng)景],
» 機(jī)器人的大腦在手眼腦協(xié)同中發(fā)揮怎么樣的作
» 機(jī)器人的“手眼腦”協(xié)同有哪些瓶頸和難點(diǎn)?
» “手眼腦”協(xié)同對(duì)機(jī)器人上肢操作能力有哪些
» 機(jī)械臂+靈巧手當(dāng)前能夠完成哪些工作?
» 具身智能——決定 機(jī)器人泛化能力天花板的
» 服務(wù)機(jī)器人兼容方面檢測(cè):電磁兼容與協(xié)議兼
» 服務(wù)機(jī)器人可信方面檢測(cè):數(shù)據(jù)可信、算法可
» 服務(wù)機(jī)器人可靠方面檢測(cè):環(huán)境適應(yīng)性,無(wú)故
» AI工具深度測(cè)評(píng)與選型指南V1-5大類別
» 2025基于DeepSeek的詳細(xì)規(guī)劃智
 
== 機(jī)器人推薦 ==
 
迎賓講解服務(wù)機(jī)器人

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

智能消毒機(jī)器人

機(jī)器人底盤(pán)

機(jī)器人底盤(pán)

 

商用機(jī)器人  Disinfection Robot   展廳機(jī)器人  智能垃圾站  輪式機(jī)器人底盤(pán)  迎賓機(jī)器人  移動(dòng)機(jī)器人底盤(pán)  講解機(jī)器人  紫外線消毒機(jī)器人  大屏機(jī)器人  霧化消毒機(jī)器人  服務(wù)機(jī)器人底盤(pán)  智能送餐機(jī)器人  霧化消毒機(jī)  機(jī)器人OEM代工廠  消毒機(jī)器人排名  智能配送機(jī)器人  圖書(shū)館機(jī)器人  導(dǎo)引機(jī)器人  移動(dòng)消毒機(jī)器人  導(dǎo)診機(jī)器人  迎賓接待機(jī)器人  前臺(tái)機(jī)器人  導(dǎo)覽機(jī)器人  酒店送物機(jī)器人  云跡科技潤(rùn)機(jī)器人  云跡酒店機(jī)器人  智能導(dǎo)診機(jī)器人 
版權(quán)所有 © 創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司     中國(guó)運(yùn)營(yíng)中心:北京·清華科技園九號(hào)樓5層     中國(guó)生產(chǎn)中心:山東日照太原路71號(hào)
銷售1:4006-935-088    銷售2:4006-937-088   客服電話: 4008-128-728