從話語(yǔ)學(xué)角度看詞嵌入模型
本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :
Moving beyond the distributional model for word representation.
作家 | Tanay Gahlot
翻譯 | 喬叔叔
校對(duì) | 醬番梨 整理 | 菠蘿妹
原文鏈接:
https://towardsdatascience.com/https-medium-com-tanaygahlot-moving-beyond-the-distributional-model-for-word-representation-b0823f1769f8
從話語(yǔ)學(xué)角度看詞嵌入模型
在任意1個(gè)基于機(jī)械學(xué)習(xí)的自然話語(yǔ)解決(NLP)流水線中,詞的向量化是此中典型的1個(gè)方法,由于咱們不可直接給計(jì)算機(jī)“喂單詞”。在詞的向量化流程中,咱們?yōu)?個(gè)單詞指定1個(gè)N維的向量,拿來(lái)表示它的詞義。結(jié)果,這成了解決流程中最為首要的1個(gè)方法之一,由于1個(gè)“壞的”表示會(huì)造成落敗并且為接下來(lái)的NLP任務(wù)帶來(lái)不愿看見的牽連。
在詞向量化的最常用的技術(shù)之一就是詞的散布式表示模型。它基于的1個(gè)如果是1個(gè)詞的意義可以從它所在的高低文中推理出去。大部份深度學(xué)習(xí)論文應(yīng)用基于該散布式理論而來(lái)的詞向量,由于它們是“任務(wù)普適”(它們不是對(duì)于特定任務(wù))況且“話語(yǔ)普適”(它們不是對(duì)于特定話語(yǔ))。不幸的是,散布式方式并非是詞向量化任務(wù)的魔效兵器。在本博文中,咱們會(huì)指出這個(gè)方式的許多問(wèn)題并供應(yīng)許多潛在的處理計(jì)劃,以改進(jìn)詞向量化的流程。
散布式表示模型有下列的問(wèn)題,讓人感覺(jué)十分苦痛:
稀有詞:針對(duì)在語(yǔ)料中顯現(xiàn)頻率過(guò)低的詞,它們不能通過(guò)度布式表示學(xué)習(xí)獲得1個(gè)較好的表示。
多義混雜:它們將1個(gè)詞的一切詞義混成1個(gè)表示。比如,單詞“bank”,在英文中能夠指“河岸”或者是“金融機(jī)構(gòu)(銀行)”。散布式模型卻將一切的這類詞義混合在1個(gè)表示中。
形式缺失:在表示學(xué)習(xí)的時(shí)候,它們并沒(méi)有參考1個(gè)單詞多種形式。例如,“evaluate”和“evaluates”擁有類似的意義,可是散布式表示模型卻將它們視為2個(gè)不同的單詞。(譯者注:在英語(yǔ)中,1個(gè)單詞也許有多種形式,特別是動(dòng)詞,偶爾態(tài)、人稱、被動(dòng)主動(dòng)等相應(yīng)的不同形式。在本例中evaluates是evaluate的第三人稱雙數(shù)的通常如今時(shí)的形式。)
幸運(yùn)的是,為了解決這類問(wèn)題,大家進(jìn)行了十分全面的研發(fā)。大抵上,這類處理方法能夠劃為3個(gè)首要類型。咱們將會(huì)根據(jù)以下的次序一一簡(jiǎn)介:
形式敏感嵌入
在詞嵌入中,將話語(yǔ)或性能束縛進(jìn)行加強(qiáng)。
多詞義解決
形式敏感嵌入
這類技術(shù)在學(xué)習(xí)詞嵌入的時(shí)候,將詞的形式進(jìn)行了參考。Fasttext就是這類技術(shù)的1個(gè)典型代表。它將1個(gè)單詞表示成了n-grams(n元模子)字符的匯總。比如單詞where就能夠表示成
在應(yīng)用這類方式(下表的sisg)對(duì)許多詞匯形式充足的話語(yǔ),例如德語(yǔ)(De)、法語(yǔ)(FR)、西班牙語(yǔ)(ES),俄語(yǔ)(RU)和捷克語(yǔ)(Cs),進(jìn)行話語(yǔ)建模的時(shí)候,經(jīng)評(píng)價(jià),相較于沒(méi)有應(yīng)用預(yù)訓(xùn)練詞向量的LSTM,并且應(yīng)用了預(yù)訓(xùn)練詞向量卻沒(méi)有有關(guān)詞根數(shù)據(jù)的LSTM模型(下表的sg),成效都有了改進(jìn)。
況且,既然fasttext將單詞表示為n元字符(n-gram)的組合,因而它就能為那些語(yǔ)料庫(kù)中從來(lái)沒(méi)有顯現(xiàn)過(guò)的詞供應(yīng)嵌入。在許多行業(yè)如生命科學(xué)行業(yè),因?yàn)樵~匯表十分有限(長(zhǎng)尾情況),語(yǔ)料中大部份的單詞都納入到未知類型中,該技術(shù)就顯得特別有用。
Morphfitting供應(yīng)了此外1個(gè)技術(shù)選項(xiàng)拿來(lái)將詞的形式填寫到詞嵌入模型中。在這項(xiàng)工作中,他們用“相吸相斥”(Attract-Repel)方式來(lái)“后解決”(post-process)詞嵌入,該方式“聚焦”波折形式(通過(guò)詞的形態(tài)改變來(lái)表示有意思的句法數(shù)據(jù),例如動(dòng)詞時(shí)態(tài),卻不變化詞義),而“排擠”派生形式(新形態(tài)的單詞顯現(xiàn)同時(shí)詞義也產(chǎn)生遷移改變)。在下一部份咱們會(huì)全面研討“相吸相斥”方式。
通過(guò)注入話語(yǔ)形式學(xué)的束縛,Morphfitting在SimLex和SimVerb2個(gè)信息集上的有關(guān)系數(shù)評(píng)價(jià)中都超越了下表給出的10個(gè)規(guī)范嵌入模型。
在詞嵌入中,將話語(yǔ)或性能束縛進(jìn)行加強(qiáng)
此外一種詞空間定論的方式是在詞嵌入的后解決中進(jìn)行話語(yǔ)/性能束縛。在上一節(jié)中咱們已然看見這種方式的1個(gè)例子—Morphfitting。在這一節(jié),咱們將會(huì)開拓一下Morphfitting中應(yīng)用的定論詞嵌入的方式—相吸相斥法(Attract-Repel)。
相吸相斥法(Attract-Repel)是一類后解決技術(shù),它依據(jù)話語(yǔ)束縛將預(yù)訓(xùn)練的詞嵌入進(jìn)行進(jìn)一步定論。比如,在Morphfitting中,話語(yǔ)束縛是以兩類合集的形態(tài)來(lái)表示,再次給出表格2如下:
表格的上半部份是“相吸合集”(譯者注:由多個(gè)詞義相近的單詞對(duì)構(gòu)成的合集),下半部份是“相斥合集”(譯者注:由多個(gè)詞義不同的單詞對(duì)構(gòu)成的合集)。借用這類合集,1個(gè)迷你批次就生成了,它能夠拿來(lái)優(yōu)化以下的損失函數(shù):
損失函數(shù)中的第一項(xiàng)相應(yīng)的是相吸合集,第二項(xiàng)相應(yīng)的是相斥合集。第三項(xiàng)則保留了散布式表示。況且,前面兩項(xiàng)也會(huì)引入負(fù)樣例,這是采取了PARAGRAM模型的主意。損失函數(shù)(又:本錢函數(shù))的前兩項(xiàng)由下式給出:
第三項(xiàng)由下式給出:
人們能夠用“相吸相斥”法注入用相吸相斥集來(lái)表示的話語(yǔ)束縛,例如“同義與反義”或者“波折形式與派生形式”。而對(duì)應(yīng)地,那些不能借用話語(yǔ)束縛來(lái)表示的“類似性”或者“非類似性”,人們就不可進(jìn)行詞嵌入定論了。比如,不同“治愈”型號(hào)的聯(lián)系,就不能用相吸相斥法來(lái)捕捉。為了順應(yīng)如此的性能聯(lián)系,咱們簡(jiǎn)介此外一類方式叫做“性能改裝”(Functional Retrofitting)。
在性能改裝方式中,聯(lián)系的語(yǔ)義學(xué)習(xí)與詞空間的學(xué)習(xí)是同步進(jìn)行的。而獲取這一點(diǎn)的方式,首要是將相吸相斥法中的點(diǎn)積更換成1個(gè)優(yōu)化學(xué)習(xí)流程得來(lái)的函數(shù)。
上式中的第一項(xiàng)保留了散布式嵌入,第二項(xiàng)和第三項(xiàng)則引入了常識(shí)圖譜中的正向聯(lián)系空間(E+)與負(fù)向聯(lián)系空間(E-)(譯者注:負(fù)向聯(lián)系空間是沒(méi)有在常識(shí)圖譜中表明的聯(lián)系的合集),最終一項(xiàng)在學(xué)習(xí)函數(shù)中施行正則化性能。
通過(guò)在國(guó)際體系醫(yī)學(xué)術(shù)語(yǔ)集(SNOMED-CT)之上預(yù)判2個(gè)實(shí)體(i,j)之間的聯(lián)系(r)而做的鏈路預(yù)判,性能改裝方式的語(yǔ)義學(xué)習(xí)成效獲得了驗(yàn)證。四種不同型號(hào)的性能改裝方式分別對(duì)四種聯(lián)系( “擁有發(fā)掘部位Has Finding Site”、 “擁有病理流程Has Pathological Process”、 “誘因Due to”、 “病癥Cause of”)進(jìn)行了預(yù)判,其結(jié)果如下表所示:
更多對(duì)于性能改裝的數(shù)據(jù),你能夠考慮一篇由Christopher Potts寫的優(yōu)質(zhì)blog。假設(shè)你須要性能或話語(yǔ)束縛來(lái)進(jìn)一步定論你的詞嵌入,請(qǐng)?jiān)囉肔inked Open Data Cloud上優(yōu)質(zhì)的、擁有互聯(lián)聯(lián)系的本體匯編。
上述的方式刷新了各次匯報(bào)的詞嵌入。假設(shè)你對(duì)定論全部詞空間感興致,你能夠用反向傳遞來(lái)如此做,正如Ivan Vuli?和Nikola Mrk?i?在EMNLP 2018論文中倡議的那樣(Adversarial Propagation and Zero-Shot Cross-Lingual Transfer of Word Vector Specialization)。
多詞義解決
最終一種詞嵌入定論技術(shù)是參考詞的多義性,或者是參考詞的高低文,或者是借用詞義庫(kù)。讓咱們先以前一種方式開啟 – ELMO。
在ELMO中,詞是基于高低文而被向量化的。因而為了可以用向量表示1個(gè)詞,人們也須要指定某個(gè)詞顯現(xiàn)的高低文。與那些沒(méi)有參考高低文的向量化技術(shù)相較為,這個(gè)方式已然證實(shí)是十分有效的。下例較為了ELMO(biLM)和Glove的較近鄰。
ELMO背后的根本意識(shí)是得出雙向話語(yǔ)模型(BiLM)逐個(gè)旁邊層的內(nèi)部狀況加權(quán)匯總并且最終一層的字符卷積網(wǎng)絡(luò)表示。
ELMO的詞嵌入在3個(gè)下游任務(wù)SQuAD、SNLI和SRL中進(jìn)行了測(cè)驗(yàn),相較于基準(zhǔn)它有了明顯的改善。
更多對(duì)于ELMO的數(shù)據(jù),請(qǐng)考慮這篇AllenNLP寫的博文。假設(shè)你想從散布式詞表示中應(yīng)用詞匯資源來(lái)壓縮語(yǔ)義,你能夠用DECONF。在這個(gè)方式中,Mohammad Taher Pilehvar提出了一類體制來(lái)應(yīng)用以下的優(yōu)化規(guī)范,進(jìn)而從散布式嵌入中壓縮語(yǔ)義嵌入:
上式中,第一項(xiàng)保留了語(yǔ)義散布表示的近似,第二項(xiàng)會(huì)將詞義嵌入向產(chǎn)生偏移的詞義推得愈加挨近許多。這個(gè)流程能夠很清楚地用下圖來(lái)描繪。
偏移詞集是用1個(gè)定制的Page Rank算法基于1個(gè)詞匯術(shù)語(yǔ)(借用詞匯資源創(chuàng)立而來(lái))的語(yǔ)義網(wǎng)絡(luò)計(jì)算而來(lái)的。
咱們應(yīng)用4個(gè)單詞類似度基準(zhǔn)方式分別做了皮爾森有關(guān)有關(guān)性和斯皮爾曼有關(guān)性評(píng)價(jià),DECONF在絕大多數(shù)任務(wù)中都獲得了最超前的結(jié)果,如下表所示:
論斷
假設(shè)如處在沒(méi)有充足訓(xùn)練信息來(lái)重新學(xué)習(xí)詞嵌入的景況,我高度舉薦應(yīng)用上面提及的詞表示的方式來(lái)獲得許多百分比的改進(jìn)。對(duì)于本話題更深入的研討,我高度舉薦Ivan Vuli?在ESSLLI 2018中Word vector specialisation的課程。
要想持續(xù)查閱該篇文章有關(guān)鏈接和考慮文獻(xiàn)?
長(zhǎng)按鏈接點(diǎn)擊翻開或點(diǎn)擊【從話語(yǔ)學(xué)角度看詞嵌入模型】:
https://ai.yanxishe.com/page/TextTranslation/1181
AI研習(xí)社每天刷新精彩內(nèi)容,觀看更多精彩內(nèi)容:
這5種計(jì)算機(jī)視覺(jué)技術(shù),更新你的世界觀遷移學(xué)習(xí):怎樣將預(yù)訓(xùn)練CNN當(dāng)做特點(diǎn)提煉器新人必讀:深度學(xué)習(xí)是什么?它的工作原理是什么?Python頂級(jí)方法:用一行代碼減小一半內(nèi)存占用
等你來(lái)譯:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
預(yù)訓(xùn)練模型及其運(yùn)用 一文帶你讀懂線性分類器 (Python)3D人臉解決工具face3d 讓你的電腦具有“視力”,用卷積神經(jīng)網(wǎng)絡(luò)就能夠!