從話語(yǔ)學(xué)角度看詞嵌入模型

發(fā)布日期：2022-11-10 作者：康為點(diǎn)擊：

本文為 AI 研習(xí)社編譯的技術(shù)博客，原標(biāo)題：

Moving beyond the distributional model for word representation.

作家 | Tanay Gahlot

翻譯 | 喬叔叔

校對(duì) | 醬番梨整理 | 菠蘿妹

原文鏈接：

https://towardsdatascience.com/https-medium-com-tanaygahlot-moving-beyond-the-distributional-model-for-word-representation-b0823f1769f8

從話語(yǔ)學(xué)角度看詞嵌入模型

在任意1個(gè)基于機(jī)械學(xué)習(xí)的自然話語(yǔ)解決（NLP）流水線中，詞的向量化是此中典型的1個(gè)方法，由于咱們不可直接給計(jì)算機(jī)“喂單詞”。在詞的向量化流程中，咱們?yōu)?個(gè)單詞指定1個(gè)N維的向量，拿來(lái)表示它的詞義。結(jié)果，這成了解決流程中最為首要的1個(gè)方法之一，由于1個(gè)“壞的”表示會(huì)造成落敗并且為接下來(lái)的NLP任務(wù)帶來(lái)不愿看見(jiàn)的牽連。

在詞向量化的最常用的技術(shù)之一就是詞的散布式表示模型。它基于的1個(gè)如果是1個(gè)詞的意義可以從它所在的高低文中推理出去。大部份深度學(xué)習(xí)論文應(yīng)用基于該散布式理論而來(lái)的詞向量，由于它們是“任務(wù)普適”（它們不是對(duì)于特定任務(wù)）況且“話語(yǔ)普適”（它們不是對(duì)于特定話語(yǔ)）。不幸的是，散布式方式并非是詞向量化任務(wù)的魔效兵器。在本博文中，咱們會(huì)指出這個(gè)方式的許多問(wèn)題并供應(yīng)許多潛在的處理計(jì)劃，以改進(jìn)詞向量化的流程。

散布式表示模型有下列的問(wèn)題，讓人感覺(jué)十分苦痛：

稀有詞：針對(duì)在語(yǔ)料中顯現(xiàn)頻率過(guò)低的詞，它們不能通過(guò)度布式表示學(xué)習(xí)獲得1個(gè)較好的表示。

多義混雜：它們將1個(gè)詞的一切詞義混成1個(gè)表示。比如，單詞“bank”，在英文中能夠指“河岸”或者是“金融機(jī)構(gòu)（銀行）”。散布式模型卻將一切的這類(lèi)詞義混合在1個(gè)表示中。

形式缺失：在表示學(xué)習(xí)的時(shí)候，它們并沒(méi)有參考1個(gè)單詞多種形式。例如，“evaluate”和“evaluates”擁有類(lèi)似的意義，可是散布式表示模型卻將它們視為2個(gè)不同的單詞。（譯者注：在英語(yǔ)中，1個(gè)單詞也許有多種形式，特別是動(dòng)詞，偶爾態(tài)、人稱、被動(dòng)主動(dòng)等相應(yīng)的不同形式。在本例中evaluates是evaluate的第三人稱雙數(shù)的通常如今時(shí)的形式。）

幸運(yùn)的是，為了解決這類(lèi)問(wèn)題，大家進(jìn)行了十分全面的研發(fā)。大抵上，這類(lèi)處理方法能夠劃為3個(gè)首要類(lèi)型。咱們將會(huì)根據(jù)以下的次序一一簡(jiǎn)介：

形式敏感嵌入

在詞嵌入中，將話語(yǔ)或性能束縛進(jìn)行加強(qiáng)。

多詞義解決

形式敏感嵌入

這類(lèi)技術(shù)在學(xué)習(xí)詞嵌入的時(shí)候，將詞的形式進(jìn)行了參考。Fasttext就是這類(lèi)技術(shù)的1個(gè)典型代表。它將1個(gè)單詞表示成了n-grams（n元模子）字符的匯總。比如單詞where就能夠表示成

在應(yīng)用這類(lèi)方式（下表的sisg）對(duì)許多詞匯形式充足的話語(yǔ)，例如德語(yǔ)（De）、法語(yǔ)（FR）、西班牙語(yǔ)（ES），俄語(yǔ)（RU）和捷克語(yǔ)（Cs），進(jìn)行話語(yǔ)建模的時(shí)候，經(jīng)評(píng)價(jià)，相較于沒(méi)有應(yīng)用預(yù)訓(xùn)練詞向量的LSTM，并且應(yīng)用了預(yù)訓(xùn)練詞向量卻沒(méi)有有關(guān)詞根數(shù)據(jù)的LSTM模型（下表的sg），成效都有了改進(jìn)。

況且，既然fasttext將單詞表示為n元字符（n-gram）的組合，因而它就能為那些語(yǔ)料庫(kù)中從來(lái)沒(méi)有顯現(xiàn)過(guò)的詞供應(yīng)嵌入。在許多行業(yè)如生命科學(xué)行業(yè)，因?yàn)樵~匯表十分有限（長(zhǎng)尾情況），語(yǔ)料中大部份的單詞都納入到未知類(lèi)型中，該技術(shù)就顯得特別有用。

Morphfitting供應(yīng)了此外1個(gè)技術(shù)選項(xiàng)拿來(lái)將詞的形式填寫(xiě)到詞嵌入模型中。在這項(xiàng)工作中，他們用“相吸相斥”（Attract-Repel）方式來(lái)“后解決”（post-process）詞嵌入，該方式“聚焦”波折形式（通過(guò)詞的形態(tài)改變來(lái)表示有意思的句法數(shù)據(jù)，例如動(dòng)詞時(shí)態(tài)，卻不變化詞義），而“排擠”派生形式（新形態(tài)的單詞顯現(xiàn)同時(shí)詞義也產(chǎn)生遷移改變）。在下一部份咱們會(huì)全面研討“相吸相斥”方式。

通過(guò)注入話語(yǔ)形式學(xué)的束縛，Morphfitting在SimLex和SimVerb2個(gè)信息集上的有關(guān)系數(shù)評(píng)價(jià)中都超越了下表給出的10個(gè)規(guī)范嵌入模型。

在詞嵌入中，將話語(yǔ)或性能束縛進(jìn)行加強(qiáng)

此外一種詞空間定論的方式是在詞嵌入的后解決中進(jìn)行話語(yǔ)/性能束縛。在上一節(jié)中咱們已然看見(jiàn)這種方式的1個(gè)例子—Morphfitting。在這一節(jié)，咱們將會(huì)開(kāi)拓一下Morphfitting中應(yīng)用的定論詞嵌入的方式—相吸相斥法（Attract-Repel）。

相吸相斥法（Attract-Repel）是一類(lèi)后解決技術(shù)，它依據(jù)話語(yǔ)束縛將預(yù)訓(xùn)練的詞嵌入進(jìn)行進(jìn)一步定論。比如，在Morphfitting中，話語(yǔ)束縛是以兩類(lèi)合集的形態(tài)來(lái)表示，再次給出表格2如下：

表格的上半部份是“相吸合集”（譯者注：由多個(gè)詞義相近的單詞對(duì)構(gòu)成的合集），下半部份是“相斥合集”（譯者注：由多個(gè)詞義不同的單詞對(duì)構(gòu)成的合集）。借用這類(lèi)合集，1個(gè)迷你批次就生成了，它能夠拿來(lái)優(yōu)化以下的損失函數(shù)：

損失函數(shù)中的第一項(xiàng)相應(yīng)的是相吸合集，第二項(xiàng)相應(yīng)的是相斥合集。第三項(xiàng)則保留了散布式表示。況且，前面兩項(xiàng)也會(huì)引入負(fù)樣例，這是采取了PARAGRAM模型的主意。損失函數(shù)（又：本錢(qián)函數(shù)）的前兩項(xiàng)由下式給出：

第三項(xiàng)由下式給出：

人們能夠用“相吸相斥”法注入用相吸相斥集來(lái)表示的話語(yǔ)束縛，例如“同義與反義”或者“波折形式與派生形式”。而對(duì)應(yīng)地，那些不能借用話語(yǔ)束縛來(lái)表示的“類(lèi)似性”或者“非類(lèi)似性”，人們就不可進(jìn)行詞嵌入定論了。比如，不同“治愈”型號(hào)的聯(lián)系，就不能用相吸相斥法來(lái)捕捉。為了順應(yīng)如此的性能聯(lián)系，咱們簡(jiǎn)介此外一類(lèi)方式叫做“性能改裝”（Functional Retrofitting）。

在性能改裝方式中，聯(lián)系的語(yǔ)義學(xué)習(xí)與詞空間的學(xué)習(xí)是同步進(jìn)行的。而獲取這一點(diǎn)的方式，首要是將相吸相斥法中的點(diǎn)積更換成1個(gè)優(yōu)化學(xué)習(xí)流程得來(lái)的函數(shù)。

上式中的第一項(xiàng)保留了散布式嵌入，第二項(xiàng)和第三項(xiàng)則引入了常識(shí)圖譜中的正向聯(lián)系空間（E+）與負(fù)向聯(lián)系空間（E-）（譯者注：負(fù)向聯(lián)系空間是沒(méi)有在常識(shí)圖譜中表明的聯(lián)系的合集），最終一項(xiàng)在學(xué)習(xí)函數(shù)中施行正則化性能。

通過(guò)在國(guó)際體系醫(yī)學(xué)術(shù)語(yǔ)集（SNOMED-CT）之上預(yù)判2個(gè)實(shí)體（i,j）之間的聯(lián)系（r）而做的鏈路預(yù)判，性能改裝方式的語(yǔ)義學(xué)習(xí)成效獲得了驗(yàn)證。四種不同型號(hào)的性能改裝方式分別對(duì)四種聯(lián)系（ “擁有發(fā)掘部位Has Finding Site”、 “擁有病理流程Has Pathological Process”、 “誘因Due to”、 “病癥Cause of”）進(jìn)行了預(yù)判，其結(jié)果如下表所示：

更多對(duì)于性能改裝的數(shù)據(jù)，你能夠考慮一篇由Christopher Potts寫(xiě)的優(yōu)質(zhì)blog。假設(shè)你須要性能或話語(yǔ)束縛來(lái)進(jìn)一步定論你的詞嵌入，請(qǐng)?jiān)囉肔inked Open Data Cloud上優(yōu)質(zhì)的、擁有互聯(lián)聯(lián)系的本體匯編。

上述的方式刷新了各次匯報(bào)的詞嵌入。假設(shè)你對(duì)定論全部詞空間感興致，你能夠用反向傳遞來(lái)如此做，正如Ivan Vuli?和Nikola Mrk?i?在EMNLP 2018論文中倡議的那樣(Adversarial Propagation and Zero-Shot Cross-Lingual Transfer of Word Vector Specialization)。

多詞義解決

最終一種詞嵌入定論技術(shù)是參考詞的多義性，或者是參考詞的高低文，或者是借用詞義庫(kù)。讓咱們先以前一種方式開(kāi)啟 – ELMO。

在ELMO中，詞是基于高低文而被向量化的。因而為了可以用向量表示1個(gè)詞，人們也須要指定某個(gè)詞顯現(xiàn)的高低文。與那些沒(méi)有參考高低文的向量化技術(shù)相較為，這個(gè)方式已然證實(shí)是十分有效的。下例較為了ELMO(biLM)和Glove的較近鄰。

ELMO背后的根本意識(shí)是得出雙向話語(yǔ)模型(BiLM)逐個(gè)旁邊層的內(nèi)部狀況加權(quán)匯總并且最終一層的字符卷積網(wǎng)絡(luò)表示。

ELMO的詞嵌入在3個(gè)下游任務(wù)SQuAD、SNLI和SRL中進(jìn)行了測(cè)驗(yàn)，相較于基準(zhǔn)它有了明顯的改善。

更多對(duì)于ELMO的數(shù)據(jù)，請(qǐng)考慮這篇AllenNLP寫(xiě)的博文。假設(shè)你想從散布式詞表示中應(yīng)用詞匯資源來(lái)壓縮語(yǔ)義，你能夠用DECONF。在這個(gè)方式中，Mohammad Taher Pilehvar提出了一類(lèi)體制來(lái)應(yīng)用以下的優(yōu)化規(guī)范，進(jìn)而從散布式嵌入中壓縮語(yǔ)義嵌入：

上式中，第一項(xiàng)保留了語(yǔ)義散布表示的近似，第二項(xiàng)會(huì)將詞義嵌入向產(chǎn)生偏移的詞義推得愈加挨近許多。這個(gè)流程能夠很清楚地用下圖來(lái)描繪。

偏移詞集是用1個(gè)定制的Page Rank算法基于1個(gè)詞匯術(shù)語(yǔ)（借用詞匯資源創(chuàng)立而來(lái)）的語(yǔ)義網(wǎng)絡(luò)計(jì)算而來(lái)的。

咱們應(yīng)用4個(gè)單詞類(lèi)似度基準(zhǔn)方式分別做了皮爾森有關(guān)有關(guān)性和斯皮爾曼有關(guān)性評(píng)價(jià)，DECONF在絕大多數(shù)任務(wù)中都獲得了最超前的結(jié)果，如下表所示：

論斷

假設(shè)如處在沒(méi)有充足訓(xùn)練信息來(lái)重新學(xué)習(xí)詞嵌入的景況，我高度舉薦應(yīng)用上面提及的詞表示的方式來(lái)獲得許多百分比的改進(jìn)。對(duì)于本話題更深入的研討，我高度舉薦Ivan Vuli?在ESSLLI 2018中Word vector specialisation的課程。

要想持續(xù)查閱該篇文章有關(guān)鏈接和考慮文獻(xiàn)？

長(zhǎng)按鏈接點(diǎn)擊翻開(kāi)或點(diǎn)擊【從話語(yǔ)學(xué)角度看詞嵌入模型】：

https://ai.yanxishe.com/page/TextTranslation/1181

AI研習(xí)社每天刷新精彩內(nèi)容，觀看更多精彩內(nèi)容：

這5種計(jì)算機(jī)視覺(jué)技術(shù)，更新你的世界觀遷移學(xué)習(xí)：怎樣將預(yù)訓(xùn)練CNN當(dāng)做特點(diǎn)提煉器新人必讀：深度學(xué)習(xí)是什么？它的工作原理是什么？Python頂級(jí)方法：用一行代碼減小一半內(nèi)存占用

等你來(lái)譯：雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

預(yù)訓(xùn)練模型及其運(yùn)用一文帶你讀懂線性分類(lèi)器 (Python)3D人臉解決工具face3d 讓你的電腦具有“視力”，用卷積神經(jīng)網(wǎng)絡(luò)就能夠！

本文網(wǎng)址：http://m.55swg.cn/news/1863.html

相關(guān)標(biāo)簽：體系醫(yī)學(xué)術(shù)語(yǔ)集

上一篇：心臟科普 | 中心地段獨(dú)棟“兩室兩廳”，您的這份“心臟闡明書(shū)”請(qǐng)收好
下一篇：?中古期間醫(yī)學(xué)：四、中國(guó)中古期間的醫(yī)學(xué)

新聞分類(lèi)