AutoSAM告知你怎樣在醫(yī)療行業(yè)更快更好開發(fā)大模型

發(fā)布日期：2023-08-14 作者：康為點擊：

形成預(yù)訓(xùn)練Transformer（Generative Pre-trained Transformer，GPT）系列模型的順利標(biāo)明，假設(shè)在大范圍信息上進(jìn)行訓(xùn)練，大型話語模型在零樣件和非可視域中的少許快照任務(wù)上的功能與最新技術(shù)相當(dāng)。

受GPT的啟迪，Segment Anything（SAM）為圖片分割任務(wù)引入了1個“根基模型”。他們采集了1100萬張圖片，并設(shè)計了1個半智能信息引擎，平均每張圖片形成約100個Mask，進(jìn)而總共形成10億個Mask。接著，SAM在該SAM-1B信息集上應(yīng)用Vision Transformer（ViT）Backbone訓(xùn)練1個大型可prompt模型。在23多個信息集上應(yīng)用各類零樣件任務(wù)進(jìn)行評價后，SAM顯現(xiàn)出對大多數(shù)自然圖片的推廣前景。

但是，隨著SAM在醫(yī)學(xué)圖片行業(yè)引發(fā)人們的存眷，可以觀測到SAM在零樣件設(shè)置下不可較好地推廣到醫(yī)學(xué)圖片。將用自然圖片訓(xùn)練的模型轉(zhuǎn)換為醫(yī)學(xué)圖片的挑釁可歸因于2個首要原因：

外表上的較大差別：自然圖片和醫(yī)學(xué)圖片在色彩、亮度和對照度方面體現(xiàn)出明顯差別。因為所應(yīng)用的成像形式，比如CT掃描、MRI或超聲波，醫(yī)學(xué)圖片往往擁有不同的特點；

目的物體的模糊邊緣：醫(yī)學(xué)圖片時常顯現(xiàn)不同組織和器官之間的模糊邊緣。受過訓(xùn)練的醫(yī)學(xué)顧問對解剖構(gòu)造有必須的了解，而且可能辨認(rèn)出針對僅依據(jù)自然圖片訓(xùn)練的模型來說能夠不顯著的細(xì)微邊緣。

參考到采集與SAM-1B大小相當(dāng)?shù)尼t(yī)學(xué)分割信息集的艱難，開拓預(yù)訓(xùn)練的SAM中能否有可用來醫(yī)學(xué)圖片分割的常識是至關(guān)主要的。

另外，基于prompt的分割能夠不太合適真正世界的運用情景，原因如下：

為多類供應(yīng)prompt很耗時。針對大多數(shù)公共醫(yī)學(xué)圖片分割的挑釁，它總是須要同時分割多個類型。為每個類型輸入確切的prompt能夠會變得麻煩，特別是當(dāng)器官和組織很小而且相互相鄰時；

分割功能在較大程度上取決于prompt品質(zhì)。制造準(zhǔn)確的prompt須要特定行業(yè)的顧問常識，而這并不應(yīng)用于一切狀況。

參考到這類限定，本文提出了一類在醫(yī)學(xué)圖片信息集上微調(diào)SAM的直接方式，即解凍SAM編碼器的權(quán)重，并在其上增加預(yù)判Head進(jìn)行訓(xùn)練。解凍權(quán)重的原因是SAM是1個大模型，而且大多數(shù)權(quán)重由編碼器奉獻(xiàn)。依據(jù)試驗結(jié)果，因為硬件需要高，對編碼器妥協(xié)碼器進(jìn)行微調(diào)不單對一切開發(fā)職員來說不太容易，況且還會造成較差的分割功能。

另一方面，為了提升SAM在臨床運用中的可行性，作家將SAM中的Mask解碼器更換為不須要prompt進(jìn)行訓(xùn)練和推斷的預(yù)判Head。本文評價了三類不同型號的預(yù)判Head，含蓋視覺Transformer（ViT）、卷積神經(jīng)網(wǎng)絡(luò)（CNN）和線性層。ViT預(yù)判Head采取SAM Mask解碼器，命名為AutoSAM，由輕量級交叉注重力模塊和轉(zhuǎn)置卷積層構(gòu)成。作家移除prompt標(biāo)志并復(fù)制圖片嵌入以及其余輔助嵌入，以便解碼器可以同時為不同的類形成多個Mask。

為了展現(xiàn)作家方式的標(biāo)志效益，作家在Few-Shot Head學(xué)習(xí)環(huán)境中進(jìn)行了試驗，此中僅應(yīng)用1或5次標(biāo)志的MRI掃描來微調(diào)模型。在公開可用的醫(yī)學(xué)圖片分割信息集上獲取的結(jié)果凸顯標(biāo)明，與零樣件及時驅(qū)動SAM相比，定制預(yù)訓(xùn)練SAM獲得了明顯改善。

另外，作家的方式在較大程度上優(yōu)于從Head開始的訓(xùn)練和最超前的自督促學(xué)習(xí)方式，注重SAM在醫(yī)學(xué)行業(yè)的運用后勁。二、有關(guān)工作2.1 大話語模型

在大型話語模型（LLM）顯現(xiàn)以后，許多工作努力于在LLM中引入圖片來完結(jié)多模態(tài)任務(wù)。比如，CLIP和ALIGN借用對照學(xué)習(xí)在嵌入空間中對齊網(wǎng)絡(luò)圖片及其標(biāo)題。他們發(fā)掘這個簡潔的預(yù)訓(xùn)練任務(wù)可以較好地推廣到其余零樣件下游任務(wù)，如視頻中的目的分類和動作辨認(rèn)。

另外，DALL-E通過1個用來形成零樣件文本到圖片的尺度自回歸變換實現(xiàn)了較好的泛化。但是，這類大范圍的視覺模型未能解決全面的一切計算機視覺任務(wù)，如圖片分割。針對大型圖片分割模型來說，獲得標(biāo)簽Mask的難度是主要。

SAM（Segment Anything）是第1個開發(fā)可prompt的分割模型并自行在全面的信息集上對其進(jìn)行預(yù)訓(xùn)練的工作。給定恰當(dāng)?shù)膒rompt，SAM可能在沒有特定任務(wù)訓(xùn)練的狀況下為目的形成能夠的Mask。另一方面，DINOv2依據(jù)信息和模型大小對ViT模型的預(yù)訓(xùn)練進(jìn)行縮放，以形成通用的視覺特點，借用這類特點可以更容易地微調(diào)下游任務(wù)。2.2 為醫(yī)學(xué)圖片定制大模型

這一系列工作首要集中在對于特定分割信息集微調(diào)SAM，由于SAM在醫(yī)學(xué)圖片上體現(xiàn)出明顯的功能退步。MedSAM通過30多個醫(yī)學(xué)圖片信息集上的標(biāo)簽Mask形成的prompt，對SAM解碼器進(jìn)行了微調(diào)，結(jié)果標(biāo)明，與應(yīng)用prompt形成的零樣件預(yù)判相比，功能獲得了改善。張凱東等人將基于低秩的微調(diào)方略運用于SAN編碼器，并將其與SAM解碼器一塊訓(xùn)練，以定制SAM以施行腹部分割任務(wù)。吳俊德等人解凍SAM模型的權(quán)重，并在SAM中增加可訓(xùn)練的自順應(yīng)模塊，以減低從頭訓(xùn)練的本錢。三、本文方式3.1 背景

首先，作家將扼要簡介SAM模型作為背景常識。SAM中有3個首要組件，

圖片編碼器

prompt編碼器

Mask解碼器

圖片編碼用具有與視覺Transformer（ViT）相近的架構(gòu)，并在其自己采集的SAM-1B信息集上應(yīng)用MAE[10]進(jìn)行預(yù)訓(xùn)練。它們供應(yīng)了三類不同比率的圖片編碼器ViT-H、ViT-l和ViT-V的權(quán)重，作為實時功能和確切性之間衡量的選項。圖片編碼器獲得所有大小的輸入圖片，并將其整形為1024×1024。接著將圖片轉(zhuǎn)換為擁有patch大小16×16和嵌入大小256的次序patch嵌入。經(jīng)過幾個擁有窗口注重和殘差傳遞的Transformer塊以后，圖片編碼器的流出擁有（64×64，256）的維度。

prompt編碼器同時支持稠密prompt（點、框、文本）和密集prompt（Mask）。稠密prompt被投影到prompt Token 中并和圖片嵌入連通，而密集prompt則應(yīng)用卷積嵌入并和圖片植入逐元素求和。

Mask解碼器首先在流出 Token 、prompt Token 和圖片嵌入上運用雙向注重力模塊。接著通過2個轉(zhuǎn)置卷積層對圖片嵌入進(jìn)行上采樣，并對放大后的圖片嵌入與流出 Token 之間的逐點乘積進(jìn)行預(yù)判。3.2 Prediction Head

為了以有效的方法使SAM順應(yīng)特定的醫(yī)學(xué)圖片信息集，作家在SAM編碼器中保留權(quán)重，并附帶1個額外的特定任務(wù)預(yù)判Head進(jìn)行微調(diào)。另外，作家將預(yù)判Head設(shè)計為不可prompt的，而且唯獨的輸入是來自SAM編碼器的圖片嵌入。作家討論了3種最常見的系統(tǒng)構(gòu)造型號，ViT、CNN和線性層。3.2.1 Vision Transformer

作家注重到SAM中的起始Mask解碼用具有ViT Backbone，因而作家可以對其進(jìn)行輕微竄改，以便預(yù)判Head不單不可prompt，況且可能借用SAM Mask解碼器中的權(quán)重。

如圖2所示，針對SAM解碼器，除了prompt Token 和圖片嵌入之外，還有可訓(xùn)練的流出 Token ，含蓋用來形成Mask的Mask Token 和用來預(yù)判Mask置信度的IoU Token 。

另外，Mask Token 含蓋前景Mask Token 和背景Mask Token 。流出 Token 與prompt Token 連通，作家將其命名為輔助嵌入。在雙向注重力模塊中，每一層都進(jìn)行自注重力和交叉注重力。對于交叉注重力，它含蓋從 Token 到圖片嵌入，以及從圖片嵌入到 Token （作為密鑰和值）。接著，通過2個轉(zhuǎn)置的conv層對圖片嵌入進(jìn)行放大，并選取前景Mask Token 與放大的嵌入進(jìn)行逐點乘積以獲取Mask。

相比之下，AutoSAM刪除輔助嵌入中的prompt標(biāo)志，使其不再是可prompt的模型。另一類竄改是通過類的數(shù)目復(fù)制輔助嵌入和圖片嵌入，以形成多個類的Mask。每對的計算可以并行進(jìn)行，因而與形成額外Mask有關(guān)的開支是可以忽視的。為1個推斷形成多個Mask的代替方式是簡潔地在流出 Token 中增加更多前景Mask Token 。但是，作家選取第一類方略是由于，直觀地說，一組輔助嵌入表示SAM中要分割的1個目的。AutoSAM獨立地為每個類啟動形成Mask。3.2.2 Convolutional Neural Network

這類型號的預(yù)判Head是不少盛行的醫(yī)學(xué)圖片分割模型中解碼器的表示，如UNet、UNet++、TransUNet和Swin-UNetr。作家首先將嵌入的圖片Reshape為大小為（256,64,64）的特點圖。依據(jù)UNet中的構(gòu)造，CNN Head部有k個階段（k>=2），每個階段由Stride為1的conv層和Stride為2的轉(zhuǎn)置conv層構(gòu)成。

在試驗部分嘗試了不同的k值，當(dāng)k＞2時，在k?2階段，轉(zhuǎn)置的conv層被更換為conv層，促使流出特點圖總是放大4x。最終，運用kernel-size為1的逐點conv層來形成每個類的預(yù)判Mask。3.2.3 Linear Layer

簡潔的分類Head總是用來評價在預(yù)訓(xùn)練任務(wù)中學(xué)習(xí)的特點表示的泛化。在這項工作中，作家還運用線性Head來測驗?zāi)芊翊嬖赟AM編碼器提煉的頂級語義數(shù)據(jù)。與CNN相近，作家將嵌入的圖片從頭映照為2D特點圖，接著直接布置2個轉(zhuǎn)置conv層。接著，作家應(yīng)用2個kernel-size為1的conv層來替代MLP來獲取每個像素的分類。四、試驗4.1 Dataset

ACDC（智能心臟診療挑釁）信息集是MICCAI 2017挑釁的一部分，該挑釁含蓋100名患者的心臟構(gòu)造的MRI掃描，每個患者有2個3Dvolumes。該信息集還供應(yīng)了左心室、右心室和心肌的顧問分割Mask。

作家依據(jù)患者將MRI掃描隨機劃為三部分，訓(xùn)練集、驗證集和測驗集，比率為70:15:15。針對預(yù)處置，作家對每個volumes進(jìn)行歸一化，以便volumes中的一切像素全是零均值和單位方差。接著，作家將像素值轉(zhuǎn)換為RGB格式，并將volumes內(nèi)的每個切片存儲為PNG文件，由于SAM是在RGB圖片上訓(xùn)練的，作家的目的是維持輸入格式的一致性。在此此前，雖然MRI掃描是以3Dvolumes進(jìn)行的，但分割是在2D圖片上進(jìn)行的。

作家計算測驗集中每個volumes的Dice分?jǐn)?shù)和平均對稱外表距離（ASSD），接著從頭形成分割并反復(fù)試驗。報表了4次的平均得分和規(guī)范差。4.2 訓(xùn)練細(xì)節(jié)訓(xùn)練的施行基于深度學(xué)習(xí)包PyTorch。應(yīng)用的GPU設(shè)施是NVIDIA特斯拉V100，內(nèi)存為16GB，比A100更容易訪問。相比之下，SAM將訓(xùn)練散布在256個A100 GPU中。在訓(xùn)練流程中，作家對輸入圖片隨機運用信息加強，含蓋高斯噪聲、亮度竄改、彈性扭曲和轉(zhuǎn)動。訓(xùn)練損失是交叉熵?fù)p失和Dice Loss的組合。用來刷新的優(yōu)化器算法基于Adam。學(xué)習(xí)率設(shè)置為0.0005，此中

。針對一切3個預(yù)判Head，單個GPU的最大batch-size為4。默認(rèn)的訓(xùn)練Epoch是120，由于作家觀測到在該Epoch數(shù)目以后驗證集上的損失收斂。4.3 Baselines

為了驗證作家提出的方式的有效性，作家在相近的設(shè)置下對許多基線方式進(jìn)行了試驗作為較為。第一類是從Head開始訓(xùn)練UNet，這是獲取特定信息集的智能分割模型的最常見方式。其次，作家還嘗試了一類自督促學(xué)習(xí)方式SimCLR，該方式被全面用來醫(yī)學(xué)圖片行業(yè)的標(biāo)簽高效分割。

該SimCLR基線含蓋2個階段，預(yù)訓(xùn)練和微調(diào)。

在訓(xùn)練階段，作家應(yīng)用訓(xùn)練集中的一切信息，而不應(yīng)用所有標(biāo)志數(shù)據(jù)。作家從輸入圖片中獲取2個隨機視圖，并應(yīng)用UNet編碼器將它們投影到特點空間中。接著運用對照損失來最大化2個視圖的嵌入之間的一致性。

在微調(diào)流程中，UNet的編碼器用預(yù)先訓(xùn)練的權(quán)重進(jìn)行初始化，而且模型中的一切參數(shù)都在標(biāo)志信息上進(jìn)行訓(xùn)練。最終，作家在沒有所有微調(diào)的狀況下嘗試起始SAM，以解決將SAM自定論到特定信息集的必須性。對于prompt，作家應(yīng)用box-style的prompt，而且box坐標(biāo)是基于GT Mask計算的。4.4 試驗結(jié)果4.4.1 Label-efficient Adaptation

當(dāng)在新的信息集上微調(diào)模型時，為了減低標(biāo)志本錢，期望微調(diào)僅在有限的標(biāo)志圖片的狀況下實現(xiàn)有期望的結(jié)果。因而，在表1中，作家只供應(yīng)了1或5個標(biāo)志的volumes來評價作家方式的信息效益。下列是從表1中得出的首要觀測結(jié)果。

1.首先，針對這兩類設(shè)置，AutoSAM和CNN Head顯現(xiàn)出與一切其余方式相比最佳的分割精度。特別是當(dāng)只應(yīng)用1個標(biāo)志時，AutoSAM的平均 Dice 分?jǐn)?shù)為39.32，幾乎是UNet和SimCLR的兩倍。這供應(yīng)了令人信服的證據(jù)，證實在SAM編碼器中學(xué)習(xí)到的特點充足通用，可以轉(zhuǎn)化到醫(yī)學(xué)圖片中。

就統(tǒng)計明顯性而言，很難說AutoSAM或CNN能否擁有更高的 Dice 分?jǐn)?shù)，為甚麼這也象征著SAM的強大威力首要是由圖片編碼器而不是Mask解碼器提煉的代表性特點的結(jié)果。另外，作家觀測到AutoSAM與CNN Head部相比擁有更低的ASSD。這類差別能夠歸因于SAM解碼器的訓(xùn)練，該解碼器旨在形成集中在prompt位子附近的目的的Mask。相比之下，CNN Head部沒有從SAM解碼器加載數(shù)據(jù)，造成ASSD值更高。

2.其次，與AutoSAM和CNN編碼器相比，縱然僅用1個volumes訓(xùn)練，SAM也體現(xiàn)出更差的分割功能，這有力地支持了微調(diào)SAM是解決其在醫(yī)學(xué)圖片信息集上功能下落的有效方式。但是，也注重到，SAM的ASSD比其余方式低得多。這一觀測結(jié)果有助于SAM受益于嵌入框prompt中的局部數(shù)據(jù)。該定位數(shù)據(jù)迫使預(yù)判Mask位于框領(lǐng)域周邊。另一方面，SAM的LV Dice 分?jǐn)?shù)終究為0。依據(jù)圖4，作家可以發(fā)掘Myo是1個由其余2個類包圍的細(xì)圓，邊緣也很模糊。因為Myo的框靠近RB的框，因而Myo實際上被誤認(rèn)定是RV的一部分，因而一切LV領(lǐng)域都被預(yù)判為Myo。

3.如表1所示，線性預(yù)判Head擁有比其余2個預(yù)判Head差得多的功能。特別是，當(dāng)標(biāo)志信息的數(shù)目從1個加大到5個時，線性Head不可獲取較大的分割精度提升。作家認(rèn)定，這一結(jié)果是因為極輕的架構(gòu)。當(dāng)SAM編碼器形成的視覺特點不擁有充足的醫(yī)學(xué)圖片語義數(shù)據(jù)時，這類簡潔的預(yù)判Head會造成模型本領(lǐng)較弱，并能夠顯現(xiàn)不夠。4.4.2 Ablation Study

作家進(jìn)行的第一項融化研發(fā)是對于CNN預(yù)判Head中的深度數(shù)目怎樣影響微調(diào)結(jié)果。在表2中， Dice 隨著深度的加大而加大，直到 Depth＝4為止。如上所述，線性預(yù)判Head能夠會顯現(xiàn)裝配不夠的問題。當(dāng)Depth< 4時，更大的預(yù)判Head會帶來更好的模型本領(lǐng)。但是，當(dāng)Depth > 4時，從加大預(yù)判Head中的參數(shù)所獲取的益處開始減小。在這一點上，圖片嵌入或預(yù)判Head架構(gòu)的品質(zhì)變成決議功能的更主要的原因。

作家還評價了AutoSAM和Encoder+CNN在SAM供應(yīng)的不同編碼器尺寸（即ViT-b、ViT-l和ViT-h）下的功能。

表3顯現(xiàn)，往往較大的模型大小會在下游任務(wù)上形成更好的微調(diào)結(jié)果，但AutoSAM對編碼器架構(gòu)的敏感性不如Encoder+CNN。當(dāng)應(yīng)用ViT-h Backbone時，CNNHead部的 Dice 得分顯著高過AutoSAM，雖然它仍舊有更高的ASSD。表3也可以作為對于效益和功能之間切換的考慮，由于與ViT-b相比，ViT-h造成更長的微調(diào)時間和更高的推斷延緩。

最終，作家在圖5中繪制了應(yīng)用更多標(biāo)志信息進(jìn)行微調(diào)的結(jié)果。作家發(fā)掘，當(dāng)標(biāo)志的卷數(shù)小過10時，AutoSAM僅比UNet（沒有額外數(shù)據(jù)）和SimCLR（在同一信息集上預(yù)訓(xùn)練的常識）擁有優(yōu)勢。這是由于SAM是在大范圍圖片信息集上預(yù)訓(xùn)練的，而且圖片編碼器可能提煉語義數(shù)據(jù)，這有利于下游的分割任務(wù)。

但是，因為SAM從未接觸過醫(yī)學(xué)圖片，因而這類語義數(shù)據(jù)能夠是有成見的，而且特定于自然圖片。仿佛有了充足的標(biāo)志信息，從自然圖片中獲取的常識在將預(yù)判Head專門用來醫(yī)學(xué)圖片行業(yè)時會形成負(fù)面影響。因而，為了為一切圖片模態(tài)創(chuàng)建1個真實的“根基模型”，將來須要1個大范圍的醫(yī)學(xué)圖片信息集來預(yù)訓(xùn)練SAM。五、總結(jié)

雖然SAM在自然圖片中獲得了順利，但怎樣有效地將SAM順應(yīng)散布外的醫(yī)學(xué)圖片信息集仍舊是1個懸而未決的問題。與現(xiàn)有工作不同，本文為解決這一問題供應(yīng)了1個新的視角，即解凍SAM圖片編碼器中的權(quán)重，并增加1個輕量級的任務(wù)專屬預(yù)判Head。

為了促成全面的運用，作家將SAM竄改為不可prompt的，并可能形成多類Mask。作家開拓了三類型號的預(yù)判Head，ViT（稱為AutoSAM）、CNN和線性層，此中AutoSAM和CNN Head在Few-Shot Head學(xué)習(xí)設(shè)置中顯現(xiàn)出有期望的結(jié)果。僅用1個標(biāo)志進(jìn)行微調(diào)比框prompt的SAM擁有更好的功能，這一事實證實了為新信息集定制SAM的必須性。因為標(biāo)志的數(shù)目有限，作家的方式優(yōu)于從Head開始訓(xùn)練和自督促學(xué)習(xí)基線?？紤]

本文網(wǎng)址：http://m.55swg.cn/news/2705.html

相關(guān)標(biāo)簽：醫(yī)學(xué)插畫,期望大家知曉醫(yī)學(xué)生的

上一篇：初中七八九年級英語詞組大全
下一篇：解剖學(xué)和生物學(xué)教育模型制造商3B Scientific公布新品 | 美通社

新聞分類