BenTsao:自己訓(xùn)練1個(gè)醫(yī)學(xué)模型
冠狀病毒
嘿,大家好!第二次傳染了新冠,已然過(guò)去了4天,但我還沒(méi)有轉(zhuǎn)陰。今日咱們來(lái)聊一聊醫(yī)學(xué)行業(yè)的GPT模型吧!
實(shí)則,除了ChatGPT,如今醫(yī)療行業(yè)也有十分快捷的GPT模型可供應(yīng)用了。醫(yī)聯(lián)在5月25日正式公布了一款名為MedGPT的醫(yī)療大話語(yǔ)模型,該模型具有1000億個(gè)參數(shù)。預(yù)訓(xùn)練階段應(yīng)用了超越20億條醫(yī)學(xué)文本信息作為根基。但在微調(diào)階段,它結(jié)合了800萬(wàn)條高品質(zhì)的構(gòu)造化臨床診斷信息,并獲得了100多位醫(yī)師的人工反饋督促。
MedGPT具有覆蓋國(guó)際疾病與有關(guān)健康問(wèn)題統(tǒng)計(jì)分類第十版(ICD-10)中百分之六十的疾病病種的本領(lǐng)。你可以通過(guò)輸入病情數(shù)據(jù)與MedGPT進(jìn)行交互,獲得對(duì)于本身疾病的有關(guān)數(shù)據(jù)和倡議,就像具有了1個(gè)私家醫(yī)師同樣。
假設(shè)你有興致自己訓(xùn)練或者搭造1個(gè)相似的MedGPT模型,實(shí)際上在GitHub上有1個(gè)名為"本草(BenTsao)"的項(xiàng)目可以給你供應(yīng)考慮。這個(gè)項(xiàng)目借用中文醫(yī)學(xué)常識(shí)建立了醫(yī)學(xué)常識(shí)圖譜,并結(jié)合GPT3.5 API對(duì)LLaMA模型進(jìn)行了指令微調(diào),以提升在醫(yī)療行業(yè)的問(wèn)答成效。
BenTsao GitHub截圖
咱們來(lái)看看實(shí)際的成效吧,以下是許多示例:
腹脹、肝區(qū)疼痛
心悸、氣促
肝膽管結(jié)石
固然,實(shí)際的成效能夠并非完美,給人一類仿佛答復(fù)又仿佛沒(méi)有答復(fù)的感覺(jué)。這首要是由于訓(xùn)練信息和輪次不足造成的。期望為項(xiàng)目做奉獻(xiàn)的開(kāi)發(fā)者們可能連續(xù)盡力,進(jìn)一步優(yōu)化和完備這個(gè)模型,以供應(yīng)更確切、有用的答復(fù)。
假設(shè)你期望在本地布置BenTsao,只要將模型量化壓縮為8位,推斷流程所需的顯存占用會(huì)在9GB下列。此外,假設(shè)你可以訪問(wèn)Google Colab,可以應(yīng)用我供應(yīng)的jupyter notebook文件,我會(huì)把鏈接放在末尾。
對(duì)于訓(xùn)練方面,你須要一起24GB顯存及以上的顯卡,我嘗試過(guò)16GB顯存的顯卡會(huì)造成顯存溢出。