【CONNECT AI to the Future】從量子物理轉戰 AI 醫療,這個清大博士挑戰醫界超高難度領域:病理學影像 AI 分析 | TechOrange 科技報橘
Search
Close this search box.

【CONNECT AI to the Future】從量子物理轉戰 AI 醫療,這個清大博士挑戰醫界超高難度領域:病理學影像 AI 分析

【為什麼我們要挑選這篇文章】在醫療中,病理分析是關鍵的流程,它可以抓出病患的疾病,並提供相對應的治療;然而病理圖像診斷技術需要花數年的時間培養,因此合格的病理醫師短缺,工作量隨之增加;加上顯微畫面對醫師造成視力傷害,讓短缺的情況更嚴重。

中國清大有個博士後研究生正在打造 AI 醫療輔助系統,協助病理醫師做診斷,期望解決醫師短缺問題。這項研究目前進展如何?(責任編輯:郭家宏)

根據 WHO 下屬「國際癌症研究機構」公佈的最新全球癌症數據報告,2018 年全球新增癌症診斷病例約 1910 萬,死亡病例約 960 萬。約 1/5 男性和 1/6 女性會罹患癌症,1/8 男性和 1/11 女性因癌症而死亡。

對於癌症,能夠早發現、早治療,風險就越小。癌症的形態可能千變萬化,其確診的關鍵在於病理診斷。

在醫學界,病理被稱為是腫瘤診斷的「金標準」,病理科的醫生也被稱為「醫生的醫生」,而一位能夠獨立簽發病理報告的病理醫師需要 10 年以上的培養週期。中國目前共有約 1 萬名註冊在案的病理醫師,根據 WHO 的要求,人才缺口為 4 到 9 萬人。培訓週期長、勞動強度大等是阻礙病理科新生力量增長的主要原因。

近日,文摘菌(本文作者)走訪了清華大學交叉信息研究院博士後、透徹影像技術總監王書浩,他告訴我們,「相比於 CT、X 光片這些灰階圖像,病理圖像資訊量更大。」

一張數位 X 光片大約由 2000×2000 個像素組成,一張 CT 大約由 512×512×截面數(大約 100 – 200)個像素組成,這樣的圖像保存後大小仍然在 MB 級別。而數位化的病理影像最高能夠放大 400 倍,文件尺寸高達 120k×200k 量級,體積在 GB 級別。就像看起來平凡無奇的電子地圖可以高倍放大到看清街道細節一樣,醫生能夠觀察到組織的細胞形態甚至是細胞核形態。與此同時,病理文件的建模和分析也面臨著諸多挑戰,這些挑戰需要從人工智慧和工程層面去應對。

病理醫師短缺造成工作量極大,增加視力傷害與誤判風險

一位醫生經過十年的培養才能獨立簽發病理報告,有人說,把中國病理醫生的缺口堵上要花上超過 100 年時間,這造成現在病理醫生診斷量非常大,病理醫生工作繁重。

為了儘量減少誤診,美國要求病理醫生一天的閲片量不得超過 80 張,但是因為人才短缺,中國的病理醫生平均一天要看 100 到 200 張切片,而像中國人民解放軍總醫院(301 醫院)這樣的大型醫院,一天要看的病理切片的數量在 300 到 400 張。

因為病理切片需要放在高倍顯微鏡下觀察,顯微鏡的強光對醫生眼睛的損害很大。現在很多醫院都配備有數位掃瞄儀,這樣不僅可以將切片數位化後通過顯示器完成診斷,而且能夠使用 AI 進行分析。隨著 AI 技術的發展,用 AI 來輔助病理醫師對樣本進行診斷能夠大幅彌補病理醫生的空缺。不僅能夠大幅提高醫師的診斷效率,而且可以減少漏診,提高診斷準確率。

AI 病理輔助診斷系統,提升診斷效率並降低誤診

從理論上講,在一個定義非常明確的問題上,演算法可以做到比一般醫生更準確,可以無限接近資深醫生的水準。在實際應用中,AI 病理輔助診斷系統在落地之前,需要解決的問題遠比想像中要多。

數據採集

一般情況下,演算法模型都是從數據採集開始,然後搭建並訓練模型,最後在應用場景落地。這其中,數據採集對於多數新創公司而言都是一大難題,尤其是醫療行業,涉及到數據多樣性、標註準確率、倫理等諸多方面。

在創業初期,透徹影像推出了一款專門為醫生設計的標註系統 ThoroughWisdom。醫生使用 iPad 和 Apple Pencil 大致圈出病變區域,透徹影像的演算法就會自動勾勒出病變範圍。

訓練模型

數據採集完畢後,就是對模型進行訓練。病理影像的一個難點就是圖像比較大,現有 GPU 無法單次完成整張病理影像的分析學習,所以需要先對圖像進行切分。透徹影像在清華大學部署了一套基於 TensorFlow 的訓練集群。在訓練模型時,有一個非常重要的步驟是進行數據增強,以往數據增強主要是用於數據量不足的情況,但在病理模型的訓練過程中,數據增強是為了人為增加擾動,模擬不同醫院製片情況的不同。因為病理領域尚無統一的製片標準,每個醫院製片過程不同,切片形態也不同,顏色有深有淺,有的偏紅有的偏紫。訓練之後,模型可以識別來自不同醫院的不同切片。

為了提高模型識別的準確度,需要不斷調整訓練數據,王書浩博士提到,「之前模型對於高分化腺癌的識別率較低,是因為數據庫中相關的數據相對較少。通過增加高分化腺癌的學習數據,可以在一定程度上提高輔助系統的準確率。當模型接近成熟時,還會加入疑難雜症的病理數據供模型學習。」

模型落地

透徹影像基於訓練完成的模型,研發分佈式病理輔助診斷系統 ThoroughInsights。該系統可以基於演算法模型自動圈出病變區域,並給出病變機率分佈與癌占比等資訊,病理醫生可以以此為依據進行針對性的檢查,從而提升診斷效率。

總結來說,AI 病理輔助診斷系統可以在三方面對醫生進行協助。首先是防止漏診、提高診斷效率;其次由於 AI「閲片無數」,其診斷結果比醫生更加客觀。王書浩博士介紹,「有時,301 的醫生無法達成一致意見時,會提出用 AI 來看一下」。第三就是改變病理醫生的工作模式:從低頭看顯微鏡到抬頭看顯示器,減少了顯微鏡強光對醫生眼睛的損害。

AI 輔助醫療系統目前無法取代醫師,只能協助醫師診斷

在採訪前兩週,透徹影像聯合 301 醫院的 15 名一線醫生進行了一場人機協同病理診斷測試,測試用的切片來自 301 病理科副主任宋志剛挑選的 100 張有一定診斷難度的胃部病理切片。15 名醫生分為三組——顯微鏡組(採用傳統的顯微鏡閲片方式)、數位組(透過數位切片進行診斷)、AI 組(利用透徹影像開發的 AI 輔助系統進行診斷)。從準確率來看,相同時間下,AI組>顯微鏡組>數位組。以往文獻認為數位切片比傳統切片更易於查看,實驗結果與這一結論相悖。宋志剛主任推測,其原因在於醫生對於用電腦閲片不夠熟練,所以觀察數位切片反而不如用顯微鏡觀察得心應手。

據 301 醫院宋志剛主任介紹,病理醫生一天診斷的切片中只有 20% 是疑難切片,但篩選出這 20% 的疑難切片往往要占用病理醫生 80% 的工作時間。醫生們希望將病理樣本初篩的工作交給 AI 處理,以節省病理醫生的工作時間。從這個思路出發,他們選擇從胃腸部疾病診斷入手,構建出一個可以進行胃腸病理樣本初篩的 AI 輔助診斷模型。

「一開始覺得這件事情挺容易的,後面真正做起來發現困難很多」,當問到 AI 病理輔助系統的效果時,宋志剛主任說,「我們現在還沒有用它完全取代醫生的病理診斷,而是把它當作輔助初篩、防止漏診的工具。現在這套 AI 輔助醫療系統的敏感性沒有問題,惡性的癌都能識別。當然,還存在一定的優化空間,例如會出現假陽性的情況。」

現在系統的敏感度達到 100%,特異性為 86%,這意味著在保證不漏診的前提下,每一萬份陰性病例中有約 1400 份可能會被識別為陽性,而這些假陽性的原因各不相同,需要病理醫生對它們進行更加深入的診斷。持續提升模型的特異性,是透徹影像未來重要的研發方向。

從量子物理轉到 AI 醫療,運用科技推動數位醫療發展

2012 年,本科大四階段的王書浩被免試推薦到清華大學物理系攻讀博士學位,研究方向是量子資訊。

2014 年三月底,在家休假的他鼓起勇氣,給清華大學交叉資訊研究院的徐葳教授寫了一封信:

「尊敬的徐老師您好,我是清華大學物理系 2012 級的直博生王書浩,研究方向是量子資訊,希望您不嫌棄我的非電腦專業背景,能跟我聊一下。

雖然身為物理系的學生,但是我被 IT 領域所湧現出的新進展而震撼,並為這些新的技術而感到興奮。……我非常希望能夠加入到資訊技術發展中的熱潮中去(尤其是大數據)。這一點,我的導師龍老師也是非常支持的。

相對於電腦專業的學生,我的基礎肯定會讓您失望。不過,我有一顆勇於突破自我的心,而且,至少在科研中,我能夠用文章證明我不甘於平庸。我還有三年多的時間在清華度過,想把自己的青春奉獻到自己感到興奮的事業中去。

希望能收到您的回覆。」

讓他沒有想到的是,徐老師很快給出了回覆。於是,他們在 2014 年愚人節的晚上,非常愉快地聊了兩個多鐘頭。

「現在回想起來,那時的我真的是年少輕狂。直到今天,當我每次翻開那封郵件,都會百感交集,」對於王書浩博士而言,「那時的勇氣,造就了我的今天。」

從第一次去到清華的地下數據中心,王書浩便開始了不斷學習,和同學一起採集、分析、運行數據,同時用機器學習進行建模。

開始總是辛苦的。一方面,由於非科班出身,很多東西要從頭學起,且合作的同學都是「姚班」(清華學堂計算機科學實驗班,集結全中國電腦科學人才的專班)的學生,天資遠超於常人,王書浩要非常努力才能跟上他們的節奏;另一方面,因為他還在物理系進行量子資訊的研究,帶著一個幾號人的小團隊。「那時我經常與別人開玩笑說自己是重度精神分裂症患者,上午 Quantum,下午 System,晚上又變成了 Quantum。」

當他慢慢開始聽得懂交叉資訊的組會,數據中心建模的研究也開始取得進展。同時,他還聯合不同院系的同學成立了一個跨學科的研究組織:一個名為 Quantum Computer Club 的興趣團體,讓物理系的、數學系的、自動化系的學生一起去思考與討論未來量子計算的可能用途。

第一份實習 offer 來自百度系統部智能數據中心團隊,在那裡王書浩開始看到了產業界是如何把教材知識變成生產力的。或許是受到物理學習的影響,王書浩「總想把書本上的東西,透過一個項目或者發明實現出來,這個可以實際地幫助解決社會問題,也能反過來促進一些理論理解,因為實踐出來的就是真實可信的。」

讀博期間,王書浩依舊是少數派。通常博士生在實驗室裡做專案居多,而王書浩則是在各大公司實習。面對京東的雙 offer,王書浩還是想做更有意義的事情,想用人工智慧推動醫療的發展,「醫療這件事是沒有原罪,並對社會有益的……每天的努力都會創造社會價值。」

在和徐老師交流後,王書浩博士回到清華做博士後開始「人工智慧醫療」的研究課題。就人工智能醫療的市場而言,醫療影像、藥物挖掘、輔助診斷以及健康管理等各大方向已有人涉足,而病理卻是一片藍海,於是便以透徹影像(北京)科技有限公司技術總監的身份開始創業。

現在,理科出身的王書浩博士已經能夠和病理醫生順暢溝通,而在最初,他也是一個病理新手。用他的話來說,「病理醫生是最願意教也最願意學的一群人,他們願意手把手地教我這個新人,也願意從我這裡瞭解人工智慧,病理科的醫生們現在講起 AI,比我講得還要生動。」

「未來的病理科應該是全數位化的」,這是王書浩的憧憬,「除了診斷,之前的製片、染色等過程也都可以透過機器自動化。」

透徹影像從 logo 到公司宣傳都有相同的淺紫色主色調——這是病理切片製片時所用的 HE 染色劑的顏色。王書浩說,「我們正在繪製一張未來病理的藍圖」。他從來不怕開始進展慢,「因為有句話叫做萬事起頭難」,「還有另外一句話是好事多磨」。

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為〈从量子物理到AI医疗,这位清华博士后想用十年弥补病理医生的”百年缺口”〉。首圖來源:大數據文摘

更多關於 AI 的消息

機器學習演算法的三大陷阱:人類看不到,但 AI 看得一清二楚的「隱藏變數」
【AI 電話詐騙】駭客用 AI 模擬 CEO 的聲音,成功騙取公司 770 萬台幣!
採用比 AlphaGo 更複雜的演算法,日本麻將 AI 在四個月內電爆人類玩家!