亚洲欧美日韩精品,亚洲欧美日韩一区,亚洲欧美日韩国产精品一区

醫(yī)療器械臨床試驗(yàn)|從診斷試驗(yàn)角度看AI醫(yī)療器械軟件的臨床評(píng)價(jià)

2020-09-25 15:30
作者：招仲恒
來(lái)源：中國(guó)食品藥品網(wǎng)

　　隨著5G和云計(jì)算技術(shù)的逐步應(yīng)用，深度學(xué)習(xí)輔助決策軟件（以下簡(jiǎn)稱AI軟件）得到越來(lái)越廣泛的應(yīng)用，特別是2020年新冠肺炎疫情暴發(fā)以來(lái)，各大優(yōu)秀的互聯(lián)網(wǎng)企業(yè)相繼開(kāi)發(fā)出輔助閱片的AI軟件，為防疫工作貢獻(xiàn)力量。AI軟件在影像數(shù)據(jù)的輔助評(píng)閱上有很大的應(yīng)用潛力，其處理速度快、病灶識(shí)別靈敏度高，對(duì)閱片經(jīng)驗(yàn)不足的臨床醫(yī)生能起到很好的輔助作用，特別是在面對(duì)重大突發(fā)的公共衛(wèi)生事件時(shí)，AI軟件在影像篩查上具有難以取代的優(yōu)勢(shì)。

　　2019年7月，國(guó)家藥監(jiān)局發(fā)布《深度學(xué)習(xí)輔助決策醫(yī)療器械軟件審評(píng)要點(diǎn)》，并于2020年8月分別批準(zhǔn)了深圳硅基智能科技有限公司及上海鷹瞳醫(yī)療科技有限公司生產(chǎn)的“糖尿病視網(wǎng)膜病變眼底圖像輔助診斷軟件”注冊(cè)，標(biāo)志著我國(guó)對(duì)AI軟件的審評(píng)和監(jiān)管邁出了重要一步。然而，即使新冠疫情的出現(xiàn)使得AI軟件有了一定規(guī)模的探索性應(yīng)用，但具有病灶定位需求的影像輔助決策軟件并未獲批。鑒于最近筆者遇到了大量關(guān)于此類AI軟件的臨床評(píng)價(jià)需求，在此與各位讀者分享一下我們對(duì)AI軟件的臨床評(píng)價(jià)思考，以供同行交流。

　　總體思路

　　根據(jù)《深度學(xué)習(xí)輔助決策醫(yī)療器械軟件審評(píng)要點(diǎn)》的要求，AI軟件應(yīng)提交基于臨床試驗(yàn)的臨床評(píng)價(jià)資料，從臨床試驗(yàn)的角度出發(fā)，AI軟件的臨床試驗(yàn)本質(zhì)上仍然是一個(gè)診斷試驗(yàn)，因此，在試驗(yàn)設(shè)計(jì)上具有傳統(tǒng)診斷試驗(yàn)的相似特征，如上述的AI軟件用于糖尿病視網(wǎng)膜病變的診斷，其主要指標(biāo)均為靈敏度和特異度（具體可參考審評(píng)報(bào)告：CQZ1900653及CQZ1900668），而評(píng)價(jià)結(jié)果為簡(jiǎn)單的二分類變量，即“患病”或“未患病”，試驗(yàn)設(shè)計(jì)特征與傳統(tǒng)診斷試驗(yàn)基本一致。

　　通過(guò)上述例子可知，若AI軟件針對(duì)的疾病不涉及病灶的定位要求（如糖網(wǎng)診斷只需要知道患者是否患病就足夠了），則其臨床試驗(yàn)的設(shè)計(jì)較為簡(jiǎn)單，采用傳統(tǒng)的診斷試驗(yàn)設(shè)計(jì)即可。若AI軟件針對(duì)的疾病具有病灶的定位要求（如CT影像中的肺結(jié)節(jié)的識(shí)別及定位、內(nèi)鏡影像下對(duì)息肉的識(shí)別及定位等），則其臨床試驗(yàn)與傳統(tǒng)的診斷試驗(yàn)設(shè)計(jì)將存在一定的差別，包括靈敏度的定義、ROC曲線的繪制、非完美金標(biāo)準(zhǔn)的校正等等。如何合理地評(píng)價(jià)產(chǎn)品的性能及臨床價(jià)值，是此類產(chǎn)品臨床試驗(yàn)的重點(diǎn)與難點(diǎn)，本文的主題亦是討論如何評(píng)價(jià)此類AI軟件的臨床性能。

　　回顧性臨床試驗(yàn)

　　是否能采用回顧性研究進(jìn)行臨床試驗(yàn)是大部分申請(qǐng)人關(guān)注的重點(diǎn)之一?；仡櫺匝芯渴腔诂F(xiàn)有的評(píng)價(jià)數(shù)據(jù)對(duì)AI軟件的診斷性能進(jìn)行評(píng)價(jià)，這種試驗(yàn)設(shè)計(jì)具有實(shí)施容易、成本低廉、試驗(yàn)時(shí)間短等優(yōu)點(diǎn)，因此，回顧性研究是注冊(cè)申請(qǐng)人最感興趣的研究設(shè)計(jì)方式。

　　根據(jù)《深度學(xué)習(xí)輔助決策醫(yī)療器械軟件審評(píng)要點(diǎn)》的要求，對(duì)于安全級(jí)別為B、A級(jí)的中低風(fēng)險(xiǎn)軟件，回顧性研究可用作臨床預(yù)實(shí)驗(yàn)或替代臨床試驗(yàn)，而安全級(jí)別為C級(jí)的高風(fēng)險(xiǎn)軟件，回顧性研究可作為預(yù)實(shí)驗(yàn)，為臨床試驗(yàn)設(shè)計(jì)提供參考依據(jù)。對(duì)于大部分具有病灶定位要求的AI軟件（如肺結(jié)節(jié)篩查、乳腺癌診斷或結(jié)腸息肉識(shí)別等），其安全級(jí)別多為C級(jí)。因此，產(chǎn)品是否能進(jìn)行回顧性臨床試驗(yàn)應(yīng)優(yōu)先根據(jù)產(chǎn)品的風(fēng)險(xiǎn)級(jí)別進(jìn)行選擇。

　　除法規(guī)上的考量外，在臨床試驗(yàn)的方法學(xué)上，回顧性研究還將存在一些難以避免的嚴(yán)重偏倚，包括測(cè)量偏倚（如回顧性的患者影像并非采用相同或相似的拍攝參數(shù)）、臨床參考標(biāo)準(zhǔn)偏倚（如參考標(biāo)準(zhǔn)依賴患者癥狀、體征、既往手術(shù)史等資料，而這些資料均來(lái)自于臨床病歷記錄，這些記錄在實(shí)際情況中可能是不全面甚至矛盾的）、選擇偏倚（如臨床試驗(yàn)僅選擇了具有金標(biāo)準(zhǔn)診斷（如組織活檢）的患者作為陽(yáng)性病例，而接受了金標(biāo)準(zhǔn)診斷的病例往往是嚴(yán)重且典型的，入選人群的疾病譜與預(yù)期使用人群的疾病譜可能存在巨大的差別等。此外，采用回顧性數(shù)據(jù)還容易存在應(yīng)用場(chǎng)景的潛在偏倚，例如研究者知道本次試驗(yàn)僅是對(duì)患者結(jié)果進(jìn)行重新解釋，而不是對(duì)患者進(jìn)行全新的診斷，其心理負(fù)擔(dān)和責(zé)任意識(shí)不同也將影響其閱片的準(zhǔn)確度。因此，采用回顧性研究必須有嚴(yán)格的偏倚控制措施，如采用第三方獨(dú)立評(píng)價(jià)等。

　　一般來(lái)說(shuō)，由于回顧性研究存在諸多的固有缺陷，AI軟件不推薦采用回顧性研究的方法進(jìn)行臨床評(píng)價(jià)，但回顧性研究在產(chǎn)品性能評(píng)價(jià)以及為臨床試驗(yàn)作參考時(shí)具有重要的價(jià)值。

　　另外，筆者在日常工作中遇到了大量境外申請(qǐng)人的注冊(cè)問(wèn)詢，其尤為關(guān)注是否能采用境外臨床試驗(yàn)數(shù)據(jù)進(jìn)行注冊(cè)申報(bào)，部分境外申請(qǐng)人的臨床試驗(yàn)還包含了大量的亞洲人群數(shù)據(jù)（如韓國(guó)、日本、新加坡等）。關(guān)于這個(gè)問(wèn)題，《深度學(xué)習(xí)輔助決策醫(yī)療器械軟件審評(píng)要點(diǎn)》其實(shí)有明確的說(shuō)明。其中，進(jìn)口軟件的研發(fā)和驗(yàn)證應(yīng)當(dāng)優(yōu)先考慮人種及流行病學(xué)特征，一般來(lái)說(shuō)，臨床影像在人種上的差異可能較小，因此境外申請(qǐng)人應(yīng)優(yōu)先關(guān)注流行病學(xué)的問(wèn)題。這里指的流行病學(xué)包括相關(guān)疾病的流行病特征（如發(fā)病率、不同疾病類型的分布等）、疾病診斷差別（如臨床診斷指南的差異等）、不同國(guó)家、地區(qū)的醫(yī)療水平（如影像設(shè)備的水平差別）等。對(duì)于擬采用境外數(shù)據(jù)進(jìn)行申報(bào)的申請(qǐng)人，在提交境外數(shù)據(jù)之前應(yīng)考慮上述關(guān)于流行病學(xué)差異的問(wèn)題，并在提交前積極與國(guó)家藥監(jiān)局溝通。

　　前瞻性臨床試驗(yàn)

　　上文提到，回顧性臨床研究作為臨床試驗(yàn)資料將存在諸多難以控制的試驗(yàn)偏倚，因此，AI軟件的臨床試驗(yàn)應(yīng)優(yōu)先考慮前瞻性臨床研究，尤其是對(duì)于具有病灶定位能力的AI軟件產(chǎn)品，這些產(chǎn)品的風(fēng)險(xiǎn)級(jí)別往往較高。

　　根據(jù)《深度學(xué)習(xí)輔助決策醫(yī)療器械軟件審評(píng)要點(diǎn)》的要求，AI軟件的臨床試驗(yàn)應(yīng)基于軟件的預(yù)期用途、使用場(chǎng)景和核心功能進(jìn)行試驗(yàn)設(shè)計(jì)。雖然不同的AI軟件針對(duì)的疾病類型各不相同，但其試驗(yàn)設(shè)計(jì)和統(tǒng)計(jì)方法大多是類似的，因此，這里優(yōu)先討論前瞻性臨床試驗(yàn)中的病例選擇問(wèn)題。

　　根據(jù)《深度學(xué)習(xí)輔助決策醫(yī)療器械軟件審評(píng)要點(diǎn)》，入排標(biāo)準(zhǔn)應(yīng)基于目標(biāo)疾病的流行病學(xué)特征，保證陽(yáng)性樣本和陰性樣本選取的合理性和充分性。在實(shí)際入選患者時(shí)，結(jié)合產(chǎn)品的特點(diǎn)可選擇具有特定特征患者的樣本，例如針對(duì)肺結(jié)節(jié)識(shí)別的AI軟件，可選擇需進(jìn)行肺結(jié)節(jié)篩查的高危人群（如年齡40歲以上，年吸煙史＞20包/年，戒煙＜5年等）。

　　采用該方法進(jìn)行病例入選具有很好的樣本代表性，但該方法的入組時(shí)間較長(zhǎng)，耗費(fèi)成本可能較高；另一種比較折中入選病例的方法是有針對(duì)性地入選患者，由研究者根據(jù)患者的體征、癥狀等綜合判斷其是否應(yīng)該接受影像檢查，例如某患者具有發(fā)熱、咳嗽、咳痰等癥狀，當(dāng)研究者懷疑其有肺部疾病時(shí)，可對(duì)將其納入到某AI軟件的臨床試驗(yàn)中。該入選病例的方法較有針對(duì)性，也是診斷試驗(yàn)中比較流行的一種做法，但為進(jìn)一步避免選擇偏倚，在實(shí)施這種入組方法時(shí)應(yīng)在方案中對(duì)每一種疾病類型/嚴(yán)重程度的樣本量比例進(jìn)行規(guī)定。

　　在評(píng)價(jià)指標(biāo)方面，根據(jù)《深度學(xué)習(xí)輔助決策醫(yī)療器械軟件審評(píng)要點(diǎn)》的要求，原則上選擇靈敏度、特異度、ROC/AUC等作為主要評(píng)價(jià)指標(biāo)。對(duì)于針對(duì)病灶定位的AI軟件，其靈敏度應(yīng)在病灶水平上進(jìn)行統(tǒng)計(jì)。當(dāng)臨床試驗(yàn)選擇用戶結(jié)合軟件聯(lián)合決策與用戶單獨(dú)決策進(jìn)行優(yōu)效對(duì)照設(shè)計(jì)時(shí)，可選用ROC/AUC作為主要評(píng)價(jià)指標(biāo)。此時(shí)研究者需要在沒(méi)有AI軟件輔助的時(shí)候單獨(dú)找出影像上的病灶，并對(duì)這些病灶進(jìn)行5級(jí)把握度評(píng)分（肯定不是病灶、可能不是病灶、無(wú)法確定、可能是病灶、肯定是病灶），然后再在有AI軟件輔助的情形下，重新按上述方法進(jìn)行病灶評(píng)價(jià)。需要注意的是，采用此種方法進(jìn)行評(píng)價(jià)時(shí)應(yīng)注意閱片的隨機(jī)順序，以避免研究者的記憶偏倚，如有可能，建議可在兩次閱片之間設(shè)置一定的洗脫期。

　　診斷正確的定義應(yīng)為在正確的位置上識(shí)別出正確的病灶。以閱片數(shù)據(jù)中對(duì)每個(gè)病灶的5級(jí)評(píng)分作為截?cái)嘀?，即可建立相?yīng)的ROC曲線。常見(jiàn)的曲線繪制方法有定位ROC曲線法（LROC）、因變量自由的ROC曲線法（FROC）及感興趣區(qū)域的ROC曲線法（ROI-ROC）等，其中LROC法要求研究者對(duì)圖像上的某處至少一個(gè)病灶進(jìn)行把握度評(píng)級(jí)，然后選出最有可能是病灶的區(qū)域，對(duì)于同一影像中的多個(gè)病灶，多出來(lái)的病灶不多加分。因此，該法比較適用于病灶數(shù)目不超過(guò)1個(gè)的情況。對(duì)于每例患者病灶數(shù)目超過(guò)1個(gè)的情況，可采用FROC進(jìn)行評(píng)價(jià)，此時(shí)，曲線的縱坐標(biāo)為靈敏度（正確定位的病灶比例），橫坐標(biāo)為每一個(gè)個(gè)體的平均假陽(yáng)性數(shù)。AI軟件的診斷準(zhǔn)確度評(píng)價(jià)的另一種方法是ROI-ROC法，這種方法將檢測(cè)區(qū)域分為有臨床意義的ROI，如肺結(jié)節(jié)檢測(cè)時(shí)的五段肺葉，乳腺癌檢測(cè)時(shí)的左右乳房等，然后要求研究者識(shí)別并定位所有的疑似病灶，并對(duì)這些病灶進(jìn)行把握度評(píng)分，然后上述評(píng)分進(jìn)行ROI的映射，若真實(shí)的病灶被判定為“疑似”，則該處得分就是該ROI的得分，若真實(shí)的病灶檢測(cè)出錯(cuò)（包括沒(méi)有病灶的地方被判斷為是病灶以及病灶定位出錯(cuò)），則此時(shí)的ROI得分為最低的把握度。以上述ROI的不同分級(jí)為截?cái)嘀导纯蓸?gòu)建ROC曲線，然后采用3級(jí)或4級(jí)作為截?cái)嘀导纯蓸?gòu)建出相應(yīng)的靈敏度及特異度指標(biāo)，對(duì)AI軟件的診斷性能作出綜合的評(píng)價(jià)。

　　需要注意的是，在上述這些臨床試驗(yàn)中，同一個(gè)患者的多個(gè)病灶檢測(cè)時(shí)存在一定的相關(guān)性，在估計(jì)靈敏度、特異度及ROC曲線時(shí)，應(yīng)對(duì)這種聚類數(shù)據(jù)進(jìn)行統(tǒng)計(jì)校正，以正確評(píng)價(jià)產(chǎn)品的性能。

　　本文對(duì)針對(duì)病灶定位類的AI軟件的臨床試驗(yàn)進(jìn)行了一些解釋及歸納，實(shí)際進(jìn)行這些臨床試驗(yàn)時(shí)，方案中應(yīng)有全面的偏倚控制考慮，包括操作偏倚、評(píng)價(jià)偏倚等。臨床試驗(yàn)結(jié)果的評(píng)價(jià)應(yīng)優(yōu)先采用第三方獨(dú)立評(píng)價(jià)的方式。同時(shí)，在統(tǒng)計(jì)上也應(yīng)對(duì)聚類數(shù)據(jù)、不完美金標(biāo)準(zhǔn)等進(jìn)行數(shù)學(xué)上的校正，以科學(xué)、合理地評(píng)價(jià)產(chǎn)品的臨床性能。（作者單位：廣州奧咨達(dá)醫(yī)療器械技術(shù)股份有限公司）

(責(zé)任編輯：張可欣)

分享至

×

右鍵點(diǎn)擊另存二維碼！

返回首頁(yè)>>