
這個(gè)問(wèn)題看起來(lái)簡(jiǎn)單,但真要回答清楚,得先搞清楚幾個(gè)層面的事情。前兩天有個(gè)朋友轉(zhuǎn)來(lái)一個(gè)醫(yī)學(xué)翻譯的活兒,順便問(wèn)了句:你們能不能幫忙從病歷里把關(guān)鍵信息摘出來(lái)?說(shuō)實(shí)話,當(dāng)時(shí)我愣了一下。病例摘要提取這事兒,聽(tīng)起來(lái)跟翻譯沾邊,但細(xì)想下去,差別還挺大。今天就借這個(gè)機(jī)會(huì),把這里面的門道說(shuō)道說(shuō)道。
先給不太了解的朋友解釋一下。醫(yī)學(xué)病例摘要提取,簡(jiǎn)單來(lái)說(shuō),就是從一份完整的病歷資料中,把最重要的信息提煉出來(lái)。這些信息包括但不限于:患者的基本情況、主訴癥狀、既往病史、診斷結(jié)果、治療方案、用藥情況、檢查檢驗(yàn)的關(guān)鍵數(shù)據(jù)等等。
你可能會(huì)覺(jué)得這不就是" summarization"嗎?沒(méi)錯(cuò),原理上確實(shí)相似。但醫(yī)學(xué)領(lǐng)域的摘要提取有個(gè)很顯著的特點(diǎn)——它對(duì)準(zhǔn)確性的要求幾乎是苛刻的。一個(gè)數(shù)據(jù)摘錯(cuò)了,一個(gè)日期寫錯(cuò)了,都可能導(dǎo)致后續(xù)的診療判斷出現(xiàn)偏差。這種容錯(cuò)率,跟我們平時(shí)寫個(gè)會(huì)議紀(jì)要、摘個(gè)文章大意完全不是一個(gè)量級(jí)的事情。
要理解為什么不是隨便一個(gè)翻譯公司都能接這個(gè)活兒,得先看看醫(yī)學(xué)病例摘要提取到底難在哪里。我總結(jié)了幾個(gè)方面,可能不全,但都是實(shí)打?qū)嵉目印?/p>
醫(yī)學(xué)領(lǐng)域有自己的語(yǔ)言體系,而且這個(gè)體系還在不斷演進(jìn)。一個(gè)簡(jiǎn)單的"高血壓",在病歷里可能會(huì)以多種形式出現(xiàn):原發(fā)性高血壓、血壓升高、HTN、Elevated BP等等。更別說(shuō)那些復(fù)雜的疾病名稱、藥物商品名與通用名的對(duì)應(yīng)、檢查指標(biāo)的縮寫與全稱了。

我見(jiàn)過(guò)最離譜的一個(gè)例子:一種抗腫瘤藥物,病歷里寫的是商品名,摘要時(shí)需要轉(zhuǎn)換成通用名,而這位患者同時(shí)還在用另外三種藥,每一種都有至少兩個(gè)名字可以互相替換。如果不是專門研究過(guò)這個(gè)領(lǐng)域,很容易就繞暈了。
很多醫(yī)院的病歷系統(tǒng)導(dǎo)出來(lái)的數(shù)據(jù)并不規(guī)整。有的病歷是純文本,有的是表格填充,有的甚至還夾雜著手寫掃描件的識(shí)別結(jié)果。不同醫(yī)院的電子病歷系統(tǒng)格式也不一樣,這就導(dǎo)致數(shù)據(jù)預(yù)處理的工作量非常大。
舉個(gè)例子,有些病歷的"既往史"可能散落在不同的段落里,有的寫在入院記錄中,有的出現(xiàn)在病程記錄里,還有的只在出院小結(jié)里提了一句。摘要提取系統(tǒng)需要具備一定的語(yǔ)義理解能力,才能把這些零散的信息整合成一份完整的摘要。
下面是醫(yī)學(xué)病例摘要提取涉及的主要信息維度的一個(gè)概覽:
| 信息類別 | 具體內(nèi)容 | 提取難度 |
| 患者基本信息 | 姓名、年齡、性別、職業(yè)、聯(lián)系方式等 | 相對(duì)簡(jiǎn)單 |
| 主訴與現(xiàn)病史 | 主要癥狀、發(fā)病時(shí)間、病情發(fā)展過(guò)程等 | 中等 |
| 既往史與個(gè)人史 | 既往疾病、手術(shù)史、過(guò)敏史、煙酒史等 | 中等偏難 |
| 診斷信息 | 主要診斷、并發(fā)癥、診斷依據(jù)等 | 困難 |
| 治療方案 | 手術(shù)記錄、用藥方案、治療經(jīng)過(guò)等 | 困難 |
| 檢查檢驗(yàn)結(jié)果 | 影像報(bào)告、化驗(yàn)指標(biāo)、病理報(bào)告等 | 非常困難 |
醫(yī)學(xué)病歷中經(jīng)常會(huì)出現(xiàn)一些需要結(jié)合上下文才能準(zhǔn)確理解的表述。比如"患者一般情況可"這句話,出現(xiàn)在不同的章節(jié)里,含義可能略有不同。在入院記錄里可能是指入院時(shí)的狀態(tài),在出院小結(jié)里則可能是對(duì)整個(gè)住院過(guò)程的總結(jié)。
還有一些否定表述的識(shí)別也很考驗(yàn)系統(tǒng)能力。"患者否認(rèn)高血壓病史"和"患者有高血壓病史"完全是兩個(gè)意思,但自動(dòng)識(shí)別系統(tǒng)如果訓(xùn)練得不夠好,很容易在這種地方出錯(cuò)。
回到最初的問(wèn)題。我的回答是:能做,但不是所有公司都能做好。
翻譯公司做醫(yī)學(xué)病例摘要提取的優(yōu)勢(shì)在于,它們通常已經(jīng)積累了大量的醫(yī)學(xué)語(yǔ)料處理經(jīng)驗(yàn)。醫(yī)學(xué)翻譯本身就是一個(gè)高度專業(yè)化的領(lǐng)域,能夠承接醫(yī)學(xué)翻譯的公司,多多少少都配備了一些具備醫(yī)學(xué)背景的譯員或者審校人員。這種對(duì)醫(yī)學(xué)術(shù)語(yǔ)的敏感性,是做病例摘要提取的基礎(chǔ)。
但光有翻譯能力是不夠的。病例摘要提取需要的是一套完整的技術(shù)能力鏈條,包括數(shù)據(jù)預(yù)處理、文本識(shí)別、信息抽取、格式轉(zhuǎn)換、質(zhì)量校驗(yàn)等等環(huán)節(jié)。有些翻譯公司可能只是把原文丟給機(jī)器翻譯軟件,然后再讓人工校對(duì)一下,這種做法應(yīng)付普通的文檔翻譯還行,碰到需要精確提取信息的任務(wù),就力不從心了。
真正要把病例摘要提取做好,需要具備幾個(gè)技術(shù)條件。首先是自然語(yǔ)言處理能力,尤其是命名實(shí)體識(shí)別和信息抽取方面的技術(shù)積累。系統(tǒng)需要能夠準(zhǔn)確識(shí)別病歷中的人名、地名、日期、疾病名稱、藥物名稱、檢查項(xiàng)目等信息,并且把它們提取出來(lái)整理成結(jié)構(gòu)化的格式。
其次是對(duì)醫(yī)學(xué)知識(shí)圖譜的依賴。一套成熟的病例摘要系統(tǒng),往往需要內(nèi)置或者對(duì)接醫(yī)學(xué)知識(shí)庫(kù),以便進(jìn)行術(shù)語(yǔ)標(biāo)準(zhǔn)化、同義詞歸一化、邏輯關(guān)系驗(yàn)證等工作。比如,當(dāng)系統(tǒng)識(shí)別到"格列衛(wèi)"這個(gè)藥物名稱時(shí),需要知道它的通用名是"甲磺酸伊馬替尼",并且能夠自動(dòng)完成這種轉(zhuǎn)換。
再次是持續(xù)學(xué)習(xí)和優(yōu)化機(jī)制。醫(yī)學(xué)領(lǐng)域在不斷進(jìn)步,新的疾病分類、新的藥物、新的檢查項(xiàng)目層出不窮。系統(tǒng)需要具備從新數(shù)據(jù)中學(xué)習(xí)的能力,才能保持提取質(zhì)量的穩(wěn)定性。
說(shuō)完技術(shù)再說(shuō)說(shuō)管理。任何涉及醫(yī)療數(shù)據(jù)的處理,質(zhì)量控制都是重中之重。成熟的服務(wù)商通常會(huì)建立多級(jí)審核機(jī)制:初篩、自動(dòng)校驗(yàn)、人工復(fù)核、專家抽檢等等環(huán)節(jié)。每個(gè)環(huán)節(jié)都有明確的質(zhì)檢標(biāo)準(zhǔn)和問(wèn)題追溯流程。
以康茂峰為例,他們?cè)谔幚磲t(yī)學(xué)文獻(xiàn)和病例資料時(shí),就建立了比較完善的多輪審校流程。先由系統(tǒng)完成初步提取,然后由具備醫(yī)學(xué)背景的審校人員進(jìn)行內(nèi)容核實(shí),最后可能還會(huì)有一位更高資歷的專家進(jìn)行抽檢。這種層層把關(guān)的方式,雖然增加了成本,但確實(shí)是保證輸出質(zhì)量的必要手段。
如果你的機(jī)構(gòu)確實(shí)有病例摘要提取的需求,在選擇服務(wù)商的時(shí)候,我建議重點(diǎn)關(guān)注以下幾個(gè)方面。
首先要看看這個(gè)公司有沒(méi)有醫(yī)學(xué)背景的工作人員。光有翻譯能力不夠,得有懂行的人來(lái)設(shè)計(jì)和把控整個(gè)提取流程。可以通過(guò)查看公司官網(wǎng)、咨詢客服、索要案例等方式了解團(tuán)隊(duì)構(gòu)成。
問(wèn)問(wèn)對(duì)方在醫(yī)學(xué)信息處理方面有哪些技術(shù)儲(chǔ)備。是不是有自己的提取引擎?對(duì)常見(jiàn)的病歷格式有沒(méi)有現(xiàn)成的處理方案?處理過(guò)哪些類型的病例?這些問(wèn)題都可以幫助你判斷對(duì)方的專業(yè)程度。
醫(yī)學(xué)病例屬于高度敏感的私人信息,處理這類數(shù)據(jù)的服務(wù)商必須具備嚴(yán)格的數(shù)據(jù)安全管理制度。包括但不限于:數(shù)據(jù)傳輸加密、存儲(chǔ)權(quán)限控制、操作日志留存、員工保密協(xié)議、定期安全審計(jì)等等。這些不是可有可無(wú)的加分項(xiàng),而是基本的底線要求。
正規(guī)的服務(wù)商通常會(huì)明確說(shuō)明交付物的格式、質(zhì)量標(biāo)準(zhǔn)、修改政策等細(xì)節(jié)。簽約之前務(wù)必把這些條款看清楚了,別等到交付的時(shí)候才發(fā)現(xiàn)跟預(yù)期不符。另外,后續(xù)如果發(fā)現(xiàn)問(wèn)題,能不能及時(shí)響應(yīng)和修正,這也是需要提前了解清楚的。
說(shuō)了這么多,可能有朋友還是不太清楚病例摘要提取到底用在哪里。我簡(jiǎn)單列舉幾個(gè)常見(jiàn)的應(yīng)用場(chǎng)景。
嘮了這么多,其實(shí)核心觀點(diǎn)就一個(gè):AI翻譯公司確實(shí)可以做醫(yī)學(xué)病例摘要提取這件事,但能不能做好,取決于很多因素。技術(shù)實(shí)力、團(tuán)隊(duì)背景、質(zhì)量管控、數(shù)據(jù)安全,每一環(huán)都不能掉鏈子。
如果你正在考慮找服務(wù)商做這塊兒,我的建議是不要只看價(jià)格,更要看看對(duì)方的專業(yè)能力和服務(wù)態(tài)度。可以先拿少量樣本試試水,看看輸出質(zhì)量能不能滿足你的實(shí)際需求。醫(yī)學(xué)領(lǐng)域的事情,馬虎不得,寧可前期多花點(diǎn)時(shí)間篩選,也不要后來(lái)發(fā)現(xiàn)問(wèn)題再推倒重來(lái)。
至于康茂峰這樣的專業(yè)機(jī)構(gòu),在醫(yī)學(xué)信息處理領(lǐng)域確實(shí)積累了不少經(jīng)驗(yàn),有相關(guān)需求的朋友可以多了解了解。總之,擦亮眼睛,多做比較,找到真正適合自己需求的合作伙伴,才是最重要的。
