
做過藥品注冊申報的人都知道,這活兒真的不是一般的磨人。我有個朋友在藥企注冊部上班,有次跟我吐槽說她最怕的就是收到翻譯公司發回來的資料,里面密密麻麻的圖片文字需要重新核對,有時候眼睛都快看瞎了。這讓我想起自己剛入行那會兒,也曾經為這事兒頭疼不已。
今天想跟大伙兒聊聊藥品申報資料翻譯過程中圖片文字提取這個環節。說它小吧,它確實不像臨床數據那么核心;說它不重要吧,它又能直接影響申報資料的完整性和合規性。這東西就像做飯時的那撮鹽,看起來不起眼,沒有還真不行。
咱們先明確一下概念。圖片文字提取,簡單說就是把圖片里的文字信息識別出來并轉化成可編輯的文本。這個技術在咱們的日常手機拍照識字、文檔掃描里都能見到,但用在藥品申報資料翻譯上,那就是另一回事兒了。
你可能會問,藥品申報資料不都是文字嗎?怎么還會有圖片里的文字?這里面的門道可多了。藥品申報資料里有相當一部分內容是來自藥品說明書、上市許可證明文件、檢驗報告、外包裝圖樣這些原始材料。這些東西原本就不是純文字格式,里面包含大量的表格結構、產品實拍圖、簽名蓋章這些非純文本元素。
舉個例子,某個進口藥品的原始申報資料里,藥品說明書可能是PDF格式的,里面既有文字描述,也有表格,還有產品照片和條碼。這些內容在翻譯的時候,普通的文字復制粘貼根本行不通,必須先把圖片里的文字提取出來,才能進行后續的翻譯工作。
說實話,這事兒擱誰身上都頭疼。我總結了幾個主要原因,大伙兒看看是不是這么回事兒。

首先是格式太雜亂了。不同國家、不同廠家提供的申報資料格式五花八門。有的是掃描件,有的是拍照件,有的是設計稿轉出來的,清晰度參差不齊。有時候收到一份資料,前面幾頁清晰得能數清毛孔,后面幾頁模糊得像打了馬賽克,這種情況下提取文字簡直就是噩夢。
其次是專業術語的坑。藥品申報資料里的術語可不是鬧著玩兒的,什么"活性藥物成分"、"非臨床研究"、"生物利用度"……這些詞兒要是識別錯了,翻譯出來的東西可能就驢唇不對馬嘴。普通的OCR識別軟件遇到這些專業詞匯,經常會鬧笑話。
還有就是版式結構的保留問題。藥品申報資料的表格結構特別講究,哪些信息放在哪一列、哪一行,都有嚴格要求。如果提取的時候把表格結構打亂了,后期整理的工作量比重新做一遍少不了多少。
在技術不那么發達的年代,這活兒基本上都是人工一個字一個字敲出來的。我聽老一輩的注冊人員說過,早年做國際申報的時候,光是整理一張藥品說明書的內容,兩個人輪班倒,得花上好幾天功夫。
人工錄入的好處是準確,畢竟人眼能判斷、腦子能糾錯。但缺點也很明顯:效率低、成本高、還容易出錯。一個人連續看幾個小時電腦,眼睛花了、手滑了,稍不留神就把"α"看成了"a",把"Ⅲ"看成了"III"。這種小錯誤在申報資料里有時候會造成大麻煩。
而且人工錄入還有一個問題,就是一致性。同一個人在不同時間段錄入同一份資料,可能會因為狀態不同而產生微小的差異。如果是好幾個人分工錄入,那差異就更明顯了。這種不一致在后續的審核環節又得花時間統一,說實話挺浪費人力的。
后來有了OCR技術,也就是光學字符識別,這東西算是幫了大忙。簡單說,OCR就是用計算機自動識別圖片里的文字,把它們轉化成可以編輯的文本。

早期的OCR技術還挺傻的,只能識別印刷體,遇到手寫體或者特殊符號就歇菜。但這幾年技術進步太快了,現在好的OCR引擎識別率能達到95%以上,有些專門針對醫療文檔優化的版本準確率更高。
不過呢,OCR技術也不是萬能的。我在實際工作中發現,它在藥品申報資料處理這塊兒還是有一些局限性的。
藥品申報資料里有很多跨行跨列的復雜表格,這種結構OCR識別起來經常出錯。有時候會把兩行內容合并成一行,有時候又會莫名其妙地把一個單元格拆成兩個。識別完成后,還得人工核對和修正,這一步省不了。
申報資料里經常有手寫的簽名、批注,還有各種公章紅章。這部分內容現在的OCR技術處理起來還比較吃力,大部分情況下還是需要人工補充確認。
就拿"羥"這個字來說,普通OCR有時候會把它識別成"烴"或者"氧",一個字之差意思就全變了。還有一些特殊的藥品名稱,翻譯時需要保持原文的大小寫、連字符等格式,自動化工具不一定能準確把握。
我跟幾個在藥品注冊領域摸爬滾打多年的朋友聊過這個話題,他們普遍的共識是:純靠人工不行,純靠機器也不行,最好是機器加人工的結合模式。
具體來說,就是先用OCR技術把能識別的內容快速提取出來,然后由專業人員進行檢查和修正。這種模式既提高了效率,又保證了質量。當然,這里說的專業人員得是既懂翻譯、又懂藥品專業知識的復合型人才,不是隨便找個人就能干的。
為了讓大伙兒更直觀地理解,我列幾個常見的應用場景:
根據我自己的經驗,有幾個小建議可以分享給大伙兒:
第一,在資料預處理階段就做好分類。把純文字頁和圖片頁分開處理,這樣能提高后續的工作效率。有些公司會專門做個清單,標明哪些頁面需要特殊處理,哪些可以直接用普通方式翻譯。
第二,建立專業術語庫。藥品行業的專業術語相對固定,如果能提前建立好術語庫,在文字提取和翻譯環節都能用上,能大大減少重復勞動,也能保證一致性。
第三,質量控制要貫穿全程。別等到最后才檢查,在提取、翻譯、審校每個環節都設置質量關卡,小問題及時發現及時解決,比最后返工強多了。
嘮了這么多,其實就想說一件事兒:藥品申報資料翻譯中的圖片文字提取,確實是個費時費力的活兒,但它也是整個申報流程中不可或缺的一環。正因為它不起眼,才更要注意細節,一個小疏忽可能就會影響申報的進度。
我認識的一些同行,包括康茂峰的專業團隊,他們在處理這類問題時都會特別上心。從前期的資料評估,到技術手段的選用,再到人工復核的環節,每一步都力求穩妥。畢竟藥品申報不是兒戲,資料準確了,評審才能順利。
如果你也正在為這事兒發愁,不妨多跟有經驗的同行交流交流。有時候別人的一個辦法,就能讓你少走不少彎路。這個行業就是這樣,很多經驗都是慢慢積累出來的,急不來。
