[發明專利]面向微創醫療領域文本摘要生成方法及裝置在審
| 申請號: | 201711148374.8 | 申請日: | 2017-11-17 |
| 公開(公告)號: | CN107832300A | 公開(公告)日: | 2018-03-23 |
| 發明(設計)人: | 孫曉;曹馨月;丁帥;楊善林;傅強;張林 | 申請(專利權)人: | 合肥工業大學;合肥德銘電子有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30;G16H10/60 |
| 代理公司: | 北京路浩知識產權代理有限公司11002 | 代理人: | 王瑩,余罡 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 醫療 領域 文本 摘要 生成 方法 裝置 | ||
技術領域
本發明涉及軟件技術領域,具體涉及一種面向微創醫療領域文本摘要生成方法及裝置。
背景技術
現有的摘要生成方法主要有兩種,一種是抽取式:從文檔中抽取已有句子形成摘要,實現方法簡單可保證句子的可讀性。這種問題一般可看作是組合優化的問題,可與語句壓縮一并進行;而另一種方法則是生成式:即生成新的句子,這種方法難度更大,但往往更接近于摘要的本質。
現有的生成式摘要生成技術大致有三類:一、基于形式化語義表示,從文本到語義圖,進行子圖選擇,最后生成摘要;二、基于短語選擇與拼湊,將文本分詞成若干詞語,進行重要性計算后利用ILP方法進行短語選擇和拼湊生成摘要;三、基于深度學習之序列轉換模型,利用編碼器-解碼器框架,將詞序列解碼成帶有標簽的詞序列,從而生成摘要。
然而,在實施本發明實施例的過程中發明人發現,現有的生成式摘要方法無法將待生成摘要的文本的信息收集全面,且生成摘要的靈活性差,易出現重復同一詞句的問題。
發明內容
本發明實施例的目的在于提供一種面向微創醫療領域文本摘要生成方法及裝置。
第一方面,本發明實施例提供了一種面向微創醫療領域文本摘要生成方法,包括:
將病歷文本通過預設的模型進行向量轉換,得到所述文本的語義向量和語序向量,將所述語義向量以及所述語序向量進行求和平均運算,得到第一向量;
將所述第一向量輸入到編碼器中進行去重簡化處理,得到包含語義和語序的特征向量X;
將所述特征向量X輸入到解碼器中,根據特征向量X的每一個元素xi對應生成初始摘要向量Y中的各個元素yi,其中每一個元素yi+1均是根據元素yi以及元素xi所對應的正常概率hi來確定的;
將生成的初始摘要向量Y與預設的標準摘要集中的人工摘要向量Z進行比較,并在比較結果通過時將所述初始摘要向量Y作為所述病歷文本的摘要進行輸出。
第二方面,本發明實施例又提供了一種面向微創醫療領域文本摘要生成裝置,包括:
預處理單元,用于將病歷文本通過預設的模型進行向量轉換,得到所述文本的語義向量和語序向量,將所述語義向量以及所述語序向量進行求和平均運算,得到第一向量;
特征提取單元,用于將所述第一向量輸入到編碼器中進行去重簡化處理,得到包含語義和語序的特征向量X;
摘要生成單元,用于將所述特征向量X輸入到解碼器中,根據特征向量X的每一個元素xi對應生成初始摘要向量Y中的各個元素yi,其中每一個元素yi+1均是根據元素yi以及元素xi所對應的正常概率hi來確定的;
摘要測評單元,用于將生成的初始摘要向量Y與預設的標準摘要集中的人工摘要向量Z進行比較,并在比較結果通過時將所述初始摘要向量Y作為所述病歷文本的摘要進行輸出。
第三方面,本發明的又一實施例提供了一種計算機設備,包括存儲器、處理器以及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如第一方面所述方法的步驟。
第四方面,本發明的又一實施例提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現如第一方面所述方法的步驟。
本發明實施例提供了一種面向微創醫療領域文本摘要生成方法及裝置、計算機設備以及計算機可讀存儲介質,該方法中首先將文本進行向量轉換得到語義和語序向量,接著將語義和語序向量的平均求和輸入到編碼器中進行去重簡化處理得到包含該文本重要信息的特征向量,再將該特征向量輸入到解碼器中,并根據特征向量的每一個元素以及對應的正確概率來對應生成初始摘要向量,最后將初始摘要向量與人工摘要向量進行比對,在比對結果通過時將初始摘要向量Y作為所述病歷文本的摘要進行輸出,從而相比于現有的生成式方法能夠全面收入文本中的重要特征,解決長句子容易重復同一詞語的問題,優化了摘要生成的靈活性。
附圖說明
通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的,而并不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學;合肥德銘電子有限公司,未經合肥工業大學;合肥德銘電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711148374.8/2.html,轉載請聲明來源鉆瓜專利網。





