[發(fā)明專利]一種面向智能問診系統(tǒng)的復述句生成優(yōu)化方法在審
| 申請?zhí)枺?/td> | 202011457520.7 | 申請日: | 2020-12-10 |
| 公開(公告)號: | CN112397201A | 公開(公告)日: | 2021-02-23 |
| 發(fā)明(設計)人: | 黃劍平;豐仕琦 | 申請(專利權(quán))人: | 杭州師范大學 |
| 主分類號: | G16H50/20 | 分類號: | G16H50/20;G06F16/332;G06F40/211;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天勤知識產(chǎn)權(quán)代理有限公司 33224 | 代理人: | 胡紅娟 |
| 地址: | 311121 浙江*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 智能 問診 系統(tǒng) 復述 生成 優(yōu)化 方法 | ||
本發(fā)明公開了一種面向智能問診系統(tǒng)的復述句生成優(yōu)化方法,對中文問診語料庫進行文本聚類,從而獲得復述語料庫,然后分別抽取待復述句子和復述語料庫中的句子模板,再將待復述句子模板與復述模板組進行模板匹配和句子生成,從而獲得一個候選生成句集合,最后利用RNN?LM模型和基于相似與相異信息的CNN模型計算候選生成句的綜合相似度得分,從而在候選生成句集合中獲得最佳復述生成句。
技術領域
本發(fā)明涉及智能問診技術領域,具體涉及一種面向智能問診系統(tǒng)的復述句生成優(yōu)化方法。
背景技術
智能問診系統(tǒng)主要是將智能問答與醫(yī)療問診相結(jié)合的一種面向醫(yī)療領域的智能問答系統(tǒng)。其中,智能問答系統(tǒng)是利用自然語言處理與知識抽取等相關技術對用戶輸入的自然語言進行分析處理并將準確答案返回給用戶的交互式系統(tǒng)。智能問答產(chǎn)品不僅能夠給人們提供更加友好和便利的交互方式,而且大大提高了工作和生活效率。
但目前智能問答系統(tǒng)理解能力較差,距離真正智能化的理想狀態(tài)還有一定的差距,主要體現(xiàn)在回答準確率不高以及問答領域受限等方面。因此,讓智能問答系統(tǒng)更加智能化和人性化,依然是一個巨大的挑戰(zhàn)。這是因為現(xiàn)有的智能問答系統(tǒng)主要由問題分析(系統(tǒng)需要了解用戶想問什么)、信息檢索(檢索用戶想問的信息)和答案抽取三個模塊構(gòu)成,而問題分析和信息檢索模塊中的一些關鍵技術尚不夠成熟。問題分析模塊要解決的是如何正確地識別用戶意圖,分析用戶意圖并生成相應的檢索信息。信息檢索模塊要解決的是如何精準地匹配用戶意圖,在系統(tǒng)語料庫中進行全匹配檢索,獲得可能包含答案的語料資源。但由于用戶的輸入是不固定的,且同種語義的問題可能有多種不同的句式,這給準確理解和檢索用戶意圖造成了很大的困難。
將復述方法應用于智能問答系統(tǒng)是有效解決上述問題的途徑之一。復述是指以不同的表達形式展現(xiàn)相同語義的一種方法,可用于將用戶輸入的詞匯或句子改寫成多個語義相同但表達形式不同的詞句。據(jù)此可以用來生成同義語料,并擴大語料庫規(guī)模。
其中,關于復述句的生成,相關研究方法主要包括基于雙語平行語料庫的復述句生成、基于模板匹配的復述句生成以及基于殘差的LSTM復述句生成。基于雙語平行語料庫的復述句生成方法缺陷在于大量非語言結(jié)構(gòu)的短語也會被抽取出來,干擾復述句的生成,并且高質(zhì)量雙語平行語料庫的收集需要消耗大量人力資源,同時過濾方法效果有限。基于模板匹配的復述句生成方法在分詞過程中未單獨考慮特殊功能詞和精簡句式的作用,導致模板泛化能力較差。基于殘差的LSTM復述句生成方法缺乏大規(guī)模高精度的復述語料作為模型訓練集,學習能力受到很大程度的限制。
基于此,本發(fā)明的關注點在于如何利用現(xiàn)有醫(yī)療問診數(shù)據(jù)集進行高效的模板抽取和句式精簡,并且如何利用深度學習算法對生成的復述句進行排序,從而獲取到準確率較高的復述句。
發(fā)明內(nèi)容
針對上述技術問題,本發(fā)明提供了一種面向智能問診系統(tǒng)的復述句生成優(yōu)化方法,該方法基于醫(yī)療問診語料集,利用文本聚類方法生成復述語料庫,分別抽取待復述句子和復述語料庫中的句子模板,再將待復述句子模板與復述模板集進行模板匹配和句子生成,從而獲得一個候選生成句集合,最后對候選生成句集合中的句子進行排序獲得最佳復述生成句。
一種面向智能問診系統(tǒng)的復述句生成優(yōu)化方法,包括步驟:
(A)選擇以問答對形式存在且問句長度有限的問答數(shù)據(jù)集,其中問句不包含標點符號以及修飾限定成分;
(B)對所述問答數(shù)據(jù)集進行文本聚類,將語義相似的問句歸屬于同一簇中;
(C)對所有問句進行句式精簡和模板抽取,獲得相應的復述模板,其中,一個所述簇里的所有復述模板作為一個復述模板組;對待復述句進行相同的句式精簡和模板抽取,獲得待復述句模板;
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州師范大學,未經(jīng)杭州師范大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011457520.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:大尺寸晶圓吸附定位裝置
- 下一篇:一種直線電機性能測試裝置及其測試方法





