[發明專利]一種面向智能問診系統的復述句生成優化方法在審
| 申請號: | 202011457520.7 | 申請日: | 2020-12-10 |
| 公開(公告)號: | CN112397201A | 公開(公告)日: | 2021-02-23 |
| 發明(設計)人: | 黃劍平;豐仕琦 | 申請(專利權)人: | 杭州師范大學 |
| 主分類號: | G16H50/20 | 分類號: | G16H50/20;G06F16/332;G06F40/211;G06F40/289;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 胡紅娟 |
| 地址: | 311121 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 智能 問診 系統 復述 生成 優化 方法 | ||
1.一種面向智能問診系統的復述句生成優化方法,其特征在于,包括步驟:
(A)選擇以問答對形式存在且問句長度有限的問答數據集,其中問句不包含標點符號以及修飾限定成分;
(B)對所述問答數據集進行文本聚類,將語義相似的問句歸屬于同一簇中;
(C)對所有問句進行句式精簡和模板抽取,獲得相應的復述模板,其中,一個所述簇里的所有復述模板作為一個復述模板組;對待復述句進行相同的句式精簡和模板抽取,獲得待復述句模板;
(D)抽取待復述句模板與所有復述模板組進行檢索匹配,如果在某個復述模板組中找到了與所述待復述句模板相同的復述模板,則表明該復述模板組中所有復述模板都有被改寫成新的復述句的可能,根據匹配到的復述模板組里的所有復述模板,分別生成不同的復述生成句;
(E)將所有復述生成句根據綜合相似度進行排序,按照排序選擇綜合相似度最高的作為最佳復述生成句。
2.根據權利要求1所述的復述句生成優化方法,其特征在于,步驟(A)中,以問答對的形式收集中文問診數據集,并且根據病癥將問句分別歸屬于不同的類別,針對問句的依存關系進行分析,去除問句中的標點符號以及修飾限定成分,并且將問句長度限制在[3,20]個漢字字數的范圍內,保留處理后的數據集。
3.根據權利要求2所述的復述句生成優化方法,其特征在于,步驟(B)中,通過K-means聚類方法對所述問答數據集進行文本聚類,利用手肘法和輪廓系數法確定最佳聚類數,在已有的根據病癥分類的基礎上進行文本聚類,將語義相似的問句集中到同一簇內。
4.根據權利要求1所述的復述句生成優化方法,其特征在于,步驟(C)中所述句式精簡和模板抽取的具體步驟包括:
(C-1)使用jieba組件對每個句子進行分詞、詞性標注和命名實體識別處理,同時保持原句中詞語的順序不變,然后將句子中相應的詞語分別替換為詞性標注標簽和命名實體標簽,形成初步的句子模板;
(C-2)將特殊功能詞替換為特殊功能詞標簽,對所述初步的句子模板進行更新,獲得新的句式模板;
(C-3)利用句法分析建立句法樹,剔除不影響句子主體的修飾關系部分,從而精簡句式,獲得相應的復述模板。
5.根據權利要求4所述的復述句生成優化方法,其特征在于,步驟(D)中,將匹配到的復述模板組里的所有復述模板分別與所述待復述句模板進行對比,待復述句模板中與復述模板相同的部分作為詞槽進行填充,不同的部分保留,最后根據詞槽對應的標簽,將待復述句中的詞按序填充到詞槽中,生成復述生成句。
6.根據權利要求1所述的復述句生成優化方法,其特征在于,步驟(E)中,采用RNN-LM語言模型和基于相似與相異信息的CNN模型進行綜合相似度的計算,具體步驟包括:
(E-1)利用RNN-LM模型對復述生成句評分,歸一化后作為RNN-LM模型得分;
(E-2)計算待復述句與復述生成句的余弦相似度矩陣;結合待復述句中的最相似詞匯計算其語義匹配向量,然后根據該語義匹配向量將復述生成句的詞向量分為與待復述句的相似向量與相異向量;同理,結合復述生成句中的最相似詞匯計算其語義匹配向量,然后根據該語義匹配向量將待復述句的詞向量分為與復述生成句的相似向量與相異向量;
(E-3)采用雙通道CNN模型對相似向量和相異向量分別形成的相似矩陣和相異矩陣進行訓練,得到復述生成句和待復述句的特征向量,根據特征向量計算復述生成句和待復述句之間的相似度,作為CNN模型得分;
(E-4)綜合計算RNN-LM模型得分與CNN模型得分,作為復述生成句的綜合相似度最終得分,按照分值從高到低對所有復述生成句進行排序,取排序第一的復述生成句作為最佳復述生成句。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州師范大學,未經杭州師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011457520.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:大尺寸晶圓吸附定位裝置
- 下一篇:一種直線電機性能測試裝置及其測試方法





