[發明專利]一種基于集成卷積編碼的醫療問答語義聚類方法有效
| 申請號: | 201710723583.4 | 申請日: | 2017-08-22 |
| 公開(公告)號: | CN107516110B | 公開(公告)日: | 2020-02-18 |
| 發明(設計)人: | 余志文;戴丹 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 集成 卷積 編碼 醫療 問答 語義 方法 | ||
1.一種基于集成卷積編碼的醫療問答語義聚類方法,其特征在于,所述方法包括以下步驟:
步驟1:從醫療平臺上獲取醫療問答數據集,對醫療問答數據集進行預處理,并得到輸入矩陣;
步驟2:用卷積編碼網絡對不同的輸入矩陣選取不同的卷積核進行核聚類,對核聚類后的聚類質量和多樣性進行計算,根據聚類質量和多樣性挑選出表示文本特征最好的n個卷積核;
步驟3:將步驟2中挑選的卷積核分別通過卷積神經網絡來進行訓練操作;
步驟4:融合不同卷積核的特征表示結果;
步驟5:將融合后的特征表示結果輸入自編碼機,進行輸入重構訓練得到最佳特征表示;
步驟6:將編碼得到的最佳特征表示進行聚類,得到最終醫療文本語義聚類結果。
2.根據權利要求1所述的一種基于集成卷積編碼的醫療問答語義聚類方法,其特征在于:步驟1中所述的對醫療問答數據集進行預處理,即對醫療問答數據集進行分詞、去停用詞、詞性標注,接著依據詞向量的表示方式對輸入的醫療問答數據集形成矩陣表示,得到輸入矩陣。
3.根據權利要求1所述的一種基于集成卷積編碼的醫療問答語義聚類方法,其特征在于,步驟2中的聚類質量的值越高說明得到核聚類的結果越好,其表示如下所示:
其中,K={1,2,…kn}為卷積核集,為第kj個卷積核得到的聚類結果,為n個卷積核任意兩兩不重復選取組合計算的次數,SNMI為第kj個卷積核與其他卷積核大小聚類結果的總NMI值后求平均;通過規范化互信息NMI來獲得不同卷積核間的差異程度:
其中,ka和kb分別為不同卷積核聚類結果Ca和Cb中的簇數,n為全部的數據集數,nh,l為同時位于Ca的h簇和Cb的l簇中的數據集數,為聚類結果Ca的h簇中的數據集數,為聚類結果Cb的l簇中的數據集數,NMI(Ca,Cb)的值越大,聚類器間差異性越小;
將規范化互信息NMI進行轉換后采用多樣性對核聚類的質量進行評估:
Div(Ca,Cb)=l-NMI(Ca,Cb)
Div(Ca,Cb)為不同卷積核聚類結果的差異性值,該值越小,體現出聚類器間的關聯越少;
結合聚類質量和多樣性評估標準,其最終結算結果如下所示:
其中,Ker表示該卷積核聚類結果的有效評估值,α表示聚類質量權值,1-α為差異性效果權值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710723583.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:非球面光學鏡片調節系統
- 下一篇:一種售賣機缺貨檢測方法及裝置





