[發明專利]一種適用于自動問答系統的問句分類方法在審
| 申請號: | 201710582070.6 | 申請日: | 2017-07-17 |
| 公開(公告)號: | CN107608999A | 公開(公告)日: | 2018-01-19 |
| 發明(設計)人: | 李曉飛;徐曉芳;韓光 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 南京經緯專利商標代理有限公司32200 | 代理人: | 朱楨榮 |
| 地址: | 210000 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 適用于 自動 問答 系統 問句 分類 方法 | ||
1.一種適用于自動問答系統的問句分類方法,其特征在于,包括以下步驟:
步驟一、獲取待分類的問句,利用分詞工具進行分詞和詞性標注,獲得分詞操作后的待分類的問句;
步驟二、對分詞操作后的待分類的問句進行預處理;
步驟三、找出預處理后的待分類的問句中的候選關鍵詞,組成候選關鍵詞集合,在TF-IDF算法的基礎上,考慮兩兩詞匯間的相關度和相似度,計算候選關鍵詞的權重值,根據候選關鍵詞的權重值,進行關鍵詞的提取;
步驟四、根據依存句法分析方法,提取關鍵詞的主謂、動賓及定中三種依存句法關系特征;
步驟五、利用訓練好的樸素貝葉斯模型,依據含有三種依存句法關系特征的關鍵詞的特征向量進行問句分類。
2.根據權利要求1所述的一種適用于自動問答系統的問句分類方法,其特征在于,步驟一中是基于條件隨機場CRF模型對問句進行分詞和詞性標注。
3.根據權利要求1所述的一種適用于自動問答系統的問句分類方法,其特征在于,所述步驟二具體如下:
去除停用詞,將文本噪聲用符號#表示;
統計文本噪聲在問句中出現的概率,當文字噪聲大于某一設定閾值時,判斷為普通問句,并利用預先建立的同義詞表進行同義詞替換。
4.根據權利要求1所述的一種適用于自動問答系統的問句分類方法,其特征在于,計算候選關鍵詞的權重值,具體如下:
其中,S(Vi)是第i個候選關鍵詞Vi的權重值,ni,j是Vi在第j類文檔Dj中出現的次數,∑nl,j是第j類所有文檔中所有字詞的出現次數之和,|D|為總文檔的問句數,DF(Vi)為所有問句文檔中出現Vi的問句文檔數量,Sim(Vi,Vk)為通過Word2Vec計算得到的Vi與Vk之間的相似度,Vk為第k個候選關鍵詞,α為系數,rel(Vi,Vk)是Vi與Vk之間的相關度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710582070.6/1.html,轉載請聲明來源鉆瓜專利網。





