[發明專利]一種面向用戶查詢意圖的漢語句子相似度分層計算方法及裝置有效
| 申請號: | 201410341855.0 | 申請日: | 2014-07-17 |
| 公開(公告)號: | CN104133812B | 公開(公告)日: | 2017-03-08 |
| 發明(設計)人: | 張仰森;李景玉 | 申請(專利權)人: | 北京信息科技大學;張仰森 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙)11350 | 代理人: | 湯東鳳 |
| 地址: | 100101 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 用戶 查詢 意圖 漢語 句子 相似 分層 計算方法 裝置 | ||
1.一種面向用戶查詢意圖的漢語句子相似度分層計算方法,其特征在于包括以下步驟:
S1、采用去除句末標點的編輯距離句子相似度算法對數據集進行相似度計算,確定一部分滿足閾值的句子為相似句子;
S2、采用基于關鍵詞特征和語義特征的句子相似度算法,對數據集中的非相似句子進行相似度計算,從而再次確定一部分滿足閾值的句子為相似句子;
S3、采用面向用戶意圖的句子相似度算法,對數據集中的非相似句子進行句子相似度計算,確定一部分滿足閾值的句子為相似句子,至此得到數據集中的所有相似句子。
2.如權利要求1所述的面向用戶查詢意圖的漢語句子相似度分層計算方法,其特征在于,在步驟S1中,所述去除句末標點的編輯距離句子相似度算法具體包括:計算兩個句子的相似度時,忽略其句末的標點符號,將去除句末標點的句子按照基于字符的編輯距離句子相似度算法計算其句子的編輯距離,再根據設定的閾值判定相似句子;
在步驟S2中,所述基于關鍵詞特征和語義特征的句子相似度算法具體包括:采用關鍵詞特征,將句子轉換成關鍵詞列表形式,再兼顧同義詞特征、否定詞特征,總結分析經過對比消解后的剩余關鍵詞詞數與已標注的相似句子對之間呈現的規律,最后判定符合規律的句子是否句子相似;
在步驟S3中,所述面向用戶意圖的句子相似度算法具體包括:
根據標點符號切分用戶提問,利用用戶提問中的標點符號,將用戶提問轉換成用戶提問子句集;
對用戶提問子句集中每一個元素計算其與問題集中某問題的剩余列表,計算子句集中每一個元素與計算機存儲的問題集中問題的句子相似度;
使用子句集中元素與問題集中某個問題的最大相似度代替用戶提問與這個問題的句子相似度。
3.如權利要求2所述的面向用戶查詢意圖的漢語句子相似度分層計算方法,其特征在于,在步驟S2中,所述剩余關鍵詞是指一個句子經過分詞、去除停用詞、修改錯別字、大寫字母轉換成小寫字母、中文數字轉換成阿拉伯數字、關鍵詞對比消減、同義詞對比消減和否定詞對比消減后余留的關鍵詞集合。
4.如權利要求3所述的面向用戶查詢意圖的漢語句子相似度分層計算方法,其特征在于,在步驟S2中,所述剩余關鍵詞詞數與已標注的相似句子對之間的關系具體包括以下規則:
規則1:經過剩余關鍵詞列表計算后,若用戶提問句子與問題集中某一句子的剩余關鍵詞詞數之和小于等于1,且剩余關鍵詞中不包含否定詞時,則用戶提問句子與問題集中的某一個句子是相似的;
規則2:經過剩余關鍵詞列表計算后,若用戶提問句子的剩余關鍵詞詞數等于0,問題集中某一句子的剩余關鍵詞詞數等于2,且剩余關鍵詞中不包含否定詞,則用戶提問句子與問題集中某一句子是相似的;
規則3:經過剩余關鍵詞列表計算后,若用戶提問句子的剩余關鍵詞詞數等于2,問題集中某一句子的剩余關鍵詞詞數等于0,且剩余關鍵詞中不包含否定詞,則用戶提問句子與問題集中某一句子是相似的;
規則4:經過剩余關鍵詞列表計算后,若用戶提問句子和問題集中某一句子的剩余關鍵詞中含有的否定詞為奇數時,則用戶提問句子與問題集中某一句子是不相似的。
5.如權利要求2所述的面向用戶查詢意圖的漢語句子相似度分層計算方法,其特征在于,在步驟S3中,所述用戶提問子句集的構建方法具體包括:初始子句集為空,首先根據標點符號將用戶提問拆分成若干個子句,將這些子句并入子句集中;再將任意長度的連續的若干子句構成一個子句,并入子句集中;最后將用戶提問的整句并入子句集中,至此構建成一個完整的用戶提問子句集;
在步驟S3中,所述子句和問題集中問題的相似性的判斷具體為:
規則5:將用戶提問子句集中某一子句與問題集中某一問題進行剩余關鍵詞列表計算,若子句的剩余關鍵詞詞數等于0,問題的剩余關鍵詞詞數小于等于1,則用戶提問與問題集中該問題是相似的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學;張仰森,未經北京信息科技大學;張仰森許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410341855.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種樣本屬性的動態分布數據獲取方法及系統
- 下一篇:一種新型的計算器





