[發(fā)明專利]一種面向用戶查詢意圖的漢語句子相似度分層計(jì)算方法及裝置有效
| 申請?zhí)枺?/td> | 201410341855.0 | 申請日: | 2014-07-17 |
| 公開(公告)號: | CN104133812B | 公開(公告)日: | 2017-03-08 |
| 發(fā)明(設(shè)計(jì))人: | 張仰森;李景玉 | 申請(專利權(quán))人: | 北京信息科技大學(xué);張仰森 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京科億知識產(chǎn)權(quán)代理事務(wù)所(普通合伙)11350 | 代理人: | 湯東鳳 |
| 地址: | 100101 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 用戶 查詢 意圖 漢語 句子 相似 分層 計(jì)算方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于漢語句子相似度計(jì)算技術(shù)領(lǐng)域,尤其涉及一種面向用戶查詢意圖的漢語句子相似度分層計(jì)算方法及裝置。
背景技術(shù)
相似度計(jì)算是自然語言處理領(lǐng)域的基礎(chǔ)工作,應(yīng)用背景廣泛。根據(jù)處理對象的不同,可以分為詞相似度計(jì)算、句子相似度計(jì)算以及篇章相似度計(jì)算。其中句子相似度計(jì)算在信息檢索、機(jī)器翻譯、問答系統(tǒng)以及自動文摘等應(yīng)用領(lǐng)域中的效能直接影響著應(yīng)用系統(tǒng)的整體性能。因此,目前仍有眾多學(xué)者熱衷于不斷改進(jìn)句子相似度的計(jì)算方法。
目前的句子相似度計(jì)算方法主要有基于編輯距離的句子相似度計(jì)算方法,基于本體詞典或知網(wǎng)語義的句子相似度計(jì)算方法,基于語義依存的句子相似度計(jì)算方法等等。
編輯距離,也稱Levenshtein?distance,是常用的句子相似度計(jì)算方法之一。通過計(jì)算一個句子轉(zhuǎn)換成另一個句子的最小編輯操作數(shù),來判定兩個句子是否相似。其中編輯操作包括“刪除”、“插入”和“替換”。若兩個句子的編輯距離越小,則兩個句子越相似。文獻(xiàn)1(車萬翔,劉挺,秦兵等.基于改進(jìn)編輯距離的中文相似句子檢索[J].高級技術(shù)通訊,2004.7,14(7):15-19)基于編輯距離思想,以及漢語中單個字往往不具備意義的特點(diǎn),提出改進(jìn)的編輯距離計(jì)算句子相似度算法,以詞為單位計(jì)算編輯距離,同時(shí)融入Hownet和《同義詞詞林》兩個語義資源。文獻(xiàn)2(呂學(xué)強(qiáng),任飛亮,黃志丹等.句子相似模型和最相似句子查找算法[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2003.6,24(6):531-534)從詞形、詞序兩方面計(jì)算句子相似度,文獻(xiàn)3(楊思春等.一種改進(jìn)的句子相似度計(jì)算模型[J].電子科技大學(xué)學(xué)報(bào),2006.12,35(6):956-959)在文獻(xiàn)2的基礎(chǔ)上對關(guān)鍵詞的抽取方法進(jìn)行改進(jìn),考慮同義詞的情況,準(zhǔn)確率有所提高。
文獻(xiàn)1提出的改進(jìn)編輯距離計(jì)算句子相似度算法,雖然考慮了中文語言的特點(diǎn),并融入語義信息,但是,由于目前中文分詞的效果并不理想,不同的語境下一個詞有時(shí)可以識別出來,有時(shí)卻不能,分詞的不準(zhǔn)確勢必會帶來編輯距離結(jié)果的誤差。這勢必會影響計(jì)算相似度的準(zhǔn)確率。文獻(xiàn)2和文獻(xiàn)3提出的句子相似度計(jì)算方法,雖然準(zhǔn)確率有所提高,但是對于長度較長、結(jié)構(gòu)較為復(fù)雜的句子效果仍不理想。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種面向用戶查詢意圖的漢語句子相似度分層計(jì)算方法及裝置,旨在克服中文分詞效果不理想的問題,同時(shí)解決對于關(guān)鍵詞差異大、長度長、句子結(jié)構(gòu)復(fù)雜的句子計(jì)算相似度效果不理想的問題,通過分層計(jì)算的思想,提高相似度計(jì)算的準(zhǔn)確性,提升本方案的實(shí)用價(jià)值。
本發(fā)明是這樣實(shí)現(xiàn)的,一種面向用戶查詢意圖的漢語句子相似度分層計(jì)算方法,包括以下步驟:
S1、采用去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法對數(shù)據(jù)集進(jìn)行相似度計(jì)算,確定一部分滿足閾值的句子為相似句子;
S2、采用基于關(guān)鍵詞特征和語義特征的句子相似度算法,對數(shù)據(jù)集中的非相似句子進(jìn)行相似度計(jì)算,從而再次確定一部分滿足閾值的句子為相似句子;
S3、采用面向用戶意圖的句子相似度算法,對數(shù)據(jù)集中的非相似句子進(jìn)行句子相似度計(jì)算,確定一部分滿足閾值的句子為相似句子,至此得到數(shù)據(jù)集中的所有相似句子。
優(yōu)選地,在步驟S1中,所述去除句末標(biāo)點(diǎn)的編輯距離句子相似度算法具體包括:計(jì)算兩個句子的相似度時(shí),忽略其句末的標(biāo)點(diǎn)符號,將去除句末標(biāo)點(diǎn)的句子按照基于字符的編輯距離句子相似度算法計(jì)算其句子的編輯距離,再根據(jù)設(shè)定的閾值判定相似句子。
優(yōu)選地,在步驟S2中,所述基于關(guān)鍵詞特征和語義特征的句子相似度算法具體包括:采用關(guān)鍵詞特征,將句子轉(zhuǎn)換成關(guān)鍵詞列表形式,再兼顧同義詞特征、否定詞特征,總結(jié)分析經(jīng)過對比消解后的剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對之間呈現(xiàn)的規(guī)律,最后判定符合規(guī)律的句子是否句子相似。
優(yōu)選地,在步驟S2中,所述剩余關(guān)鍵詞是指一個句子經(jīng)過分詞、去除停用詞、修改錯別字、大寫字母轉(zhuǎn)換成小寫字母、中文數(shù)字轉(zhuǎn)換成阿拉伯?dāng)?shù)字、關(guān)鍵詞對比消減、同義詞對比消減和否定詞對比消減后余留的關(guān)鍵詞集合。
優(yōu)選地,在步驟S2中,所述剩余關(guān)鍵詞詞數(shù)與已標(biāo)注的相似句子對之間的關(guān)系具體包括以下規(guī)則:
規(guī)則1:經(jīng)過剩余關(guān)鍵詞列表計(jì)算后,若用戶提問句子與問題集中某一句子的剩余關(guān)鍵詞詞數(shù)之和小于等于1,且剩余關(guān)鍵詞中不包含否定詞時(shí),則用戶提問句子與問題集中的某一個句子是相似的;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京信息科技大學(xué);張仰森,未經(jīng)北京信息科技大學(xué);張仰森許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410341855.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 用于意圖挖掘的方法和設(shè)備
- 意圖估計(jì)裝置以及意圖估計(jì)方法
- 意圖識別方法、裝置、設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 意圖確認(rèn)方法及裝置
- 搜索意圖識別方法、裝置、電子設(shè)備和存儲介質(zhì)
- 語句多意圖識別方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)
- 對話系統(tǒng)中意圖沖突的解決方法、系統(tǒng)及裝置
- 信息通信網(wǎng)絡(luò)的意圖轉(zhuǎn)譯方法、系統(tǒng)、介質(zhì)及交互接口
- 語音對話的意圖識別方法、系統(tǒng)、設(shè)備及存儲介質(zhì)
- 意圖識別方法、裝置、電子設(shè)備及可讀存儲介質(zhì)





