[發(fā)明專利]一種支持語義聯(lián)想的輕量級文本模糊搜索的方法有效
| 申請?zhí)枺?/td> | 201911331527.1 | 申請日: | 2019-12-21 |
| 公開(公告)號: | CN111125308B | 公開(公告)日: | 2023-02-21 |
| 發(fā)明(設(shè)計)人: | 裴正奇;黃梓忱;段必超;段朦麗;朱斌斌 | 申請(專利權(quán))人: | 深圳前海黑頓科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36;G06F40/247;G06F40/289;G06F40/30 |
| 代理公司: | 北京化育知識產(chǎn)權(quán)代理有限公司 11833 | 代理人: | 涂琪順 |
| 地址: | 518000 廣東省深圳市前海深港合作區(qū)前*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 支持 語義 聯(lián)想 輕量級 文本 模糊 搜索 方法 | ||
本發(fā)明公開了一種支持語義聯(lián)想的輕量級文本模糊搜索的方法,包括。模糊度較高,本發(fā)明改進(jìn)了傳統(tǒng)語句檢索算法,可以將與目標(biāo)語句完全一致和相似度高的語句檢索出來,并且可靈活調(diào)節(jié)與目標(biāo)語句的近似值;運算速度快:摒棄了傳統(tǒng)的暴力枚舉算法,使用“語義圖譜”、“卷積”、“動態(tài)規(guī)劃”等方法,優(yōu)化了搜索過程,極大的提高了搜索速度;系統(tǒng)輕:減少系統(tǒng)大小,針對輕量級用戶和使用場景進(jìn)行了內(nèi)部外部優(yōu)化,對整個計算過程優(yōu)化,減少內(nèi)存負(fù)擔(dān)。本發(fā)明還提供了一套無需現(xiàn)場運算的聯(lián)想模式,用戶在模糊搜索是可以調(diào)用聯(lián)想模塊,但無需占用本地計算能力;系統(tǒng)靈活,易于用戶針對不同應(yīng)用進(jìn)行靈活調(diào)用:整個算法模塊進(jìn)行了接口封裝。
技術(shù)領(lǐng)域
本發(fā)明涉及文本模糊搜索的相關(guān)領(lǐng)域,尤其涉及一種支持語義聯(lián)想的輕量級文本模糊搜索的方法。
背景技術(shù)
文本的模糊搜索應(yīng)用在很多地方,特別現(xiàn)今網(wǎng)絡(luò)日益發(fā)達(dá),網(wǎng)絡(luò)上產(chǎn)生的文本信息量也呈爆炸式地增長。隨之,有害信息和造成不穩(wěn)定因素的信息也隨之日益泛濫,因此在公共的網(wǎng)絡(luò)平臺上,有很多內(nèi)容都需要經(jīng)過審查才能通過顯示。在網(wǎng)絡(luò)審查初期,多數(shù)都是通過人工審查的方式,這樣的效率很低,而且與網(wǎng)絡(luò)文本產(chǎn)生的速度相比,這種效率就更加顯得微不足道了。因此很多學(xué)者以及公司更加關(guān)注文本的模糊搜索,也就是在大量的文本信息中模糊找出給定的關(guān)鍵詞或者是關(guān)鍵語句,即模糊匹配。最初對于文本的匹配主要是使用BF(BruteForce)、RK(Robin-Karp)、KMP(Knuth-Morris-Pratt)、BM(BoyerMoore)等算法進(jìn)行字符的精準(zhǔn)匹配,也就是在文本信息中找到與關(guān)鍵詞完全一樣的字符串才算匹配成功,這樣的方式?jīng)]有考慮到語義信息,不能完成模糊匹配的任務(wù)。對文本進(jìn)行模糊匹配,即字符串模糊匹配,主要的方法有位向量方法、過濾方法等等,應(yīng)用位向量方法時,需要大量的空間,對于內(nèi)存小的微型計算機(jī),比如嵌入式系統(tǒng),這將會是一個問題。
現(xiàn)有的文本模糊搜索存在以下缺點:
1、當(dāng)前的文本模糊搜索多數(shù)都沒有很好的體現(xiàn)出真正的模糊搜索,簡單來講就是模糊的程度比較低,不能很好的支持語義聯(lián)想,比如搜索關(guān)鍵詞的同義詞、關(guān)聯(lián)詞,因此會將關(guān)鍵詞的同義詞給過濾掉,而實際的應(yīng)用中,可能需要保留,這樣就造成了誤過濾,使得查全率變低。而且對于在比較長的文本中進(jìn)行關(guān)鍵詞或關(guān)鍵語句搜索時,由于會使用到比較暴力的方式對文本進(jìn)行處理,導(dǎo)致效率比較低,也就是說不夠輕量化;
2、當(dāng)前的文本模糊搜索多數(shù)都沒有很好的解決字符串模糊匹配的兩個主要問題:空間問題和時間問題,在處理文本時會有大量的計算與存儲,現(xiàn)有的模糊匹配算法在時間復(fù)雜度和空間復(fù)雜度上常常無法滿足實際的在線需求;
3、當(dāng)前的文本模糊搜索多數(shù)都不能對句子級別特征捕捉的模糊搜索,簡單來說就是,對于需要搜索的文本而言,如果在待搜索的文本中沒有需要搜索的文本,那么搜索的結(jié)果為空。但是可能存在與需要搜索的文本意思相近的文本,實際的應(yīng)用中如果遇到這種情況,往往不希望搜索的結(jié)果為空,而是將意思相近的文本作為返回的結(jié)果。
為此,我們提出了一種支持語義聯(lián)想的輕量級文本模糊搜索的方法。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種支持語義聯(lián)想的輕量級文本模糊搜索的方法,以解決上述背景技術(shù)中提出的問題。
為了實現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案:
一種支持語義聯(lián)想的輕量級文本模糊搜索的方法,所述搜索方法包括以下步驟:
S1、技術(shù)場景建模,文本模糊搜索問題可轉(zhuǎn)換為在長文本中查詢短文本的問題,長文本與短文本均為一連串的字符序列;
S2、語義聯(lián)想圖譜,為保證運算的輕量,提前搭建語義聯(lián)想圖譜并將之存儲以供直接調(diào)用,而非現(xiàn)場再進(jìn)行運算;
S3、模糊搜索方案,給定長文本S={s1,s2,s3,…sn},給定搜索請求Q={q1,q2,q3,…qm};
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳前海黑頓科技有限公司,未經(jīng)深圳前海黑頓科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911331527.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 高速高帶寬AHB總線到低速低帶寬AHB總線的雙向轉(zhuǎn)換橋
- 可拆裝換鉤頭的1輕量級的鋁制手柄及十四枚鋼鉤針組合
- 一種輕量級節(jié)點的數(shù)據(jù)傳輸方法、裝置、設(shè)備和介質(zhì)
- 一種輕量級節(jié)點的數(shù)據(jù)傳輸方法、裝置、設(shè)備和介質(zhì)
- 輕量級請求的并發(fā)處理方法及相關(guān)設(shè)備
- 一種輕量級深度卷積神經(jīng)網(wǎng)絡(luò)的FPGA實現(xiàn)方法
- 一種小區(qū)選擇方法、輕量級終端及網(wǎng)絡(luò)設(shè)備
- 授權(quán)簽名生成方法、節(jié)點管理方法、裝置、設(shè)備和介質(zhì)
- 輕量級桌面機(jī)械臂底座及輕量級桌面機(jī)械臂
- 輕量級機(jī)械臂束線結(jié)構(gòu)、輕量級機(jī)械臂及機(jī)器人





