[發明專利]關鍵詞查找方法、裝置及終端有效
| 申請號: | 201610784659.X | 申請日: | 2016-08-29 |
| 公開(公告)號: | CN107798004B | 公開(公告)日: | 2022-09-30 |
| 發明(設計)人: | 黃建 | 申請(專利權)人: | 中興通訊股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/284 |
| 代理公司: | 北京華夏泰和知識產權代理有限公司 11662 | 代理人: | 石鳴宇 |
| 地址: | 518057 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關鍵詞 查找 方法 裝置 終端 | ||
本發明提供了一種關鍵詞查找方法、裝置及終端。其中,該關鍵詞查找方法包括:在一個或多個與關鍵詞長度相同的字符串中獲取與所述關鍵詞的字符串屬性相同的一個或多個指定字符串;判斷所述一個或多個指定字符串的相鄰字符是否屬于所述關鍵詞的取值范圍;在判斷結果為否的情況下,確定所述指定字符串為目標關鍵詞。通過本發明,解決了相關技術中查到用戶所需的關鍵詞過程中存在的識別過程復雜且遺漏較多的問題,從而達到了實現流程簡單,以及保證了在關鍵詞查找時的低遺漏率以及避免非目標關鍵詞影響的效果。
技術領域
本發明涉及通信領域,具體而言,涉及一種關鍵詞查找方法、裝置及終端。
背景技術
傳統的文本信息內容識別技術大致分為兩類:一類是部分匹配,一類是全詞匹配。其中,部分匹配方法,即匹配所有包含該字符串的文本。優點是不會漏識別,缺點是會出現匹配過多的情況,匹配結果中會出現大量的干擾信息。比如下面的文本:“Method andapparatus for longest prefix matching based(on)a tree.”我們如果要匹配其中的英文單詞“on”,用字符串匹配,longest,(on)都會被識別出來,并且文本內容越多,匹配的字符串越短,這種干擾信息就越多。而全詞匹配方法,一般是用空格作為分詞標準,但是實際語境用來分隔單詞的符號很多,這種方法容易遺漏識別,比如上面的例子,用全詞匹配方法是識別不了(on)的。
相關技術中是通過將這些分隔符替換為空格,但是實際場景中分隔符種類非常繁多,并且不僅僅局限于標點符號。特別是當有人惡意規避內容識別,用數字、其他語種文字、甚至是不可見字符來做間隔時,還是會出現漏識別的情況。這種方法治標不治本,比較被動。因此,在相關技術中,查到用戶所需的關鍵詞過程中存在的識別過程復雜且遺漏較多的問題。
發明內容
本發明實施例提供了一種關鍵詞查找方法、裝置及終端,以至少解決相關技術中查到用戶所需的關鍵詞過程中存在的識別過程復雜且遺漏較多的問題。
根據本發明的一個實施例,提供了一種關鍵詞查找方法,包括:在一個或多個與關鍵詞長度相同的字符串中獲取與所述關鍵詞的字符串屬性相同的一個或多個指定字符串;判斷所述一個或多個指定字符串的相鄰字符是否屬于所述關鍵詞的取值范圍;在判斷結果為否的情況下,確定所述指定字符串為目標關鍵詞。
可選地,在一個或多個與關鍵詞長度相同的字符串中獲取與所述關鍵詞的字符串屬性相同的一個或多個指定字符串之前,所述方法還包括:確定所述關鍵詞的取值范圍,并計算關鍵詞長度以及所述關鍵詞所在文本的長度;從所述文本的首個字符開始,依據所述關鍵詞長度以及文本長度,將所述文本切分為所述一個或多個與關鍵詞長度相同的字符串;計算所述一個或多個與關鍵詞長度相同的字符串的字符串屬性。
可選地,將所述文本切分為所述一個或多個與關鍵詞長度相同的字符串,包括:從所述文本的首個字符開始,按照預定步長,依次截取長度為所述關鍵詞長度的字符串;當截取的字符串長度小于所述關鍵詞長度時,拋棄該字符串并結束截取。
可選地,判斷所述一個或多個指定字符串的相鄰字符是否屬于所述關鍵詞的取值范圍,包括:所述關鍵詞位于所述一個或多個與關鍵詞長度相同的字符串所在文本的頭部時,所述相鄰字符為與所述指定字符串的尾部相鄰的字符;所述關鍵詞位于所述一個或多個與關鍵詞長度相同的字符串所在文本的尾部時,所述相鄰字符為與所述指定字符串的頭部相鄰的字符。
可選地,所述方法還包括:在判斷結果為是的情況下,確定所示指定字符串為干擾關鍵詞。
可選地,所述字符串屬性至少包括:字符串的哈希值,字符串中字符編碼值。
根據本發明的另一個實施例,提供了一種關鍵詞查找裝置,包括:獲取模塊,用于在一個或多個與關鍵詞長度相同的字符串中獲取與所述關鍵詞的字符串屬性相同的一個或多個指定字符串;判斷模塊,用于判斷所述一個或多個指定字符串的相鄰字符是否屬于所述關鍵詞的取值范圍;確定模塊,用于在判斷結果為否的情況下,確定所述指定字符串為目標關鍵詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中興通訊股份有限公司,未經中興通訊股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610784659.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:與智能文本分段共享的可定制內容
- 下一篇:網站開發過程中的數據處理方法及裝置





