[發明專利]網頁文本高亮顯示方法及系統在審
| 申請號: | 201210214629.7 | 申請日: | 2012-06-25 |
| 公開(公告)號: | CN102779173A | 公開(公告)日: | 2012-11-14 |
| 發明(設計)人: | 劉付強 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/21 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 文本 顯示 方法 系統 | ||
技術領域
本發明涉及文本搜索技術領域,特別涉及一種網頁文本高亮顯示方法及系統。
背景技術
傳統的文本高亮的做法一般是完全匹配和基于分詞查找的方法。完全匹配是用戶輸入的關鍵詞序列在網頁文本中查找與關鍵詞序列完全相同的文本串,并高亮顯示。若網頁文本中不存在與關鍵詞序列完全相同的文本串,則無法高亮顯示,即使網頁文本存在關鍵詞序列的某些子串(子串可以是關鍵詞序列的一部分或全部),這些子串也能反映用戶想要查找的內容,也不會將子串高亮顯示,這對用戶輸入關鍵詞序列的準確性要求較高,用戶體驗不好。
分詞方法主要分為兩種:基于規則的分詞方法和基于統計的分詞方法。基于規則的分詞方法的缺點在于無法有效地解決歧義切分和未登錄詞識別的問題。統計方法的缺點在于計算復雜性太高,導致切分效率降低,再加上受制于有限的訓練語料庫,分詞精度提升比較困難。因此,基于分詞的文本高亮算法最大的依賴是分詞詞典的優劣,對于一個新詞,在詞典更新之前,是不能進行正常分詞,就無法實現文本高亮。
發明內容
本發明要解決的技術問題是:現有的基于分詞的高亮顯示方法中不能進行正常分詞時就無法實現文本高亮的問題。
為解決上述技術問題,本發明提供了一種網頁文本高亮顯示系統,包括:
文本獲取模塊,適于獲取關鍵詞序列,選取需要標識關鍵詞的網頁文本;
查找標記模塊,適于在所述網頁文本中采用基于最大公共子串的方式查找并標記所述關鍵詞序列的子串;
高亮顯示模塊,適于在所述網頁文本中高亮顯示被標記的子串。
其中,查找標記模塊包括:
矩陣建立模塊,適于分別以所述網頁文本的長度和所述關鍵詞序列的長度為行數和列數建立矩陣M;
矩陣初始化模塊,適于初始化所述矩陣,若所述網頁文本的第i個字符與所述關鍵詞序列的第j個字符相同,則矩陣中的元素M[i][j]=1,否則為0;
子串標記模塊,適于遍歷所述矩陣的每個元素,標記元素為1的字符在所述網頁文本中的位置。
其中,所述子串標記模塊還適于遍歷所述矩陣時,分別從每個第一行和第一列的元素開始,沿矩陣中對角線方向遍歷所述矩陣的元素,當連續為1的元素個數為k,k大于等于2,則只標記元素連續為1的位置對應的長度為k的子串在所述網頁文本中的位置。
其中,所述子串標記模塊還適于在遍歷所述矩陣時,沿矩陣對角線方向元素連續為1的個數n大于等于預定閾值時,則只標記矩陣中n個連續1的位置對應的長度為n的子串在所述網頁文本中的位置。
其中,查找標記模塊包括:
矩陣建立模塊,適于分別以所述網頁文本的長度和所述關鍵詞序列的長度為行數和列數建立矩陣M;
矩陣初始化模塊,適于初始化所述矩陣,判斷所述網頁文本的第i個字符與所述關鍵詞序列的第j個字符是否相同,若相同,則判斷元素M[i-1][j-1]的值m是否為0,若不為0,則矩陣中的元素M[i][j]=m+1,否則M[i][j]=0;
子串標記模塊,適于遍歷所述矩陣的每個元素,標記元素不為0的字符在所述網頁文本中的位置。
其中,所述子串標記模塊還適于遍歷所述矩陣時,分別從每個第一行和第一列的元素開始,沿矩陣對角線方向遍歷所述矩陣的元素,當連續不為0的元素個數為k,k大于等于2,則只標記元素連續不為0的位置對應的長度為k的字串在所述網頁文本中的位置。
其中,所述子串標記模塊還適于在遍歷所述矩陣時,元素值p大于等于預定閾值時,則只標記從該元素起沿對角線方向的反方向長度為p的子串在所述網頁文本中的位置。
其中,還包括:西文字符處理模塊,適于所述關鍵詞序列包括英文或數字時,以非英文或數字字符為邊界,將所述英文或數字作為一個字符處理。
本發明還提供了一種網頁文本高亮顯示方法,包括以下步驟:
獲取關鍵詞序列,選取需要標識關鍵詞的網頁文本;
在所述網頁文本中采用基于最大公共子串的方式查找并標記所述關鍵詞序列的子串;
在所述網頁文本中高亮顯示被標記的子串。
其中,所述在網頁文本中采用基于最大公共子串的方式查找并標記所述關鍵詞序列的子串的步驟具體包括:
分別以所述網頁文本的長度和所述關鍵詞序列的長度為行數和列數建立矩陣M;
初始化所述矩陣,若所述網頁文本的第i個字符與所述關鍵詞序列的?j個字符相同,則矩陣中的元素M[i][j]=1,否則為0;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210214629.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:金屬覆銅板
- 下一篇:一種汽車保險杠裝配孔加工裝置





