[發明專利]從網絡中查找與主題詞相關的名稱的方法和設備有效
| 申請號: | 201110401703.1 | 申請日: | 2011-12-06 |
| 公開(公告)號: | CN103150307A | 公開(公告)日: | 2013-06-12 |
| 發明(設計)人: | 謝宣松;姜珊珊;孫軍;鄭繼川 | 申請(專利權)人: | 株式會社理光 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 丁辰 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡 查找 主題詞 相關 名稱 方法 設備 | ||
1.一種從網絡中查找與主題詞相關的名稱的方法,包括:
網頁查找步驟,在網絡中查找與主題詞相關的網頁,并對網頁進行過濾和解析;
候選名稱第一提取步驟,根據單個網頁的DOM樹中的圖像節點,提取其中的圖像名稱并與周邊文本匹配后構成候選名稱第一集合;
候選名稱第二提取步驟,將該網頁的DOM樹轉換成代碼序列,在代碼序列中確定重復子序列,在該網頁的候選名稱第一集合中,提取與重復子序列相對應的候選名稱,構成候選名稱第二集合;
單頁候選名稱確定步驟,根據預定規則及預定模板來對候選名稱第二集合進行過濾,確定該網頁的候選名稱;
多頁候選名稱過濾步驟,針對來自多個網頁的候選名稱,根據候選名稱之間或候選名稱與主題詞的關系進行過濾,得到與該主題詞相關的名稱;
名稱排序步驟,計算各個名稱的分值,根據分值對各個名稱進行排序。
2.按照權利要求1所述的方法,其中,所述網頁查找步驟包括:
主題詞擴展步驟,根據預定義的模式將主題詞擴展得到多個查詢詞;
網頁搜索步驟,利用所述多個查詢詞在網絡中查找網頁;
網頁過濾步驟,根據網頁的URL地址、標題、網頁描述和主題詞來過濾網頁;
解析步驟,將通過所述網頁過濾步驟的過濾的網頁解析為DOM樹;
節點過濾步驟,根據預定的去除規則及保留規則對節點進行過濾。
3.按照權利要求1所述的方法,其中,所述候選名稱第一提取步驟包括:
圖像節點查找步驟,根據節點的標簽名稱來在該單個網頁的DOM樹中查找到圖像節點;
圖像節點過濾步驟,在所述圖像節點中,根據預定規則過濾掉不可能包含與主題詞相關的名稱的圖像節點;
圖像名稱查找步驟,針對通過所述圖像節點過濾步驟的過濾的圖像節點,在圖像節點的屬性值中查找圖像名稱;
圖像名稱驗證步驟,在該圖像節點的附近節點中,查找與該圖像名稱匹配的文本,過濾掉與附近節點的文本匹配程度低的圖像名稱,通過過濾的圖像名稱構成候選名稱第一集合。
4.按照權利要求1所述的方法,其中,在所述候選名稱第二提取步驟中,根據該單個網頁的DOM樹中節點的標簽種類、及該節點相對于根節點的深度,來對節點編碼,該DOM樹中節點的代碼構成該DOM樹的代碼序列。
5.按照權利要求1所述的方法,其中,在所述候選名稱第二提取步驟中,利用后綴數組算法,根據子序列相似度來在DOM樹的代碼序列中查找重復子序列。
6.按照權利要求1所述的方法,其中,在所述候選名稱第二提取步驟中,
根據各個重復子序列的長度和頻率確定其分值,確定分值最大的重復子序列,判斷該網頁的候選名稱第一集合中的候選名稱是否與該最大的重復子序列相關,相關的候選名稱構成候選名稱第二集合。
7.按照權利要求1所述的方法,其中,所述單頁候選名稱確定步驟包括:
名稱去除步驟,去除屬于預定集合的候選名稱;
模板過濾步驟,把通過名稱去除步驟的候選名稱代入預定模板,去除與任何預定模板不相匹配的候選名稱;
長度過濾步驟,針對通過模板過濾的候選名稱,去除其長度在預定閾值以外的部分,經過長度過濾的候選名稱作為該網頁的候選名稱。
8.按照權利要求1所述的方法,其中,在所述多頁候選名稱過濾步驟中,
針對來自多個網頁的候選名稱,計算各個候選名稱與其它候選名稱的相似度,去除與其它候選名稱的相似度低于預定閾值的候選名稱,以未被去除的候選名稱作為查詢詞搜索主題詞,去除搜索不到主題詞的候選名稱,其余候選名稱作為與該主題詞相關的名稱。
9.按照權利要求1所述的方法,其中,在所述名稱排序步驟中,
根據各個名稱的查詢權重、網頁權重、頁內位置權重、內容權重、頻率權重中的一個或多個來確定該名稱的分值,根據該分值對各個名稱進行排序并輸出。
10.一種從網絡中查找與主題詞相關的名稱的設備,包括:
網頁查找裝置,在網絡中查找與主題詞相關的網頁,并對網頁進行過濾和解析;
候選名稱第一提取裝置,根據單個網頁的DOM樹中的圖像節點,提取其中的圖像名稱并與周邊文本匹配后構成候選名稱第一集合;
候選名稱第二提取裝置,將該網頁的DOM樹轉換成代碼序列,在代碼序列中確定重復子序列,在該網頁的候選名稱第一集合中,提取與重復子序列相對應的候選名稱,構成候選名稱第二集合;
單頁候選名稱確定裝置,根據預定規則及預定模板來對候選名稱第二集合進行過濾,確定該網頁的候選名稱;
多頁候選名稱過濾裝置,針對來自多個網頁的候選名稱,根據候選名稱之間或候選名稱與主題詞的關系進行過濾,得到與該主題詞相關的名稱;
名稱排序裝置,計算各個名稱的分值,根據分值對各個名稱進行排序。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社理光,未經株式會社理光許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110401703.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種光罩
- 下一篇:存儲快照創建方法和裝置





