[發(fā)明專利]一種文檔索引的建立方法和裝置在審
| 申請?zhí)枺?/td> | 201410806931.0 | 申請日: | 2014-12-22 |
| 公開(公告)號: | CN104504069A | 公開(公告)日: | 2015-04-08 |
| 發(fā)明(設(shè)計)人: | 王翀;陳進平 | 申請(專利權(quán))人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京潤澤恒知識產(chǎn)權(quán)代理有限公司11319 | 代理人: | 趙娟 |
| 地址: | 100088北京市西城區(qū)新*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文檔 索引 建立 方法 裝置 | ||
1.一種文檔索引的建立方法,包括:
提取網(wǎng)頁中的文本信息;
判斷所述文本信息中是否具有通訊特征信息;若是,則提取所述通訊特征信息;
采用所述通訊特征信息和所述網(wǎng)頁建立文檔索引。
2.如權(quán)利要求1所述的方法,其特征在于,所述網(wǎng)頁包括頁面標題、頁眉、頁腳、主體內(nèi)容、功能區(qū)、導(dǎo)航區(qū)中的至少一個區(qū)域;
所述提取網(wǎng)頁中的文本信息的步驟包括:
提取網(wǎng)頁中頁面標題、頁眉、頁腳、主體內(nèi)容、功能區(qū)、導(dǎo)航區(qū)中的至少一個區(qū)域的文本信息。
3.如權(quán)利要求1-2任一項所述的方法,其特征在于,所述通訊特征信息包括指定位數(shù)的電話號碼;
所述判斷所述文本信息中是否具有通訊特征信息的步驟包括:
對所述文本信息進行分詞處理,獲得一個或多個文本分詞;
當(dāng)所述文本分詞與預(yù)設(shè)的通訊標識匹配時,判斷第一目標文本分詞是否為指定位數(shù)的數(shù)字序列;所述第一目標文本分詞為與所述通訊標識匹配的文本分詞之后的文本分詞;
若是,則判斷所述第一目標文本分詞為指定位數(shù)的電話號碼。
4.如權(quán)利要求1-3任一項所述的方法,其特征在于,所述通訊特征信息還包括電話區(qū)號;
所述判斷所述文本信息中是否具有通訊特征信息的步驟還包括:
判斷第二目標文本分詞中是否具有區(qū)號標識;若是,則判斷所述目標文本分詞對應(yīng)的文本分詞為電話區(qū)號;所述第二目標文本分詞為與所述通訊標識匹配的文本分詞之后的文本分詞。
5.如權(quán)利要去1-4任一項所述的方法,其特征在于,所述判斷所述目標文本分詞對應(yīng)的文本分詞為區(qū)號信息的步驟包括:
判斷所述目標文本分詞包含的文本分詞為電話區(qū)號;
或者,
判斷在所述目標文本分詞之前的文本分詞為電話區(qū)號。
6.如權(quán)利要求1-5任一項所述的方法,其特征在于,所述指定位數(shù)為7位或8位。
7.如權(quán)利要求1-6任一項所述的方法,其特征在于,所述采用所述通訊特征信息和所述網(wǎng)頁建立文檔索引的步驟包括:
記錄出現(xiàn)的所述通訊特征信息在所述網(wǎng)頁中出現(xiàn)的位置;
將所述通訊特征信息及所述出現(xiàn)的位置記錄在文檔索引中。
8.一種文檔索引的建立裝置,包括:
第一提取模塊,適于提取網(wǎng)頁中的文本信息;
判斷模塊,適于判斷所述文本信息中是否具有通訊特征信息;若是,則調(diào)用第二提取模塊;
第二提取模塊,適于提取所述通訊特征信息;
建立模塊,適于采用所述通訊特征信息和所述網(wǎng)頁建立文檔索引。
9.如權(quán)利要求8所述的裝置,其特征在于,所述網(wǎng)頁包括頁面標題、頁眉、頁腳、主體內(nèi)容、功能區(qū)、導(dǎo)航區(qū)中的至少一個區(qū)域;
所述第一提取模塊還適于:
提取網(wǎng)頁中頁面標題、頁眉、頁腳、主體內(nèi)容、功能區(qū)、導(dǎo)航區(qū)中的至少一個區(qū)域的文本信息。
10.如權(quán)利要求8-9任一項所述的裝置,其特征在于,所述通訊特征信息包括指定位數(shù)的電話號碼;所述判斷模塊還適于:
對所述文本信息進行分詞處理,獲得一個或多個文本分詞;
當(dāng)所述文本分詞與預(yù)設(shè)的通訊標識匹配時,判斷第一目標文本分詞是否為指定位數(shù)的數(shù)字序列;所述第一目標文本分詞為與所述通訊標識匹配的文本分詞之后的文本分詞;
若是,則判斷所述第一目標文本分詞為指定位數(shù)的電話號碼。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司;,未經(jīng)北京奇虎科技有限公司;奇智軟件(北京)有限公司;許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410806931.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種對多媒體類別的處理方法及裝置
- 下一篇:一種頁面展示方法和瀏覽器裝置





