[發(fā)明專利]索引建立方法、搜索方法和搜索結(jié)果排序方法及對應(yīng)裝置有效
| 申請?zhí)枺?/td> | 201110086824.1 | 申請日: | 2011-04-07 |
| 公開(公告)號: | CN102737039A | 公開(公告)日: | 2012-10-17 |
| 發(fā)明(設(shè)計(jì))人: | 喻宏勇;石遠(yuǎn) | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市威世博知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44280 | 代理人: | 何青瓦;李慶波 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 索引 建立 方法 搜索 結(jié)果 排序 對應(yīng) 裝置 | ||
1.一種索引建立方法,其特征在于,該方法包括:
A、對頁面進(jìn)行分詞和詞性標(biāo)注;
B、基于語義分析或頁面中的視覺特征中的至少一種,從分詞處理后得到的各詞語中確定實(shí)體詞以及該實(shí)體詞對應(yīng)的屬性詞并分別進(jìn)行標(biāo)注;
C、在建立所述頁面的索引時(shí),將建立索引所使用詞語具有的實(shí)體詞或?qū)傩栽~標(biāo)注同時(shí)添加入索引中。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟B中基于語義分析,從分詞處理后得到的各詞語中確定實(shí)體詞具體包括:
將頁面詞條中的名詞、被識別為頁面主題詞的名詞、作為句子中心詞的名詞、在頁面的出現(xiàn)頻次在預(yù)設(shè)范圍內(nèi)的名詞或者頁面中的命名實(shí)體確定為實(shí)體詞。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟B中基于語義分析,從分詞處理后得到的各詞語中確定實(shí)體詞對應(yīng)的屬性詞具體包括:
依據(jù)上下文關(guān)系,將分詞處理后得到的各詞語中與實(shí)體詞的屬性關(guān)系概率達(dá)到預(yù)設(shè)屬性概率閾值的詞語作為該實(shí)體詞的屬性詞;或者,
依據(jù)預(yù)設(shè)的語義模板,從分詞處理后得到的各詞語中確定實(shí)體詞對應(yīng)的屬性詞,所述語義模板中包含實(shí)體詞與屬性詞構(gòu)成的各種句式結(jié)構(gòu)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述頁面中的視覺特征包括:邏輯塊、邏輯塊與邏輯塊之間的距離、背景顏色、字體顏色和大小、邊框、符號或者表格;
步驟B中基于頁面中的視覺特征,從分詞處理后得到的各詞語中確定實(shí)體詞以及實(shí)體詞對應(yīng)的屬性詞具體包括:將頁面中具有預(yù)設(shè)視覺特征的詞語確定為實(shí)體詞或?qū)傩栽~。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟C中,添加入所述索引中的還包括以下標(biāo)注中的至少一種:
實(shí)體詞與屬性詞之間對應(yīng)關(guān)系的標(biāo)注;
屬性詞的屬性類型標(biāo)注;
實(shí)體詞具有突出的視覺特征標(biāo)注;以及,
屬性詞具有突出的視覺特征標(biāo)注。
6.一種搜索方法,其特征在于,該方法包括:
A、對接收到的搜索請求query進(jìn)行分詞和詞性標(biāo)注;
B、基于語義分析,從分詞處理后得到的各詞語中確定實(shí)體詞以及該實(shí)體詞對應(yīng)的屬性詞并分別進(jìn)行標(biāo)注;
C、查找與分詞處理后得到的各詞語以及各詞語的標(biāo)注相匹配的索引對應(yīng)的頁面,其中各詞語的標(biāo)注為各詞語的實(shí)體詞或?qū)傩栽~標(biāo)注,所述索引采用如權(quán)利要求1所述的方法建立;
D、將查找到的頁面包含在所述query的搜索結(jié)果中。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,在所述步驟A和步驟B之間還包括:
基于預(yù)設(shè)的停用詞表對分詞處理后得到的各詞語進(jìn)行過濾處理,過濾掉所述停用詞表中包含的詞語;
所述停用詞表中包含以下所列的至少一種:副詞、虛詞、助詞、疑問詞、語氣詞、代詞。
8.根據(jù)權(quán)利要求6或7所述的方法,其特征在于,步驟B中基于語義分析,從分詞處理后得到的各詞語中確定實(shí)體詞具體包括:
將作為query中心詞的名詞或者query中的命名實(shí)體確定為實(shí)體詞。
9.根據(jù)權(quán)利要求6或7所述的方法,其特征在于,步驟B中基于語義分析,從分詞處理后得到的各詞語中確定實(shí)體詞對應(yīng)的屬性詞具體包括:
依據(jù)上下文關(guān)系,將所述分詞處理后得到的各詞語中與實(shí)體詞的屬性關(guān)系概率達(dá)到預(yù)設(shè)屬性概率閾值的詞語作為該實(shí)體詞的屬性詞;或者,
依據(jù)預(yù)設(shè)的語義模板,從所述分詞處理后得到的各詞語中確定實(shí)體詞對應(yīng)的屬性詞,所述語義模板中包含實(shí)體詞與屬性詞構(gòu)成的各種句式結(jié)構(gòu)。
10.根據(jù)權(quán)利要求6或7所述的方法,其特征在于,在所述步驟B和所述步驟C之間還包括:
E、對所述query進(jìn)行需求明確度分析,如果確定所述query需求明確,則繼續(xù)執(zhí)行所述步驟C;否則,執(zhí)行步驟F;
F、查找與所述分詞處理后得到的各詞語相匹配的索引對應(yīng)的頁面,轉(zhuǎn)至所述步驟D。
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,步驟E中對所述query進(jìn)行需求明確度分析具體包括:
如果所述query中含有動詞,則確定所述query具有明確的需求;或者,
如果所述query中包含預(yù)設(shè)的需求詞表中的詞語,則確定所述query具有明確的需求,所述需求詞表通過手工或數(shù)據(jù)挖掘的方式形成且包含具有明確需求的詞語。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110086824.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:牽引供電系統(tǒng)及方法
- 下一篇:一種多功能床頭燈
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





