[發(fā)明專利]一種基于搜索語(yǔ)句切詞結(jié)果的搜索方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201711290902.3 | 申請(qǐng)日: | 2017-12-08 |
| 公開(公告)號(hào): | CN108009153A | 公開(公告)日: | 2018-05-08 |
| 發(fā)明(設(shè)計(jì))人: | 王兵權(quán);喻波;王志海;魏效征;牛立偉;曹石勇 | 申請(qǐng)(專利權(quán))人: | 北京明朝萬達(dá)科技股份有限公司 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27;G06F17/30;G06Q30/06 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100097 北京市海淀*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 搜索 語(yǔ)句 結(jié)果 方法 系統(tǒng) | ||
1.一種基于搜索語(yǔ)句切詞結(jié)果的搜索方法,其特征在于,該方法包括以下步驟:
1)接收搜索框內(nèi)輸入的搜索語(yǔ)句;
2)查找所述搜素語(yǔ)句中的所有停用詞,并將停用詞分割的各個(gè)語(yǔ)句作為單獨(dú)的一個(gè)切分單位,如果沒有找到停用詞,則將整個(gè)搜索語(yǔ)句作為切分單元,將所有的切分單元進(jìn)行存儲(chǔ);
3)利用Trie樹字典對(duì)所有切分單元進(jìn)行正向切分和逆向切分,切分完成后,分別存儲(chǔ)正向切分結(jié)果和逆向切分結(jié)果;
4)判斷所述正向切分結(jié)果和逆向切分結(jié)果是否相同,如果是,則將所述正向切分結(jié)果或逆向切分結(jié)果作為最終切分結(jié)果,跳轉(zhuǎn)到步驟6),否則跳轉(zhuǎn)到步驟5);
5)對(duì)正向切分結(jié)果和逆向切分結(jié)果進(jìn)行交叉歧義選擇得到最終切分結(jié)果;
6)采用該最終切分結(jié)果作為搜索語(yǔ)句的關(guān)鍵詞進(jìn)行搜索。
2.根據(jù)權(quán)利要求1所述的方法,所述步驟1)之前,包括以下步驟:
根據(jù)詞庫(kù)對(duì)GB2312字庫(kù)中的每一個(gè)字符構(gòu)建Trie樹,形成Trie樹字典。
3.根據(jù)權(quán)利要求2所述的方法,每個(gè)Trie樹節(jié)點(diǎn)包括以下成員:字符本身,當(dāng)前節(jié)點(diǎn)是否構(gòu)成詞的標(biāo)志,數(shù)組成員個(gè)數(shù),詞性值,指向數(shù)組成員的指針。
4.根據(jù)權(quán)利要求2所述的方法,所述詞庫(kù)來自搜狗詞庫(kù)、中華詞典以及通過爬蟲技術(shù)在淘寶、京東搜索獲取的推薦詞;
對(duì)于詞庫(kù)的詞語(yǔ),通過爬蟲技術(shù)在百度百科中校驗(yàn)是否構(gòu)成詞語(yǔ)。
5.根據(jù)權(quán)利要求3所述的方法,所述詞性值包括:產(chǎn)品詞,品牌詞,地區(qū)詞。
6.根據(jù)權(quán)利要求1-5之一所述的方法,所述交叉歧義選擇包括至少以下選擇標(biāo)準(zhǔn)之一:
長(zhǎng)詞個(gè)數(shù)多者優(yōu)先、二元詞個(gè)數(shù)多者優(yōu)先、單字個(gè)數(shù)少者優(yōu)先、地區(qū)詞取正切、詞個(gè)數(shù)少者優(yōu)先、產(chǎn)品詞個(gè)數(shù)多者優(yōu)先或三字詞多者優(yōu)先。
7.一種基于搜索語(yǔ)句切詞結(jié)果的搜索系統(tǒng),其特征在于,該系統(tǒng)包括:
搜索語(yǔ)句接收模塊,接收搜索框內(nèi)輸入的搜索語(yǔ)句;
停用詞查找模塊,查找所述搜素語(yǔ)句中的所有停用詞,并將停用詞分割的各個(gè)語(yǔ)句作為單獨(dú)的一個(gè)切分單位,如果沒有找到停用詞,則將整個(gè)搜索語(yǔ)句作為切分單元,將所有的切分單元進(jìn)行存儲(chǔ);
語(yǔ)句切分模塊,利用Trie樹字典對(duì)所有切分單元進(jìn)行正向切分和逆向切分,切分完成后,分別存儲(chǔ)正向切分結(jié)果和逆向切分結(jié)果;
切分結(jié)果判斷模塊,判斷所述正向切分結(jié)果和逆向切分結(jié)果是否相同;
切分結(jié)果確定模塊,如果正向切分和逆向切分結(jié)果,則將所述正向切分結(jié)果或逆向切分結(jié)果作為最終切分結(jié)果,對(duì)正向切分結(jié)果和逆向切分結(jié)果進(jìn)行交叉歧義選擇得到最終切分結(jié)果;
搜索結(jié)果輸出模塊,采用該最終切分結(jié)果作為搜索語(yǔ)句的關(guān)鍵詞進(jìn)行搜索,輸出搜索結(jié)果。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),該系統(tǒng)還包括:
字典構(gòu)建模塊,根據(jù)詞庫(kù)對(duì)GB2312字庫(kù)中的每一個(gè)字符構(gòu)建Trie樹,形成Trie樹字典。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),每個(gè)Trie樹節(jié)點(diǎn)包括:字符本身,當(dāng)前節(jié)點(diǎn)是否構(gòu)成詞的標(biāo)志,數(shù)組成員個(gè)數(shù),詞性值,指向數(shù)組成員的指針。
10.根據(jù)權(quán)利要求8所述的系統(tǒng),所述詞庫(kù)來自搜狗詞庫(kù)、中華詞典以及通過爬蟲技術(shù)在淘寶、京東搜索獲取的推薦詞;
對(duì)于詞庫(kù)的詞語(yǔ),通過爬蟲技術(shù)在百度百科中校驗(yàn)是否構(gòu)成詞語(yǔ)。
11.根據(jù)權(quán)利要求9所述的系統(tǒng),所述詞性值包括:產(chǎn)品詞,品牌詞,地區(qū)詞。
12.根據(jù)權(quán)利要求7-11之一所述的系統(tǒng),所述交叉歧義選擇包括至少以下選擇標(biāo)準(zhǔn)之一:長(zhǎng)詞個(gè)數(shù)多者優(yōu)先、二元詞個(gè)數(shù)多者優(yōu)先、單字個(gè)數(shù)少者優(yōu)先、地區(qū)詞取正切、詞個(gè)數(shù)少者優(yōu)先、產(chǎn)品詞個(gè)數(shù)多者優(yōu)先或三字詞多者優(yōu)先。
13.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序指令,通過執(zhí)行該計(jì)算機(jī)程序指令,實(shí)現(xiàn)權(quán)利要求1-6之一所述的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京明朝萬達(dá)科技股份有限公司,未經(jīng)北京明朝萬達(dá)科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711290902.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 基于聊天大數(shù)據(jù)知識(shí)庫(kù)的機(jī)器人對(duì)話控制方法和系統(tǒng)
- 基于大數(shù)據(jù)搜索的幽默型機(jī)器人對(duì)話控制方法和系統(tǒng)
- 基于對(duì)話知識(shí)庫(kù)的機(jī)器人對(duì)話控制方法和系統(tǒng)
- 一種自然語(yǔ)言語(yǔ)句評(píng)價(jià)方法及裝置
- 句子級(jí)雙語(yǔ)對(duì)齊方法及系統(tǒng)
- 一種獲取相似語(yǔ)句的方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種翻譯模型結(jié)果重排序的方法及裝置
- 用于輸出信息的方法、裝置、設(shè)備以及存儲(chǔ)介質(zhì)
- 搜索推薦方法和裝置、服務(wù)器、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本識(shí)別方法、裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)





