[發(fā)明專利]一種語(yǔ)義冗余的挖掘方法和裝置有效
申請(qǐng)?zhí)枺?/td> | 201210306502.8 | 申請(qǐng)日: | 2012-08-24 |
公開(kāi)(公告)號(hào): | CN103631812B | 公開(kāi)(公告)日: | 2018-09-04 |
發(fā)明(設(shè)計(jì))人: | 趙世奇 | 申請(qǐng)(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
代理公司: | 北京鴻德海業(yè)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 國(guó)省代碼: | 北京;11 |
權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
摘要: | |||
搜索關(guān)鍵詞: | 一種 語(yǔ)義 冗余 挖掘 方法 裝置 | ||
1.一種語(yǔ)義冗余的挖掘方法,其特征在于,該方法包括:
S1、從搜索日志中獲取Q-Q、Q-T和T-T中的至少一種資源作為候選句對(duì),所述Q-Q為用戶在一個(gè)會(huì)話session中搜索的兩個(gè)查詢項(xiàng)query構(gòu)成的句對(duì),所述Q-T為query與對(duì)應(yīng)的被點(diǎn)擊網(wǎng)頁(yè)標(biāo)題title構(gòu)成的句對(duì),所述T-T為同一個(gè)query對(duì)應(yīng)的兩個(gè)被點(diǎn)擊title構(gòu)成的句對(duì);
S2、從各候選句對(duì)中抽取具有相同上下文語(yǔ)境的短語(yǔ)對(duì)作為候選復(fù)述短語(yǔ)對(duì);
S3、從候選復(fù)述短語(yǔ)對(duì)中抽取短語(yǔ)p2被另一個(gè)短語(yǔ)p1完全包含的候選復(fù)述短語(yǔ)對(duì);
S4、對(duì)所述步驟S3抽取出的候選復(fù)述短語(yǔ)對(duì)進(jìn)行噪聲過(guò)濾后,得到語(yǔ)義冗余短語(yǔ)對(duì),所述語(yǔ)義冗余短語(yǔ)對(duì)中短語(yǔ)p1比短語(yǔ)p2冗余的詞語(yǔ)為語(yǔ)義冗余詞。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟S2中按照如下短語(yǔ)抽取規(guī)則抽取短語(yǔ)對(duì)作為候選復(fù)述短語(yǔ)對(duì):兩個(gè)短語(yǔ)的前一個(gè)詞相同且后一個(gè)詞相同,但兩個(gè)短語(yǔ)本身不相同。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述短語(yǔ)抽取規(guī)則還包括以下至少一種:兩短語(yǔ)的長(zhǎng)度在預(yù)設(shè)的長(zhǎng)度范圍內(nèi),兩短語(yǔ)中不包含標(biāo)點(diǎn)且不完全由停用詞構(gòu)成,或者兩短語(yǔ)之前和之后不是標(biāo)點(diǎn)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S2中還包括:統(tǒng)計(jì)各候選復(fù)述短語(yǔ)對(duì)分別從Q-Q、Q-T和T-T抽取出來(lái)的次數(shù),將總次數(shù)小于預(yù)設(shè)次數(shù)閾值的候選復(fù)述短語(yǔ)對(duì)過(guò)濾掉。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟S4中所述噪聲過(guò)濾包括以下至少一種:
計(jì)算候選復(fù)述短語(yǔ)對(duì)的上下文的熵,將存在上下文的熵小于預(yù)設(shè)熵閾值的候選復(fù)述短語(yǔ)對(duì)過(guò)濾掉;
統(tǒng)計(jì)候選復(fù)述短語(yǔ)對(duì)從Q-Q、Q-T和T-T抽取出來(lái)的總次數(shù)以及候選復(fù)述短語(yǔ)對(duì)從Q-T抽取出來(lái)的次數(shù)Cq-t(p1,p2),將總次數(shù)小于預(yù)設(shè)第一次數(shù)閾值Th1且Cq-t(p1,p2)小于第二次數(shù)閾值Th2的候選復(fù)述短語(yǔ)對(duì)過(guò)濾掉,其中所述Th1大于所述Th2;
如果候選復(fù)述短語(yǔ)對(duì)中短語(yǔ)p1比p2冗余的詞語(yǔ)存在于過(guò)濾詞表L1中,則將該候選復(fù)述短語(yǔ)對(duì)過(guò)濾掉;
如果候選復(fù)述短語(yǔ)對(duì)中短語(yǔ)p2存在于過(guò)濾詞表L2中,則將該候選復(fù)述短語(yǔ)對(duì)過(guò)濾掉;
確定同一短語(yǔ)p2所在的各候選復(fù)述短語(yǔ)對(duì)的詞頻分值,將詞頻分值排在前N個(gè)之外的候選復(fù)述短語(yǔ)對(duì)過(guò)濾掉,所述N為預(yù)設(shè)的正整數(shù)。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述計(jì)算候選復(fù)述短語(yǔ)對(duì)的上下文的熵具體包括:
按照公式計(jì)算候選復(fù)述短語(yǔ)對(duì)<p1,p2>的左上下文的熵El(p1,p2);
按照公式計(jì)算候選復(fù)述短語(yǔ)對(duì)<p1,p2>的右上下文的熵Er(p1,p2);
其中,wl為p1和p2的所有左上下文詞,wr為p1和p2的所有右上下文詞,當(dāng)w∈wl時(shí),p(w)為w相對(duì)于所有左上下文詞的出現(xiàn)概率,當(dāng)w∈wr時(shí),p(w)為w相對(duì)于所有右上下文詞的出現(xiàn)概率,所述左上下文指的是所述<p1,p2>的所述相同上下文語(yǔ)境中在p1或p2之前的上下文,右上下文指的是所述<p1,p2>的所述相同上下文語(yǔ)境中在p1或p2之后的上下文。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210306502.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 面向語(yǔ)義Web服務(wù)程序設(shè)計(jì)的語(yǔ)義數(shù)據(jù)表示和處理方法
- 一種基于語(yǔ)義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語(yǔ)義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語(yǔ)義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語(yǔ)義匹配方法和系統(tǒng)
- 遠(yuǎn)程語(yǔ)義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語(yǔ)義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語(yǔ)義表征和語(yǔ)義計(jì)算的信號(hào)語(yǔ)義識(shí)別方法
- 語(yǔ)義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種針對(duì)ASIC設(shè)計(jì)中網(wǎng)表邏輯冗余的優(yōu)化方法及系統(tǒng)
- 可自動(dòng)恢復(fù)冗余的冗余控制系統(tǒng)及其冗余自動(dòng)恢復(fù)方法
- 一種具備冗余接口的列控車載設(shè)備
- 可自動(dòng)恢復(fù)冗余的冗余控制系統(tǒng)
- 一種監(jiān)測(cè)冗余網(wǎng)絡(luò)完整性的方法和冗余裝置
- 冗余修正電路及應(yīng)用其的冗余修正方法
- N:1有狀態(tài)應(yīng)用網(wǎng)關(guān)冗余方法、系統(tǒng)和備用服務(wù)網(wǎng)關(guān)
- 冗余網(wǎng)絡(luò)中的信息共享方法及裝置、計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 帶反饋校正的冗余結(jié)構(gòu)
- 一種冗余制動(dòng)單元及車輛
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)