[發明專利]觀點處理方法和裝置以及搜索方法和裝置在審
| 申請號: | 201410319166.X | 申請日: | 2014-07-04 |
| 公開(公告)號: | CN104063497A | 公開(公告)日: | 2014-09-24 |
| 發明(設計)人: | 張希娟;張偉萌;何伯磊;費曉旭;胡小博;王丙寅;趙輝;劉濤;譚玉佩;忻舟;馬艷軍;廖毅 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 鄧猛烈;孟金喆 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 觀點 處理 方法 裝置 以及 搜索 | ||
1.一種觀點處理方法,其特征在于,包括:
基于預設策略,從問答對資源中獲取問題對應的觀點;
將問題所對應的觀點進行聚合,形成問題觀點庫。
2.根據權利要求1所述的方法,其特征在于,基于預設策略,從問答對資源中獲取問題對應的觀點,包括:
基于預設觀點片段定位策略,確定問答對資源中問題對應的答案中的觀點片段;
基于預設觀點驗證策略,確定所述觀點片段中的觀點;
基于預設觀點清除策略,從確定的觀點中清除垃圾觀點。
3.根據權利要求2所述的方法,其特征在于,基于預設觀點片段定位策略,確定問答對資源中問題對應的答案中的觀點片段,包括:
對問答對資源中的答案進行預處理,確定答案所包含的分句;
將所述分句與觀點定位模板進行匹配,將與觀點定位模板匹配的部分作為答案中的觀點片段。
4.根據權利要求3所述的方法,其特征在于,在將所述分句與觀點定位模板進行匹配,將與觀點定位模板匹配的部分作為答案中的觀點片段之后,還包括:
選取設定數量的觀點片段,并根據選取的所述觀點片段獲取擴展觀點定位模板;
如果在設定觀點定位模板中沒有匹配到所述擴展觀點定位模板,則將所述擴展觀點定位模板存儲到設定觀點定位模板中。
5.根據權利要求2所述的方法,其特征在于,基于預設觀點驗證策略,確定所述觀點片段中的觀點,包括下述至少一項:
利用切詞邊界驗證技術,從觀點片段中選取切詞邊界符合標準切詞邊界的觀點片段作為觀點;
對觀點片段進行詞性標注,將符合設定觀點語法結構的觀點片段作為觀點;
將觀點片段作為查詢式通過搜索引擎進行搜索,根據搜索結果中的紅標字段修正所述觀點片段的邊界,將修正后的觀點片段作為觀點,其中所述紅標字段滿足下述條件:所述紅標字段的出現頻次大于第一門限值,且所述紅標字段的長度與觀點片段的長度的比例大于第二門限值。
6.根據權利要求2所述的方法,其特征在于,基于預設觀點清除策略,從確定的觀點中清除垃圾觀點包括下述至少一項:
將所述觀點與對應的問題中的關鍵字段組成查詢式通過搜索引擎進行搜索,在搜索結果中的紅標字段中確定所述查詢式的共現頻次,并過濾掉共現頻次低于第三門限值的查詢式中的觀點;
確定所述觀點在問答對資源中的逆文檔頻率IDF,過濾掉所述IDF高于第四門限值的觀點。
7.根據權利要求1所述的方法,其特征在于,將問題所對應的觀點進行聚合,形成問題觀點庫,包括:
基于預設觀點聚合策略,根據觀點相似度進行觀點聚合,得到觀點簇;
基于預設觀點歸一化策略,從觀點簇中確定一個歸一化觀點,得到問題對應的歸一化觀點集合;
根據所述問題的歸一化觀點集合中的歸一化觀點,形成問題觀點庫。
8.根據權利要求7所述的方法,其特征在于,基于預設觀點聚合策略,根據觀點相似度進行觀點聚合,得到觀點簇,包括:
將觀點按基本詞粒度和/或混排粒度轉化為詞向量,確定觀點包含的詞向量對應的IDF;
將相鄰詞為否定詞的詞向量的IDF提高;
將所述IDF高于第五門限值的詞向量作為核心詞向量;
計算核心詞向量中每兩個核心詞向量的cos夾角,并將cos夾角小于第六門限值的核心詞向量所屬的觀點聚合到一個觀點簇中。
9.根據權利要求7所述的方法,其特征在于,基于預設觀點聚合策略,根據觀點相似度進行觀點聚合,得到觀點簇,包括:
計算與問題對應的觀點中兩個觀點的語義相似度,并將語義相似度大于第七門限值的觀點聚合到一個觀點簇中。
10.根據權利要求7所述的方法,其特征在于,基于預設觀點歸一化策略,從觀點簇中確定一個歸一化觀點,包括下述至少一項:
根據觀點中信息的覆蓋率確定歸一化觀點;
計算觀點簇包含的觀點的IDF*log(IDF),選取結果值最小的觀點作為所述歸一化觀點;
計算觀點簇包含的觀點的出現頻次,并根據所述出現頻次確定觀點的權重值,將權重值最高的觀點作為所述歸一化觀點;
將符合預設句型的觀點中的一個作為所述歸一化觀點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410319166.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息處理設備以及信息處理方法
- 下一篇:一種自適應補足關鍵詞上下文的方法





