[發明專利]一種根據維基百科中話題信息使查詢詞項多樣化的方法有效
| 申請號: | 201310356319.3 | 申請日: | 2013-08-15 |
| 公開(公告)號: | CN103455564B | 公開(公告)日: | 2018-11-13 |
| 發明(設計)人: | 胡昊;張明西;汪衛;王鵬;何震瀛 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 陸飛;盛志范 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 根據 百科 話題 信息 查詢 多樣化 方法 | ||
1.一種根據維基百科中分類信息使查詢詞項多樣化的方法,其特征在于具體步驟如下:
(1)對于候選擴展集T中的每一個詞項tx∈T,設維基百科中的相關話題信息C={c1,c2,...,cn}由n個話題組成,根據話題對應方法,為每個詞項tx生成話題分布ζ(tx),該分布的概率質量函數記為P{C=ci|tx}=P(ci|tx);
(2)以步驟(1)求出的|T|個分布,根據相關性函數sim1、sim2和參數λ,λ∈[0,1],利用已知的MMR算法找出多樣化此項擴展集合Sk,使得|Sk|=k,且Sk中的k個詞項既與目標查詢詞t0相似,又盡可能在話題信息上呈現多樣性;其中,MMR算法每一步優化的目標為:
(3)步驟(2)中的sim1(t0,ti)為任意已知求解詞項相似性的度量方法;對于sim2(tx,ti),計算時首先求出tx和ti在所有分類信息上的分布ζ(tx)和ζ(ti),然后采用cosine距離來計算相似度,即sim2(tx,ti)=cos(ζ(tx),ζ(ti));
步驟(1)中所述話題對應方法的步驟如下:
(a)選擇與t0在分類信息上首次出現的分類c,令C={c1,c2,...,cn}為所有c的子分類;
(b)對于分布ζ(tx),其概率質量函數P(ci|tx)按照如下方法計算:
其中詞項tx的概率P(tx)在分布的各個分量中都相等,不會影響ζ(tx),因此忽略不計算P(tx);詞項tx在給定分類信息ci上的概率P(tx|ci)是維基百科中的先驗概率,它與查詢所在的數據庫無關;分類信息ci的概率P(ci)則為ci在數據庫上的概率;
步驟(b)中所述P(tx|ci)和P(ci)的計算方法如下:
(b1)詞項tx在給定分類信息ci上的概率P(tx|ci)分為分類短語相關概率Pph(tx|ci)和統計相關概率Pst(tx|ci),P(tx|ci)計算式為:
P(tx|ci)=αPph(tx|ci)+(1-α)Pst(tx|ci)
其中,α是調整分類短語相關概率和統計相關概率的權重參數,取值范圍為0≤α≤1;
(b2)步驟(b1)中Pph(tx|ci)計算式為:
其中當詞項tx在分類系信息ci中出現時,否則
Pph(tx|ci)為P(tx|ci)的分類短語相關概率;
(b3)步驟(b1)中Pst(tx|ci)即詞項tx在文檔集D(ci)中的TF-IDF值,其中文檔集D(ci)是維基百科中分類信息ci下的所有解釋頁面;
(b4)P(ci)的計算式為:其中p=2,Num_of_terms(ci)為分類信息ci中詞項的個數;
(b5)步驟(b4)中Imp(tj)=PR(tj)×IDF(tj),其中PR(tj)為詞項tj在數據庫中的PageRank值,計算時,先按照數據庫的模式將數據改寫成圖數據,然后按照PageRank的方法進行計算;IDF(tj)為詞項tj在數據庫中出現次數的倒數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310356319.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數字胎壓計
- 下一篇:銅配線的形成方法、配線基板的制造方法以及配線基板
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





