[發明專利]基于膜計算的搜索方法在審
| 申請號: | 201410026335.0 | 申請日: | 2014-01-20 |
| 公開(公告)號: | CN103955460A | 公開(公告)日: | 2014-07-30 |
| 發明(設計)人: | 杜亞軍;劉文君;孟慶瑞;李曦;王曉明 | 申請(專利權)人: | 西華大學;西藏飛躍智能科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市科吉華烽知識產權事務所(普通合伙) 44248 | 代理人: | 胡吉科 |
| 地址: | 610000 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 計算 搜索 方法 | ||
1.一種基于膜計算的搜索方法,其特征在于:包括以下步驟:(A)獲取最優加權因子;(B)獲取文檔主題相似度;(C)預測排序優先值;所述步驟(B)中,在語義空間中構建網頁語義向量和主題語義向量,再將兩語義向量的余弦值作為網頁與主題的相似度,其具體采用如下步驟:(1)設定詞項空間TSpace是基本詞項的集合,其定義為:
TSpace={termi|termi∈Lex,1≤i≤|Lex|}
式中TSpace為詞項空間,Lex為基本詞匯庫集合,termi為Lex中的詞項,|Lex|為基本詞匯庫集合Lex中詞項總數;(2)詞項向量TVector的分值都對應到詞項空間TSpace,其中,
TVector=(val1,val2,…,val|Lex|)
式中TVector為詞項向量,valk(1≤k≤|Lex|)是在詞項termk維度上的取值,詞項termk在詞項空間TSpace中,并且|TVector|=|TSpace|=|Lex|,即詞項向量TVector的維數等于詞項空間TSpace的詞項總數|Lex|,|Lex|為基本詞匯庫集合Lex中詞項總數;(3)語義空間SSpace是雙詞項集合,其中SSpace定義如下:
SSpace={dbtl|dbtl=(termi,termj),termi∈Lex,termj∈Lex,
1≤i≤|Lex|,1≤j≤|Lex|,1≤l≤|Lex|2}
式中SSpace為語義空間,Lex與上述相同,dbtl為雙詞項并對應詞項termi、termj,其中termi、termj都是Lex中的元素,語義空間SSpace的維度為|Lex|2,|Lex|為基本詞匯庫集合Lex中詞項總數;(4)語義向量SVector的分值都對應到語義空間,其中,SVector定義如下:
式中SVector為語義向量,valk(1≤k≤|Lex|2)是在雙詞項dbtk維度上的取值,雙詞項dbtk在語義空間SSpace中,并且|SVector|=|SSpace|=|Lex|2,即語義向量SVector的維數等于語義空間SSpace的維度|Lex|2,|Lex|為基本詞匯庫集合Lex中詞項總數;(5)
構建文檔和主題語義向量,具體為其中,DTSk、TTS分別為文檔dk、主題t的詞項集合,分別為文檔dk、主題t的詞項向量,wki(1≤i≤n)為在文檔dk中詞項i的TF-IDF值,wtj(1≤j≤m)為在主題t中詞項j的TF-IDF值,n、m為文檔dk的詞項集合DTSk、主題t的詞項集合TTS的詞項總數,詞項向量中的0值對應在詞項空間TSpace中但未出現在詞項集合DTSk中的詞項的取值,0值的個數為詞項向量的維數減去文檔dk的詞項總數,即為|Lex|-n,同理詞項向量中的0值對應在詞項空間TSpace中但未出現在詞項集合TTS中的詞項的取值,0值的個數為詞項向量的維數減去主題t的詞項總數,即為|Lex|-m;(6)通過文檔dk的詞項集合DTSk與主題t的詞項集合TTS之間的語義相似度構成語義相似度矩陣,具體如下:
其中termi、termj(1≤i≤n,1≤j≤m)分別為文檔dk的詞項集合DTSk中的詞項i、主題t的詞項集合TTS中的詞項j,為文檔dk的詞項集合DTSk中的詞項i與主題t的詞項集合TTS中的詞項j之間的語義相似度,n、m分別為文檔dk的詞項集合DTSk、主題t的詞項集合TTS的詞項總數;(7)通過文檔和主題詞項向量和文檔詞項集與主題詞項集之間的語義相似度矩陣生成文檔和主題語義向量,具體為:
其中分別為文檔dk和主題t的語義向量,此兩向量都是對應到語義空間SSpace中,DTSk、TTS分別為文檔dk、主題t的詞項集合,dbTSk為詞項集合DTSk與TTS之間的雙詞項集合,termi屬于詞項集合DTSk中的詞項,dbTSki為詞項termi與主題t的詞項集合TTS之間的雙詞項集合,雙詞項集合dbTSki明顯為雙詞項集合dbTSk的子集,向量中分值都對應到雙詞項集合dbTSki,零向量對應到雙詞項集合SSpace-dbTSk,即這些雙詞項不屬于雙詞項集合dbTSk并且此零向量的維數為|Lex|2-m*n,n、m分別為文檔dk的詞項集合DTSk、主題t的詞項集合TTS的詞項總數,dval(i-1)*m+j、tval(i-1)*m+j都是在雙詞項dbtr=(termi,termj)上的取值,其中termi屬于詞項集合DTSk中的詞項,而termj屬于詞項集合TTS中的詞項,wki、wtj分別為詞項i在文檔dk中的TF-IDF值、詞項j在主題t中的TF-IDF值,為詞項集合DTSk中的詞項i與詞項集合TTS中的詞項j之間的語義相似度;(8)生成文檔dk與主題t的相似度為文檔dk的語義向量與主題t的語義向量的余弦值,具體為:其中Sim(dk,t)為文檔dk與主題t相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西華大學;西藏飛躍智能科技有限公司,未經西華大學;西藏飛躍智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410026335.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種降低血尿酸水平的藥物組合物及其應用
- 下一篇:汽車電鍍字牌附膠工裝





