[發明專利]一種基于局部重構模型的電子書內容表示方法在審
| 申請號: | 201710889265.5 | 申請日: | 2017-09-27 |
| 公開(公告)號: | CN107861924A | 公開(公告)日: | 2018-03-30 |
| 發明(設計)人: | 張海軍;王雙;姬玉柱 | 申請(專利權)人: | 哈爾濱工業大學深圳研究生院 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/27 |
| 代理公司: | 深圳市迪斯卓越專利代理事務所(普通合伙)44443 | 代理人: | 閔華明,李小艷 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 局部 模型 電子書 內容 表示 方法 | ||
1.一種基于局部重構模型的電子書內容表示方法,其特征在于:所述方法包括以下步驟:
A、樹形結構表達:對于每一本電子書,將其劃分為若干頁,進一步地,將每一個頁劃分為若干段落,從而,對于每一本電子書形成“電子書->頁->段落”的三層樹形結構;
B、節點特征表達:構建詞匯表,計算詞分布向量,進一步使用主成分分析(Principal Component Analysis,PCA)對各層次節點的詞分布向量進行降維、壓縮,以便于進一步的模型運算;
C、局部重構模型建立:使用孩子節點的信息對其父節點信息進行重構,即建立局部重構模型,求解局部重構模型并獲得重構系數;
D、樹形結構的統一向量表示:根據C中獲得的重構系數向量,將該節點與其孩子節點進行信息融合,更新該節點的特征向量表示;該過程自底向上逐層進行,直至將由樹形結構表示的電子書數據壓縮成為統一的向量表示;
E、基于內容的電子書檢索和推薦:使用電子書的統一向量表示進行電子書的檢索,通過相似度的計算為用戶進行相關內容的電子書推薦。
2.根據權利要求1所述的基于局部重構模型的電子書內容表示方法,其特征在于:所述步驟A包括以下步驟:
A1、電子書的分割:通過識別電子書的段落分割符“/r/n”,對電子書進行分割,將一本電子書分割為若干個段落;
A2、頁的劃分:將相鄰的若干個段落進行合并,直至合并的段落的長度超過預先設定的頁的最小閾值,則形成一個新的頁;
A3、段落的劃分:對于上一步中形成的頁,再次使用段落分割符“/r/n”進行分割,并將若干個相鄰的段落進行合并,直至其長度超過預先設定的段落的最小閾值,則形成一個新的段落。
3.根據權利要求1所述的基于局部重構模型的電子書內容表示方法,其特征在于:所述步驟B包括以下步驟:
B1、構建詞匯表:經過文本分割、去停用詞、詞根還原、單詞糾錯等文本預處理操作之后,建立全數據集的詞匯表,并對數據集中的電子書進行詞頻統計;
B2、計算詞分布向量:使用詞頻-逆文檔頻率(term frequency-inverse document frequency,tf-idf)模型計算每個單詞的權重,從而獲得樹結構中各個節點的詞分布向量;
B3、特征降維:為了實現計算的可行性,使用主成分分析法(Principal Component Analysis,PCA)對樹結構中各個節點加權的詞向量進行壓縮、降維。
4.根據權利要求1所述的基于局部重構模型的電子書內容表示方法,其特征在于,所述步驟C包括以下步驟:
C1、建立局部重構模型:對于樹中的某一節點(該節點有孩子節點),使用該節點的孩子節點的信息對該節點的信息進行重構,并使用類-余弦(cosine-type)距離函數衡量其孩子節點信息對該節點信息的重構誤差量其孩子節點對該節點的重構誤差;
C2、求解局部重構模型,獲得局部重構系數向量,重構系數的大小表明該孩子節點對其父節點信息的重構能力,重構系數越大表明該節點對其父節點的重構能力越強。
5.根據權利要求1所述的基于局部重構模型的電子書內容表示方法,其特征在于:所述步驟D包括以下步驟:
D1、根據通過求解局部重構模型所獲得的重構系數向量,將孩子節點的特征項向量分別乘以其所對應的重構系數,并將其與其父節點的特征向量進行加權相加,從而獲得該父節點新的特征表示;
D2、自底向上,逐層對樹中節點執行上一步的操作,直至將由樹形結構表示的電子書數據壓縮成為統一的向量表示。
6.根據權利要求1所述的基于局部重構模型的電子書內容表示方法,其特征在于:所述步驟E包括以下步驟:
使用電子書的統一向量表示進行電子書的檢索,通過使用余弦距離函數計算檢索樣本與數據庫中電子書樣本的相似度,獲得電子書的檢索列表,從而實現基于內容的電子書推薦。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學深圳研究生院,未經哈爾濱工業大學深圳研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710889265.5/1.html,轉載請聲明來源鉆瓜專利網。





