[發明專利]一種基于局部重構模型的電子書內容表示方法在審
| 申請號: | 201710889265.5 | 申請日: | 2017-09-27 |
| 公開(公告)號: | CN107861924A | 公開(公告)日: | 2018-03-30 |
| 發明(設計)人: | 張海軍;王雙;姬玉柱 | 申請(專利權)人: | 哈爾濱工業大學深圳研究生院 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F17/27 |
| 代理公司: | 深圳市迪斯卓越專利代理事務所(普通合伙)44443 | 代理人: | 閔華明,李小艷 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 局部 模型 電子書 內容 表示 方法 | ||
技術領域
本發明屬于文本挖掘系統領域,尤其涉及基于局部重構模型的電 子書內容表示方法,所述方法使用電子書作為最原始輸入。
背景技術
近年來,隨著移動閱讀設備的廣泛使用,電子書的數量日益增多, 因此設計有效的電子書推薦算法,從而為用戶進行精準、有效的推薦具有 重要意義。
關于電子書的推薦,已存在的技術主要可以分為兩類:協同過濾 推薦和基于內容的推薦。協同過濾的方法很大程度上依賴于用戶的行為, 其推薦過程依賴于用戶間的相似偏好,且要求系統中一定數量的用戶評分。 如果沒有足夠的用戶評分,或某些書未被購買或未被評分,則無法使用協 同過濾進行有效的推薦。但在實際生活中,大部分書的銷售量或用戶評分 都較少,導致該方法在實際的使用過程中存在很大的局限性。進一步地, 形成了基于內容的推薦算法,但該類方法依賴于詳細的特征選擇過程,并 需要預先給每本書提供指定的屬性信息,進而使用自動的文本分類方法進 行基于內容的推薦。然而對于這種基于內容的推薦,其推薦過程僅依賴于 特定的文本元數據,而并非電子書本身的內容。
“詞袋”模型作為典型的基于全文內容表達的研究方法,該類方 法的目的在于獲得能夠表示整篇文檔內容的向量。但該類方法僅依賴于對 于文本中詞語的詞頻統計,而忽略了詞語的空間分布信息,導致該方法很 難區分出詞頻相似但詞語的空間分布有差異的兩本書。
樹形結構作為一種有效的數據組織和表達方式,可以體現出數據 內部的層次關系和空間結構關系。因此,可以將電子書按照“電子書->頁 ->段落”的方式進行組織,形成一棵三層的樹形結構,從而體現出書的空 間層次結構,在一定程度上彌補“詞袋”模型對于文本空間信息的忽略。 但按照樹形結構進行組織的數據不便于樣本間相似度的計算,因此需要對 樹形結構數據的層次信息進一步的整合,從而形成統一的向量表示,以便 于實現進一步的系統推薦。
發明內容
本發明的目的在于提供一種基于局部重構模型的電子書內容表 示方法,旨在解決現有技術中存在的問題。
為了實現樹形結構數據的層次信息整合,本發明中提出了一種基 于類-余弦(cosine-type)距離函數的局部重構模型,通過使用孩子節點 信息重構其父節點信息獲取重構系數向量,進而對樹形結構數據中的局部 信息進行整合,該過程自底向上,直至將樹形結構數據轉化為統一的向量 表示,從而使得該向量包含了該樹形結構數據的層次信息。
本發明通過以下技術方案實現:一種基于局部重構模型的電子書 內容表示方法,所述方法包括以下步驟:
A.樹形結構表達:對于每一本電子書,將其劃分為若干頁,進 一步地,將每一個頁劃分為若干段落,從而對每一本電子書形成“電子書 ->頁->段落”的三層樹形結構;
B.節點特征表達:構建詞匯表,計算詞分布向量,進一步使用 主成分分析(Principal Component Analysis,PCA)對各層次節點的詞分 布向量進行降維、壓縮,以便于進一步的模型運算;
C.局部重構模型建立:使用孩子節點的信息對其父節點信息進 行重構,即建立局部重構模型,求解局部重構模型并獲得重構系數;
D.樹形結構的統一向量表示:根據在局部重構模型建立階段獲 得的重構系數向量,將該節點與其孩子節點進行信息融合,更新該節點的 特征向量表示;該過程自底向上逐層進行,直至將由樹形結構表示的電子 書數據壓縮成為統一的向量表示;
E.基于內容的電子書檢索和推薦:使用電子書的統一向量表示 進行電子書的檢索,通過相似度的計算為用戶進行相關內容的電子書推薦。
作為本發明的進一步改進,所述樹形結構表達步驟包括以下步 驟:
A1、電子書的分割:通過識別電子書的段落分割符“/r/n”,對 電子書進行分割,將一本電子書分割為若干個段落;
A2、頁的劃分:將相鄰的若干個段落進行合并,直至合并的段落 的長度超過預先設定的頁的最小閾值,則形成一個新的頁。本發明中將頁 的最小長度的閾值設為1000;
A3、段落的劃分:對于上一步中形成的頁,再次使用段落分割符 “/r/n”進行分割,并將若干個相鄰的段落進行合并,直至其長度超過預 先設定的段落的最小閾值,則形成一個新的段落。本發明中將段落的最小 長度的閾值設為50。
作為本發明的進一步改進,所述節點特征表達步驟包括以下步 驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學深圳研究生院,未經哈爾濱工業大學深圳研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710889265.5/2.html,轉載請聲明來源鉆瓜專利網。





