[發明專利]一種興趣本體庫構建方法及裝置在審
| 申請號: | 201310464782.X | 申請日: | 2013-10-08 |
| 公開(公告)號: | CN103514289A | 公開(公告)日: | 2014-01-15 |
| 發明(設計)人: | 李大任;田浩;戴岱 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 胡彬 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 興趣 本體 構建 方法 裝置 | ||
技術領域
本發明涉及互聯網應用技術領域,具體涉及一種興趣本體庫構建方法及裝置。
背景技術
隨著互聯網信息資源的極度膨脹,傳統搜索引擎的單一搜索模式已經無法滿足用戶對于信息的個性化需求,因此定制化的搜索引擎和推薦系統被引入互聯網領域,其核心問題就是如何對用戶的興趣進行表示和建模。
目前常見的用戶興趣建模方式主要有兩種,一種是隱式的用戶興趣建模,即直接將某種關聯或者訓練好的機器學習模型用于興趣推薦,由于這種方式完全不告訴用戶推薦的原因,因此用戶很難信任推薦引擎給出的推薦結果。另一種是顯式的用戶興趣建模,通常是使用自然語言中的詞語將用戶的興趣用一種顯式的方式表示出來。顯式的用戶興趣建模方式通常被稱為基于本體的用戶建模方式,即將用戶的興趣表示成本體中的一個或多個分類節點,然后使用這種分類節點來進行個性化的推薦或搜索,其中最常用的本體是ODP(Open?Directory?Project,即開放式分類目錄搜索系統),它是目前互聯網上最大的人工編制的分類檢索系統。
顯式的用戶興趣建模方式由于明確給出了興趣推薦的原因,所以用戶接受程度較高,已經逐漸成為用戶興趣建模的主要發展方向。但是顯式的用戶興趣建模方式都是以傳統的層級結構的本體(例如ODP)為基礎的,這些本體都是分類體系,它們將實體中的每一個屬性都作為一個分類,而且規定一個實體只能屬于一個分類,這明顯不符合實際情況,并且這些本體大都是從語義角度,而并非從用戶興趣角度建立的分類體系,所以由此建立的用戶興趣模型的興趣推薦成功率并不是很高。
發明內容
有鑒于此,本發明實施例提供一種興趣本體庫構建方法及裝置,來解決以上背景技術部分提到的技術問題。
一方面,本發明實施例提供了一種興趣本體庫構建方法,所述方法包括:
根據預設興趣類別,獲取結構化數據信息;
根據所述結構化數據信息獲取興趣實體及對應的至少一個屬性;
將所述興趣實體及對應的至少一個屬性保存為興趣本體項。
另一方面,本發明實施例還提供了一種興趣本體庫構建裝置,所述裝置包括:
信息獲取單元,用于根據預設興趣類別,獲取結構化數據信息;
興趣獲取單元,用于根據所述結構化數據信息獲取興趣實體及對應的至少一個屬性;
興趣保存單元,用于將所述興趣實體及對應的至少一個屬性保存為興趣本體項。
本發明實施例通過從不同興趣類別的結構化數據信息中獲取興趣實體及其屬性,并將所述興趣實體及其屬性保存為興趣本體項,從而構建了一個通用興趣本體庫,使得一個興趣實體可以對應多個屬性,增加了本體結構的全面性、準確性和可擴展性,使其能更好地適應快速多變的互聯網環境,可以顯著提高顯式用戶興趣建模的準確率,從而進一步提升用戶興趣推薦的成功率。
附圖說明
圖1是本發明第一實施例的興趣本體庫構建方法的流程圖;
圖2是應用本發明第一實施例的方法得到的興趣本體庫的結構示意圖;
圖3是本發明第二實施例的興趣本體庫構建方法的流程圖;
圖4是本發明第二實施例的一個優選實施方式的本體項去錯方法的流程圖;
圖5是本發明第三實施例的興趣本體庫構建裝置的結構圖;
圖6是本發明第四實施例的興趣本體庫構建裝置的結構圖。
具體實施方式
下面結合附圖和實施例對本發明作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅僅用于解釋本發明,而非對本發明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發明相關的部分而非全部。
圖1是本發明第一實施例的興趣本體庫構建方法的流程圖。如圖1所示,所述興趣本體庫構建方法包括:
步驟110、根據預設興趣類別,獲取結構化數據信息。
所述興趣類別,就是將互聯網用戶可能感興趣的所有信息進行分類得到的,例如可以分為影視娛樂、游戲、電腦數碼、人文社科等各個類型,如果這些類型包含的信息量過多,還可以進行進一步的二級分類,例如影視娛樂作為一級分類的類型,那么它的二級分類可以包括娛樂人物、影視、動漫、音樂、網絡紅人等,而游戲作為一級分類時,它的二級分類可以包括大型客戶端游戲、網頁游戲、社交游戲、單機游戲、移動客戶端游戲等。諸如此類,就可以將互聯網用戶可能感興趣的所有信息進行細分,并且在構建所述興趣本體庫之前,所述興趣類別都是已經設置好的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310464782.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種便捷式擦洗窗戶結構
- 下一篇:非關系型數據庫HBase的數據遷移方法





