[發明專利]一種知識共享平臺的詞條處理裝置和方法有效
| 申請號: | 201410268830.2 | 申請日: | 2014-06-16 |
| 公開(公告)號: | CN104021202B | 公開(公告)日: | 2017-11-24 |
| 發明(設計)人: | 李永強 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京銘碩知識產權代理有限公司11286 | 代理人: | 王艷嬌 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 知識 共享 平臺 詞條 處理 裝置 方法 | ||
技術領域
本發明涉及一種知識共享平臺的詞條處理裝置和方法,更具體地講,涉及一種網絡百科的詞條處理裝置和方法。
背景技術
隨著互聯網技術的快速發展,在互聯網上能夠為用戶提供的內容也越來越多,互聯網的用戶更加傾向于在互聯網上搜尋自己想要了解的內容。然而,在用戶從互聯網搜尋想要了解的內容時,互聯網所能夠提供的結果通常過于繁雜,并且與用戶想要了解的內容可能并不十分相關,這使得用戶感到非常的不便。
在互聯網上提供的百科應用是一種能夠供用戶查檢所需知識和事實資料的在線資料應用,通常以詞條的形式向用戶提供相關的知識內容。并且由于互聯網能夠提供更加豐富的資料,因此現在的互聯網百科應用所能夠提供的詞條內容也越來越詳細,不僅包括對于詞條的說明,還會包括與詞條相關的一些其他內容。例如,如圖1A中所示,當展示詞條“紅樓夢”的相關內容時,不僅會展示對于紅樓夢這部作品的內容介紹,還會展示與紅樓夢相關的其他信息,諸如作者簡介、人物介紹等等內容。由于展示的內容通常較多,因此如圖1A中所示,會以目錄的形式對這些內容進行歸類,以便于用戶查看相應內容。
然而,在百科詞條之間會存在許多相似或重復的內容。例如,如圖1B所示,在詞條“紅樓夢”的目錄項“作者簡介”部分,以大量的篇幅介紹了作者“曹雪芹”,而在百科中,“曹雪芹”也是一個百科詞條,詞條“紅樓夢”的部分詞條內容與詞條“曹雪芹”相似或重復,在詞條“紅樓夢”的詞條內容中以大量的篇幅介紹了與另一詞條相關的一些內容。也就是說,在一個詞條的詞條內容中,通常會存在與其他詞條相關的一些內容,這可能導致在向用戶展示與該詞條相關的內容時,展示的內容過多使得用戶難以很快的找到想要的信息,并且這樣的詞條展示方式需要大量的存儲空間來存儲每個詞條的詞條內容。此外,如圖1B中所示,盡管在詞條“紅樓夢”的相關詞條內容中包括對作者曹雪芹的一些介紹,但相對于詞條“曹雪芹”中提供的與曹雪芹相關的信息而言,這些介紹可能不夠詳細。因此,需要一種新的百科詞條內容設置方法使得能夠以更加簡潔、高效的方式向用戶展示詞條的相關信息。
發明內容
根據本發明的一方面,提供了一種知識共享平臺的詞條處理裝置,所述裝置包括:候選詞條獲取單元,用于根據目標詞條的目錄中第一目錄的目錄名稱和所述第一目錄下的目錄內容,獲取與所述第一目錄關聯的候選詞條及其詞條內容;內容比較單元,用于計算每個候選詞條的詞條內容與所述第一目錄下的目錄內容之間的文本相似度;詞條確定單元,用于根據內容比較單元計算的文本相似度,從候選詞條中確定與所述第一目錄相關的詞條。
所述候選詞條獲取單元可使用trie樹算法從存儲有詞條的詞條數據庫提取與所述第一目錄關聯的候選詞條。
所述內容比較單元可使用tf-idf算法來計算候選詞條的詞條內容與所述第一目錄下的目錄內容之間的文本相似度。
所述詞條確定單元可具體用于:將針對特定候選詞條而計算的文本相似度與預設閾值進行比較,如果計算的文本相似度高于預設閾值,則所述詞條確定單元將所述特定候選詞條確定為與所述第一目錄相關的詞條。
所述詞條確定單元還可用于:確定所述特定候選詞條是否滿足預設的多條后處理規則;如果所述特定候選詞條滿足預設的多條后處理規則中的第N條,則所述詞條確定單元確定所述第N條后處理規則對應的閥值,并判斷針對所述特定候選詞條計算的文本相似度是否高于與所述第N條后處理規則對應的閾值,如果高于,則所述詞條確定單元將所述特定候選詞條確定為與所述第一目錄相關的詞條,N為自然數。
根據本發明的另一方面,提供了一種知識共享平臺的詞條處理方法,所述方法包括:根據目標詞條的目錄中第一目錄的目錄名稱和所述第一目錄下的目錄內容,獲取與所述第一目錄關聯的候選詞條及其詞條內容;計算每個候選詞條的詞條內容與所述第一目錄下的目錄內容之間的文本相似度;根據計算的文本相似度,從候選詞條中確定與所述第一目錄相關的詞條。
可使用trie樹算法從存儲有詞條的詞條數據庫提取與所述第一目錄關聯的候選詞條。
可使用tf-idf算法來計算候選詞條的詞條內容與所述第一目錄下的目錄內容之間的文本相似度。
確定與所述第一目錄相關的詞條的步驟具體可包括:將針對特定候選詞條而計算的文本相似度與預設閾值進行比較,如果計算的文本相似度高于預設閾值,則將所述特定候選詞條確定為與所述第一目錄相關的詞條。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410268830.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一體式室內外空氣交換機
- 下一篇:一種鋰離子電池的化成方法





