[發明專利]文學作品作者識別方法及裝置有效
| 申請號: | 201310043297.5 | 申請日: | 2013-02-02 |
| 公開(公告)號: | CN103106192A | 公開(公告)日: | 2013-05-15 |
| 發明(設計)人: | 朱定局 | 申請(專利權)人: | 深圳先進技術研究院 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 吳平 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文學作品 作者 識別 方法 裝置 | ||
技術領域
本發明涉及計算機技術領域,特別是涉及一種文學作品作者識別方法及裝置。
背景技術
由于早期對文學作品的作者缺乏歷史記載,在文學作品出品多年后,無法獲知文學作品的作者是誰。或者作者采用罕見的筆名出品文學作品,他人也無法獲知文學作品的真實作者是誰。
傳統技術中,通常采用人工的方式對上述場景中的文學作品的作者進行識別,即由對某作者的文學風格較熟悉的學者或專家根據文學作品的文字風格對其進行鑒定,鑒定結果通常依賴人的文學鑒定經驗,因此準確度不高。
發明內容
基于此,有必要提供一種能提高準確度的文學作品作者識別方法。
一種文學作品作者識別方法,包括:
獲取輸入的文學作品,對所述輸入的文學作品進行分詞,得到分詞詞組及其對應的目標出現頻率;
根據所述目標出現頻率計算所述輸入的文學作品的信息熵;
獲取與目標作者對應的作者樣本作品及作者樣本作品的信息熵;
通過比較所述作者樣本作品的信息熵和所述輸入的文學作品的信息熵識別所述輸入的文學作品的作者是否為目標作者。
在其中一個實施例中,所述根據所述目標出現頻率計算所述輸入的文學作品的信息熵的步驟之前還包括:
獲取全局樣本作品,對全局樣本作品進行分詞,得到分詞詞組及其對應的全局出現頻率;
根據所述全局出現頻率計算所述分詞詞組的信息量。
在其中一個實施例中,所述根據所述目標出現頻率計算所述輸入的文學作品的信息熵的步驟為:
根據所述分詞詞組的目標出現頻率及其對應的信息量計算所述輸入的文學作品的信息熵。
在其中一個實施例中,所述獲取與目標作者對應的作者樣本作品及作者樣本作品的信息熵的步驟之前還包括:
在所述全局樣本作品中獲取與目標作者對應的作者樣本作品;
對作者樣本作品進行分詞,得到分詞詞組及其對應的作者出現頻率。
在其中一個實施例中,所述獲取與目標作者對應的作者樣本作品及作者樣本作品的信息熵的步驟包括:
根據所述分詞詞組的作者出現頻率及其對應的信息量計算所述作者樣本作品的信息熵。
此外,還有必要提供一種能提高準確度的文學作品作者識別裝置。
一種文學作品作者識別裝置,包括:
目標分詞模塊,用于獲取輸入的文學作品,對所述輸入的文學作品進行分詞,得到分詞詞組及其對應的目標出現頻率;
目標信息熵計算模塊,用于根據所述目標出現頻率計算所述輸入的文學作品的信息熵;
作者信息熵獲取模塊,用于獲取與目標作者對應的作者樣本作品及作者樣本作品的信息熵;
作者識別模塊,用于通過比較所述作者樣本作品的信息熵和所述輸入的文學作品的信息熵識別所述輸入的文學作品的作者是否為目標作者。
在其中一個實施例中,,所述裝置還包括全局分詞模塊,用于獲取全局樣本作品,對全局樣本作品進行分詞,得到分詞詞組及其對應的全局出現頻率;根據所述全局出現頻率計算所述分詞詞組的信息量。
在其中一個實施例中,,所述目標信息熵計算模塊還用于根據所述分詞詞組的目標出現頻率及其對應的信息量計算所述輸入的文學作品的信息熵。
在其中一個實施例中,所述裝置還包括作者分詞模塊,用于在所述全局樣本作品中獲取與目標作者對應的作者樣本作品;對作者樣本作品進行分詞,得到分詞詞組及其對應的作者出現頻率。
在其中一個實施例中,所述裝置還包括作者信息熵計算模塊,還用于根據所述分詞詞組的作者出現頻率及其對應的信息量計算所述作者樣本作品的信息熵。
上述文學作品作者識別方法及裝置,對輸入的文學作品進行了分詞,根據分詞得到的分詞詞組的出現頻率計算輸入的文學作品的信息熵,并獲取了與目標作者對應的多個作者樣本作品的信息熵,然后通過比較信息熵得到輸入的文學作品與目標作者的作者樣本作品的近似程度,從而判斷輸入的文學作品的作者是否為目標作者。由于同一作者的文學作品通常文風相同,用詞習慣通常類似,因此根據香農的信息論原理,其信息熵也較相似,因此,準確度較高。
附圖說明
圖1為一個實施例中文學作品作者識別方法的流程圖;
圖2為一個實施例中通過比較所述作者樣本作品的信息熵和所述輸入的文學作品的信息熵識別所述輸入的文學作品的作者的流程圖;
圖3為一個實施例中文學作品作者識別裝置的結構示意圖;
圖4為另一個實施例中文學作品作者識別裝置的結構示意圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳先進技術研究院,未經深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310043297.5/2.html,轉載請聲明來源鉆瓜專利網。





