[發明專利]文本中的人物挖掘方法、裝置、電子設備及存儲介質有效

申請號：	202011162912.0	申請日：	2020-10-27
公開（公告）號：	CN112270173B	公開（公告）日：	2021-10-26
發明（設計）人：	白潔;王毅;潘政林	申請（專利權）人：	北京百度網訊科技有限公司
主分類號：	G06F40/216	分類號：	G06F40/216;G06F40/30;G06N3/04;G06N3/08
代理公司：	北京鴻德海業知識產權代理有限公司 11412	代理人：	田宏賓
地址：	100085 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本中的人物挖掘方法裝置電子設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請公開了一種文本中的人物挖掘方法、裝置、電子設備及存儲介質，涉及人工智能技術領域，具體為深度學習和自然語言處理技術領域。具體實現方案為：采用預先訓練的人名識別模型，預測指定文本中的候選人物集合；對所述指定文本進行新詞發現，獲取新詞列表；基于所述候選人物集合和所述新詞列表，確定所述指定文本中的人物信息。

技術領域

本申請涉及計算機技術領域，尤其涉及人工智能技術領域，具體為深度學習和自然語言處理技術領域，具體涉及一種文本中的人物挖掘方法、裝置、電子設備及存儲介質。

背景技術

人工智能(Artificial Intelligence；AI)，是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。

近年來，圍繞AI出現了越來越多的應用。例如，基于AI所實現的朗讀在市場上變得越來越受關注。理論上而言，基于AI的有聲朗讀可以用于朗讀多角色有聲小說，如果想要得到效果良好的朗讀體驗，需要能夠識別出小說包含的主要人物都有哪些。一個需要面對的問題是如何能夠讓機器盡量自動且準確的挖掘到小說中的主要人物。因為只有知道了包含有哪些人物，才能進一步去分析這些人物的性別、年齡、性格特點、人物關系等信息，也才能為每個人物分配適合性格特點的朗讀音色，讓聽小說的用戶有身臨其境的良好感覺。

發明內容

本申請提供了一種用于文本中的人物挖掘方法、裝置、電子設備及存儲介質。

根據本申請的一方面，提供了一種文本中的人物挖掘方法，其中，所述方法包括：

采用預先訓練的人名識別模型，預測指定文本中的候選人物集合；

對所述指定文本進行新詞發現，獲取新詞列表；

基于所述候選人物集合和所述新詞列表，確定所述指定文本中的人物信息。

根據本申請的另一方面，提供了一種文本中的人物挖掘裝置，其中，所述裝置包括：

預測模塊，用于采用預先訓練的人名識別模型，預測指定文本中的候選人物集合；

獲取模塊，用于對所述指定文本進行新詞發現，獲取新詞列表；

確定模塊，用于基于所述候選人物集合和所述新詞列表，確定所述指定文本中的人物信息。

根據本申請的再一方面，提供了一種電子設備，包括：

至少一個處理器；以及