[發明專利]文本中的人物挖掘方法、裝置、電子設備及存儲介質有效
| 申請號: | 202011162912.0 | 申請日: | 2020-10-27 |
| 公開(公告)號: | CN112270173B | 公開(公告)日: | 2021-10-26 |
| 發明(設計)人: | 白潔;王毅;潘政林 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京鴻德海業知識產權代理有限公司 11412 | 代理人: | 田宏賓 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 中的 人物 挖掘 方法 裝置 電子設備 存儲 介質 | ||
1.一種文本中的人物挖掘方法,其中,所述方法包括:
采用預先訓練的人名識別模型,預測指定文本中的候選人物集合;
對所述指定文本進行新詞發現,獲取新詞列表;
基于預先訓練的信息抽取模型預測各句子的潛在說話人以及預測概率;從所述新詞列表中獲取屬于潛在說話人的數個新詞;將所述數個新詞基于所述預測概率以及在所述指定文本中的頻率權重系數進行排序,獲取前N個所述新詞和所述候選人物集合中的所述候選人名作為所述指定文本中的人物信息,所述N為正整數。
2.根據權利要求1所述的方法,其中,采用預先訓練的人名識別模型,預測指定文本中的候選人物集合,包括:
采用所述人名識別模型,基于所述指定文本中的各句子,進行人名提取,獲取到數個備選人名;
從所述數個備選人名中篩選詞頻大于預設詞頻閾值的數個候選人名,構成所述候選人物集合。
3.根據權利要求2所述的方法,其中,采用所述人名識別模型,基于所述指定文本中的各句子,進行人名提取,獲取到數個備選人名之前,所述方法還包括:
檢測各所述句子長度是否大于預設長度閾值;
若是,對所述句子進行斷句處理,拆分為至少兩個分句,使得各所述分句的長度不大于所述預設長度閾值。
4.根據權利要求1所述的方法,其中,對所述指定文本進行新詞發現,獲取新詞列表,包括:
統計所述指定文本中各文本片段的出現頻率;
獲取所述指定文本中各所述文本片段的自由度;
獲取所述指定文本中各所述文本片段的凝合度:
基于各所述文本片段的自由度、各所述文本片段的凝合度和各所述文本片段的出現頻率中的至少一個,提取滿足預設條件的多個文本片段,作為多個新詞,構成所述新詞列表。
5.根據權利要求4所述的方法,其中,統計所述指定文本中各文本片段的出現頻率之前,所述方法還包括:
基于預設的詞庫,從所述指定文本中獲取不屬于所述詞庫中的詞語的各所述文本片段。
6.根據權利要求4所述的方法,其中,獲取所述指定文本中各文本片段的自由度,包括:
獲取所述指定文本中各所述文本片段的左鄰字集合和右鄰字集合;
計算對應的所述文本片段分別與所述左鄰字集合和所述右鄰字集合中各字構成的片段的信息熵;
取所述文本片段分別與所述左鄰字集合和所述右鄰字集合中各字構成的片段的信息熵的最小值,作為對應的所述文本片段的自由度。
7.根據權利要求4所述的方法,其中,獲取所述指定文本中各所述文本片段的凝合度,包括:
對于各所述文本片段,獲取對應的所述文本片段包括的至少一組拆分片段;
統計對應的所述文本片段中各組所述拆分片段的出現頻率;
基于對應的所述文本片段的出現頻率以及各組所述拆分片段的出現頻率,計算所述文本片段的凝合度。
8.根據權利要求1-7任一所述的方法,其中,在所述基于預先訓練的信息抽取模型預測各句子的潛在說話人以及預測概率之前,還包括:
檢測所述候選人物集合中的候選人名和所述新詞列表中的新詞是否有共同片段;若有,采用對應的所述新詞更新所述候選人物集合中對應的所述候選人名;將更新后的所述候選人物集合中的候選人名作為所述指定文本中的人物信息;
否則,繼續執行所述基于預先訓練的信息抽取模型預測各句子的潛在說話人以及預測概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011162912.0/1.html,轉載請聲明來源鉆瓜專利網。





