[發明專利]姓名消歧方法、裝置、電子設備及計算機可讀存儲介質有效
| 申請號: | 201910549768.7 | 申請日: | 2019-06-24 |
| 公開(公告)號: | CN110275957B | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 李琳娜;翟曉瑞;韓紅旗;劉志輝;王莉軍 | 申請(專利權)人: | 中國科學技術信息研究所 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/34;G06F16/36;G06F40/295 |
| 代理公司: | 北京市立方律師事務所 11330 | 代理人: | 張筱寧 |
| 地址: | 100038*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 姓名 方法 裝置 電子設備 計算機 可讀 存儲 介質 | ||
1.一種姓名消歧方法,其特征在于,包括:
根據預先基于訓練語料生成的詞稀疏分布式表征SDR,確定待進行姓名消歧的至少兩種語言種類的至少兩篇文獻的文獻信息,一篇文獻對應一種語言種類;
基于預先構建的針對至少兩種語言種類的文獻作者分類模型,根據至少兩種語言種類的各篇文獻的文獻信息,對該各篇文獻按照所屬文獻作者進行分類,得到該各篇文獻分別對應的第一作者類別,一種語言種類的文獻作者分類模型對應處理相應語言種類的文獻;
將各個語言種類下的各個第一作者類別進行合并處理,以對各個語言種類的各篇文獻的文獻作者進行姓名消歧。
2.根據權利要求1所述的方法,其特征在于,所述將各個語言種類下的各個第一作者類別進行合并處理,以對各個語言種類的各篇文獻的文獻作者進行姓名消歧,包括:
將同一語言種類下的各個第一作者類別進行合并處理,以對同一語言種類的各篇文獻的文獻作者進行姓名消歧,得到姓名消歧后的各個第二作者類別;
將不同語言種類下的各個第二作者類別進行合并處理,以對不同語言種類的各篇文獻的文獻作者進行姓名消歧。
3.根據權利要求1所述的方法,其特征在于,文獻信息包括文獻摘要SDR和/或文獻文本SDR,根據預先基于訓練語料生成的詞SDR,確定待進行姓名消歧的任一語言種類的任一篇文獻的文獻信息,包括:
根據詞SDR,確定所述任一篇文獻的文獻摘要中各個詞的第一詞SDR和/或文獻文本中各個詞的第二詞SDR;
對所述各個第一詞SDR依據對應維度相加,得到所述文獻摘要SDR;
對所述各個第二詞SDR依據對應維度相加,得到所述文獻文本SDR。
4.根據權利要求3所述的方法,其特征在于,對所述各個第一詞SDR依據對應維度相加,得到所述文獻摘要SDR,包括:
將任一維度的各個第一詞SDR的總和與第一預定閾值進行比較,并將大于或等于第一預定閾值的該任一維度的各個第一詞SDR的總和轉換為第一預定數值,將小于第一預定閾值的該任一維度的各個第一詞SDR的總和轉換為第二預定數值;
依據各個維度的排序,得到包括各個第一預定數值和/或各個第二預定數值的所述文獻摘要SDR;
對所述各個第二詞SDR依據對應維度相加,得到所述文獻文本SDR,包括:
將任一維度的各個第二詞SDR的總和分別與第二預定閾值進行比較,并將大于或等于第二預定閾值的該任一維度的各個第二詞SDR的總和轉換為第三預定數值,將小于第二預定閾值的該任一維度的各個第二詞SDR的總和轉換為第四預定數值;
依據各個維度的排序,得到包括各個第三預定數值和/或各個第四預定數值的所述文獻文本SDR。
5.根據權利要求1所述的方法,其特征在于,文獻信息包括文獻摘要SDR和/或文獻文本SDR,基于預先構建的針對任一語言種類的文獻作者分類模型,根據該任一語言種類的任一篇文獻的文獻信息,對該任一篇文獻按照文獻作者進行分類,得到該任一篇文獻的第一作者類別,包括:
將任一語言種類的任一篇文獻的文獻摘要SDR和/或文獻文本SDR,輸入到預先構建的針對該任一語言種類的文獻作者分類模型中,得到該任一篇文獻的SDR預測結果;
確定所述SDR預測結果與各個文獻作者SDR之間的第一相似度值,并將最大第一相似度值對應的文獻作者SDR的作者類別確定為該任一篇文獻的第一作者類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術信息研究所,未經中國科學技術信息研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910549768.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種人員識別方法及系統
- 下一篇:網站信息識別方法、裝置和電子設備





