[發明專利]姓名消歧方法、裝置、電子設備及計算機可讀存儲介質有效
| 申請號: | 201910549768.7 | 申請日: | 2019-06-24 |
| 公開(公告)號: | CN110275957B | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 李琳娜;翟曉瑞;韓紅旗;劉志輝;王莉軍 | 申請(專利權)人: | 中國科學技術信息研究所 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/34;G06F16/36;G06F40/295 |
| 代理公司: | 北京市立方律師事務所 11330 | 代理人: | 張筱寧 |
| 地址: | 100038*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 姓名 方法 裝置 電子設備 計算機 可讀 存儲 介質 | ||
本申請實施例涉及信息檢索技術領域,公開了一種姓名消歧方法、裝置、電子設備及計算機可讀存儲介質,其中,姓名消歧方法包括:根據預先基于訓練語料生成的詞稀疏分布式表征SDR,確定待進行姓名消歧的至少兩種語言種類的至少兩篇文獻的文獻信息,一篇文獻對應一種語言種類;接著,基于預先構建的針對至少兩種語言種類的文獻作者分類模型,根據至少兩種語言種類的各篇文獻的文獻信息,對該各篇文獻按照所屬文獻作者進行分類,得到該各篇文獻分別對應的第一作者類別,一種語言種類的文獻作者分類模型對應處理相應語言種類的文獻;接著,將各個語言種類下的各個第一作者類別進行合并處理,以對各個語言種類的各篇文獻的文獻作者進行姓名消歧。
技術領域
本申請實施例涉及信息處理技術領域,具體而言,本申請涉及一種姓名消歧方法、裝置、電子設備及計算機可讀存儲介質。
背景技術
近年來,隨著計算機技術的發展、互聯網的普及和應用,網絡上的信息(例如論文文獻信息、專利文獻信息)也越來越多。信息的快速增長使我們在獲得豐富信息內容的同時,也產生了如何快速獲取所需要信息的難題。由于用戶對于高質量搜索的需求在不斷提升,且人物信息搜索也在不斷增長。用戶希望能夠通過搜索獲取到其想了解的某個作者的文獻信息,但是由于作者同名現象的普遍存在,作者姓名往往具有很強的歧義性,導致目前的搜索結果的質量不盡人意。因此想要獲取特定作者的文獻信息變得更加困難。而姓名消歧就是研究如何在海量的數據中,將文獻信息按照其所屬作者進行分類。
目前,文獻作者的姓名消歧技術越來越受到國內外學者們的廣泛重視,一系列國內外的評測也針對姓名消歧問題展開,并推動了相關技術的發展和進步。然而,現有的姓名消歧基本上都是基于單一語言環境下的文獻作者的姓名消歧,還不存在多語言環境下的文獻作者的姓名消歧方法。
發明內容
本申請實施例的目的旨在至少能解決上述的技術缺陷之一,特提出以下技術方案:
一方面,提供了一種姓名消歧方法,包括:
根據預先基于訓練語料生成的詞稀疏分布式表征SDR,確定待進行姓名消歧的至少兩種語言種類的至少兩篇文獻的文獻信息,一篇文獻對應一種語言種類;
基于預先構建的針對至少兩種語言種類的文獻作者分類模型,根據至少兩種語言種類的各篇文獻的文獻信息,對該各篇文獻按照所屬文獻作者進行分類,得到該各篇文獻分別對應的第一作者類別,一種語言種類的文獻作者分類模型對應處理相應語言種類的文獻;
將各個語言種類下的各個第一作者類別進行合并處理,以對各個語言種類的各篇文獻的文獻作者進行姓名消歧。
在一種可能的實現方式中,將各個語言種類下的各個第一作者類別進行合并處理,以對各個語言種類的各篇文獻的文獻作者進行姓名消歧,包括:
將同一語言種類下的各個第一作者類別進行合并處理,以對同一語言種類的各篇文獻的文獻作者進行姓名消歧,得到姓名消歧后的各個第二作者類別;
將不同語言種類下的各個第二作者類別進行合并處理,以對不同語言種類的各篇文獻的文獻作者進行姓名消歧。
在一種可能的實現方式中,文獻信息包括文獻摘要SDR和/或文獻文本SDR,根據預先基于訓練語料生成的詞SDR,確定待進行姓名消歧的任一語言種類的任一篇文獻的文獻信息,包括:
根據詞SDR,確定任一篇文獻的文獻摘要中各個詞的第一詞SDR和/或文獻文本中各個詞的第二詞SDR;
對各個第一詞SDR依據對應維度相加,得到文獻摘要SDR;
對各個第二詞SDR依據對應維度相加,得到文獻文本SDR。
在一種可能的實現方式中,對各個第一詞SDR依據對應維度相加,得到文獻摘要SDR,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術信息研究所,未經中國科學技術信息研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910549768.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種人員識別方法及系統
- 下一篇:網站信息識別方法、裝置和電子設備





