[發明專利]一種演職人員命名實體消歧方法及系統在審
| 申請號: | 202010020584.4 | 申請日: | 2020-01-13 |
| 公開(公告)號: | CN111259670A | 公開(公告)日: | 2020-06-09 |
| 發明(設計)人: | 隋雪芹 | 申請(專利權)人: | 青島聚看云科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/953 |
| 代理公司: | 北京弘權知識產權代理事務所(普通合伙) 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 266061 山東省青*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 人員 命名 實體 方法 系統 | ||
1.一種演職人員命名實體消歧方法,其特征在于,包括:
獲取演職人員信息,其中,所述演職人員信息包括姓名;
根據所述演職人員信息,確定歧義姓名,所述歧義姓名是指數量不小于兩個的姓名;
利用搜索引擎,確定所述歧義姓名對應的搜索信息;
根據所述演職人員信息和搜索信息,處理歧義姓名對應的演職人員信息。
2.根據權利要求1所述的方法,其特征在于,所述根據演職人員信息和搜索信息,處理歧義姓名對應的演職人員信息的步驟包括:
確定演職人員信息和搜索信息的相似度;
篩選出與演職人員信息相似度最高的搜索信息;
根據每個演職人員信息對應的相似度最高的搜索信息,處理歧義姓名對應的演職人員信息。
3.根據權利要求2所述的方法,其特征在于,所述確定演職人員信息和搜索信息的相似度的步驟包括:
所述演職人員信息和搜索信息均包括代表作信息和人物簡介;
根據所述演職人員信息和搜索信息中的代表作信息,確定代表作相似度;
根據所述演職人員信息和搜索信息中的人物簡介,確定人物相似度;
根據所述代表作相似度和人物相似度,確定最終相似度。
4.根據權利要求3所述的方法,其特征在于,所述根據所述演職人員信息和搜索信息中的代表作信息,確定代表作相似度按照以下公式計算:
其中,所述代表作信息包括代表作名稱和代表作簡介,simP為代表作相似度,sim(wi,mi)為代表作名稱相似度,sim(Ii,Li)為代表作簡介相似度,W為搜索信息中的代表作名稱集合,wi為搜索信息中的一個代表作名稱,mi為演職人員信息中的一個代表作名稱,M為演職人員信息中的代表作名稱集合,Ii為將wi對應的代表作簡介,Li為將mi對應的代表作簡介。
5.根據權利要求4所述的方法,其特征在于,所述代表作名稱相似度通過編輯距離算法確定。
6.根據權利要求4所述的方法,其特征在于,所述代表作簡介相似度的確定方法包括:
將代表作簡介進行分詞,篩選出名詞;
根據所述名詞,利用余弦相似度,確定代表作簡介相似度。
7.根據權利要求3所述的方法,其特征在于,所述根據所述演職人員信息和搜索信息中的人物簡介,確定人物相似度的方法為根據余弦相似度確定。
8.根據權利要求3所述的方法,其特征在于,所述根據代表作相似度和人物相似度,確定最終相似度按照以下公式計算:
sim=a*simP+(1-a)*simT;
其中,sim為最終相似度,simP為代表作相似度,simT為人物相似度,a為參數。
9.根據權利要求1所述的方法,其特征在于,所述利用搜索引擎,確定所述歧義姓名對應的搜索信息的步驟包括:
利用搜索引擎,確定所述歧義姓名對應的粗略搜索信息,所述粗略搜索信息包括職業;
根據所述粗略搜索信息,篩選出預設職業的粗略搜索信息,所述預設職業的粗略搜索信息為搜索信息。
10.一種演職人員命名實體消歧裝置,其特征在于,包括:
服務器,服務器被配置為:
獲取演職人員信息,其中,所述演職人員信息包括姓名;
根據所述演職人員信息,確定歧義姓名,所述歧義姓名是指數量不小于兩個的姓名;
利用搜索引擎,確定所述歧義姓名對應的搜索信息;
根據所述演職人員信息和搜索信息,處理歧義姓名對應的演職人員信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島聚看云科技有限公司,未經青島聚看云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010020584.4/1.html,轉載請聲明來源鉆瓜專利網。





