[發明專利]識別中文人名的方法、裝置、設備及存儲介質有效
| 申請號: | 202011004052.8 | 申請日: | 2020-09-22 |
| 公開(公告)號: | CN112131871B | 公開(公告)日: | 2023-06-30 |
| 發明(設計)人: | 余玉霞 | 申請(專利權)人: | 平安國際智慧城市科技股份有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/216 |
| 代理公司: | 深圳市力道知識產權代理事務所(普通合伙) 44507 | 代理人: | 張傳義 |
| 地址: | 518000 廣東省深圳市前海深港合*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 中文 人名 方法 裝置 設備 存儲 介質 | ||
本發明涉及人工智能技術領域,具體公開了一種識別中文人名的方法、裝置、計算機設備及計算機可讀存儲介質,該方法包括:通過基于預置關鍵詞對待處理文本進行截取,得到至少一個短文本;獲取所述短文本中各個字符串的人名概率值;根據所述人名概率值,確定所述字符串是否為中文人名;若確定所述字符串不是為中文人名,則獲取所述短文本中各個字詞的詞性信息;根據所述字詞的詞性信息,確定所述字詞為中文人名,實現了通過人名概率值和詞性信息準確識別文本中不同類型的中文人名,提升中文人名識別的準確率和查全率。同時,本發明還涉及區塊鏈技術,且本發明可適用于智慧政務、智慧教育、智慧醫療等領域,從而可以進一步推動智慧城市的建設。
技術領域
本申請涉及人工智能技術領域,尤其涉及一種識別中文人名的方法、裝置、計算機設備及計算機可讀存儲介質。
背景技術
教育平臺中很多資源都存儲著作者介紹,一般用于查看,以對該作者產生一定的了解,但其實作者介紹還有別的作用,例如,可以提取出作者姓名及對應的關鍵詞,根據作者姓名和關鍵詞在資源推薦中進行同作者作品推薦和同類型作品推薦,以尋求用戶更高的點擊率和轉化率。而提取作者姓名就涉及到文本識別的技術,基于角色標注和詞性標注的人名識別方法在行業內較多。目前大多利用單一的算法和模型進行識別,但是單一的算法只對某種類型的人名效果較好,對多種類型的人名不能自適應的識別,需要人工參與進行分別處理,其中需要花費較高的成本,且不能實現自動識別。
發明內容
本申請的主要目的在于提供一種識別中文人名的方法、裝置、計算機設備及計算機可讀存儲介質,旨在解決現有的單一的算法只對某種類型的人名效果較好,對多種類型的人名不能自適應的識別,需要人工參與進行分別處理,其中需要花費較高的成本,且不能實現自動識別的技術問題。
第一方面,本申請提供一種識別中文人名的方法,所述識別中文人名的方法包括以下步驟:
基于預置關鍵詞對待處理文本進行截取,得到至少一個短文本;
獲取所述短文本中各個字符串的人名概率值;
根據所述人名概率值,確定所述字符串是否為中文人名;
若確定所述字符串不是中文人名,則獲取所述短文本中各個字詞的詞性信息;
根據所述字詞的詞性信息,確定所述字詞為中文人名。
第二方面,本申請還提供一種識別中文人名裝置,所述識別中文人名裝置包括:
截取模塊,用于基于預置關鍵詞對待處理文本進行截取,得到至少一個短文本;
第一獲取模塊,用于獲取所述短文本中各個字符串的人名概率值;
第一確定模塊,用于根據所述人名概率值,確定所述字符串是否為中文人名;
第二獲取模塊,用于若確定所述字符串不是為中文人名,則獲取所述短文本中各個字詞的詞性信息;
第二確定模塊,用于基于所述字詞的詞性信息,確定所述字詞為中文人名。
第三方面,本申請還提供一種計算機設備,所述計算機設備包括處理器、存儲器、以及存儲在所述存儲器上并可被所述處理器執行的計算機程序,其中所述計算機程序被所述處理器執行時,實現如上述的識別中文人名的方法的步驟。
第四方面,本申請還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有計算機程序,其中所述計算機程序被處理器執行時,實現如上述的識別中文人名的方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安國際智慧城市科技股份有限公司,未經平安國際智慧城市科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011004052.8/2.html,轉載請聲明來源鉆瓜專利網。





