[發(fā)明專利]識(shí)別中文人名的方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202011004052.8 | 申請(qǐng)日: | 2020-09-22 |
| 公開(kāi)(公告)號(hào): | CN112131871B | 公開(kāi)(公告)日: | 2023-06-30 |
| 發(fā)明(設(shè)計(jì))人: | 余玉霞 | 申請(qǐng)(專利權(quán))人: | 平安國(guó)際智慧城市科技股份有限公司 |
| 主分類號(hào): | G06F40/279 | 分類號(hào): | G06F40/279;G06F40/216 |
| 代理公司: | 深圳市力道知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44507 | 代理人: | 張傳義 |
| 地址: | 518000 廣東省深圳市前海深港合*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 識(shí)別 中文 人名 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種識(shí)別中文人名的方法,其特征在于,包括:
基于預(yù)置關(guān)鍵詞對(duì)待處理文本進(jìn)行截取,得到至少一個(gè)短文本;
基于預(yù)置切割策略對(duì)所述短文本進(jìn)行切割,得到對(duì)應(yīng)的字符串,并根據(jù)預(yù)置數(shù)據(jù)集,得到所述字符串的姓氏概率值和名字概率值,基于所述姓氏概率值和名字概率值,得到所述字符串的人名概率值;
根據(jù)所述人名概率值,確定所述字符串是否為中文人名;
若確定所述字符串不是中文人名,則獲取所述短文本中各個(gè)字詞的詞性信息;
根據(jù)所述字詞的詞性信息,確定所述字詞為中文人名。
2.如權(quán)利要求1所述的識(shí)別中文人名的方法,其特征在于,所述預(yù)置數(shù)據(jù)集包括人名數(shù)據(jù)集和非人名數(shù)據(jù)集,所述根據(jù)預(yù)置數(shù)據(jù)集,得到所述字符串的姓氏概率值和名字概率值,包括:
獲取所述字符串與所述人名數(shù)據(jù)集相匹配的姓氏數(shù)據(jù)值、名字?jǐn)?shù)據(jù)值,以及所述字符串與所述非人名數(shù)據(jù)集相匹配的非姓氏數(shù)據(jù)值和非名字?jǐn)?shù)據(jù)值;
基于所述姓氏數(shù)據(jù)值和非姓氏數(shù)據(jù)值,得到所述字符串的姓氏概率值;基于所述名字?jǐn)?shù)據(jù)值和非名字?jǐn)?shù)據(jù)值,得到所述字符串的名字概率值。
3.如權(quán)利要求1所述的識(shí)別中文人名的方法,其特征在于,所述根據(jù)所述人名概率值,確定所述字符串是否為中文人名,包括:
基于所述人名概率值和預(yù)置閾值,確定所述字符串是否為中文人名;
若所述人名概率值大于或等于所述預(yù)置閾值,則確定所述字符串為中文人名;
若所述人名概率值小于所述預(yù)置閾值,則確定所述字符串不是中文人名。
4.如權(quán)利要求3所述的識(shí)別中文人名的方法,其特征在于,所述若確定所述字符串不是為中文人名,則獲取所述短文本中各個(gè)字詞的詞性信息,包括:
若確定所述字符串不是中文人名,則遍歷所述短文本,確定所述短文本中姓氏的位置;
根據(jù)預(yù)置切分策略和所述姓氏的位置切分所述短文本,獲取所述短文本中的各個(gè)字詞;
基于預(yù)置詞性表,獲取各個(gè)所述字詞的詞性信息。
5.如權(quán)利要求4所述的識(shí)別中文人名的方法,其特征在于,所述根據(jù)所述字詞的詞性信息,確定所述字詞為中文人名,包括:
確定所述姓氏是否為常用姓氏;
若所述姓氏為常用姓氏,則確定所述字詞的詞性信息是否為連詞、介詞或助詞;
若所述字詞的詞性信息是連詞、介詞或助詞,則確定所述字詞與所述姓氏之間的字詞為中文人名。
6.如權(quán)利要求5所述的識(shí)別中文人名的方法,其特征在于,所述確定所述姓氏是否為常用姓氏之后,還包括:
若所述姓氏不是常用姓氏,則確定所述字詞的詞性信息是否為名詞,形容詞和動(dòng)詞;
若所述字詞的詞性信息是名詞,形容詞和動(dòng)詞,則確定所述字詞與所述姓氏之間的字詞為中文人名。
7.一種識(shí)別中文人名裝置,其特征在于,包括:
截取模塊,用于基于預(yù)置關(guān)鍵詞對(duì)待處理文本進(jìn)行截取,得到至少一個(gè)短文本;
第一獲取模塊,用于基于預(yù)置切割策略對(duì)所述短文本進(jìn)行切割,得到對(duì)應(yīng)的字符串,并根據(jù)預(yù)置數(shù)據(jù)集,得到所述字符串的姓氏概率值和名字概率值,基于所述姓氏概率值和名字概率值,得到所述字符串的人名概率值;
第一確定模塊,用于根據(jù)所述人名概率值,確定所述字符串是否為中文人名;
第二獲取模塊,用于若確定所述字符串不是中文人名,則獲取所述短文本中各個(gè)字詞的詞性信息;
第二確定模塊,用于基于所述字詞的詞性信息,確定所述字詞為中文人名。
8.一種計(jì)算機(jī)設(shè)備,其特征在于,所述計(jì)算機(jī)設(shè)備包括處理器、存儲(chǔ)器、以及存儲(chǔ)在所述存儲(chǔ)器上并可被所述處理器執(zhí)行的計(jì)算機(jī)程序,其中所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí),實(shí)現(xiàn)如權(quán)利要求1至6中任一項(xiàng)所述的識(shí)別中文人名的方法的步驟。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,其中所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)如權(quán)利要求1至6中任一項(xiàng)所述的識(shí)別中文人名的方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安國(guó)際智慧城市科技股份有限公司,未經(jīng)平安國(guó)際智慧城市科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011004052.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





