[發明專利]基于無監督模型與狀態感知機的命名實體抽取系統及方法在審
| 申請號: | 202010848167.9 | 申請日: | 2020-08-21 |
| 公開(公告)號: | CN112183096A | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 張國威 | 申請(專利權)人: | 南京中新賽克科技有限責任公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/242;G06F40/284;G06F40/30 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 張弛 |
| 地址: | 210012 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 監督 模型 狀態 感知 命名 實體 抽取 系統 方法 | ||
1.一種基于無監督模型與狀態感知機的命名實體抽取系統,其特征在于,
包括日期抽取模塊、時間抽取模塊、地名抽取模塊;
日期抽取模塊包括日期正則表達模塊、日期搜索模塊、連續日期數據合并模塊、日期實體數據合并模塊;
日期正則表達模塊內設有若干種日期格式模板;日期搜索模塊用以依據日期格式模板搜索文本中符合日期格式的日期數據;連續日期數據合并模塊用以將搜索出的在文本中連續的日期數據合并為一個完整的日期數據;日期實體數據合并模塊設有若干種連詞模板,用以將具有連詞的日期數據、隔一個連詞的兩個相鄰日期數據合并;
時間抽取模塊包括時間正則表達模塊、時間搜索模塊、連續時間數據合并模塊、時間數據篩選模塊、時間實體數據合并模塊;
時間正則表達模塊內設有若干種時間格式模板;時間搜索模塊用以依據時間格式模板搜索文本中符合時間格式的時間數據;連續時間數據合并模塊用以將搜索出的在文本中連續的時間數據合并為一個完整的時間數據;時間數據篩選模塊中設有若干種語義不為時間的格式模板,并將搜索出的時間數據及合并后的時間數據與語義不為時間的格式模板對比,符合語義不為時間的格式模板的時間數據刪除;時間實體數據合并模塊用以將具有連詞的日期數據合并;
地名抽取模塊包括地名感知機規則特征模塊、地名搜索模塊;
地名感知機規則特征模塊內設有地名感知機規則特征模板,包括內部詞性序列模板、后綴特征詞模板、前指示詞模板、地名簡稱模板、并列關系連接詞模板;地名搜索模塊用以依據地名感知機規則特征模板搜索文本中符合地名感知機規則特征模板的時間數據。
2.根據權利要求1所述的命名實體抽取系統,其特征在于:內部詞性序列模板中設置內部詞性序列{('ns',地名),('n',普通名詞),('nz',專有名詞),('nd',方位詞)}。
3.根據權利要求2所述的命名實體抽取系統,其特征在于:地名搜索模塊對文本進行分詞和詞性標注;
從前向后遍歷文本,找到POS詞性為ns的詞在詞典中進行查詢,若存在則將該詞加入候選地名中;
加入地名后綴特征和前指示詞,對詞典進行擴展,識別未登錄地名;
識別復合的實體類型ns+{ns,n,nz}+nd-LOC;
通過地名簡稱字表,結合詞性j(縮略詞詞性)進行識別;
每次識別出來一個完整地名之后,判斷前一個詞是否為連接詞Conjunction=('、','和','與','或','以及')或者左邊界詞性('v'動詞,'p'介詞,'wp'標點符號),后一個詞是否為連接詞或右邊界詞性('u'助動詞,'wp'標點符號),若是則向前遍歷將未輸出過的詞輸出,直到遇左邊界詞停止;同樣,向后遍歷輸出,直到遇右邊界詞停止。
4.一種基于無監督模型與狀態感知機的命名實體抽取方法,其特征在于,包括對文本進行日期抽取、時間抽取及地名抽取;
日期抽取的步驟包括:
(1.1)、設置日期正則表達格式模板;
(1.2)、依據日期格式模板搜索文本中符合日期格式的日期數據;
(1.3)、將搜索出的在文本中連續的日期數據合并為一個完整的日期數據;
(1.4)、判斷兩個相鄰日期數據之間是否只隔一個連詞,若是,則將具有連詞的日期數據、隔一個連詞的兩個相鄰日期數據合并;
時間抽取的步驟包括:
(2.1)、設置時間正則表達格式模板;
(2.2)、依據時間格式模板搜索文本中符合時間格式的時間數據;
(2.3)、將搜索出的在文本中連續的時間數據合并為一個完整的時間數據;
(2.4)、設置若干種語義不為時間的格式模板,并將搜索出的時間數據及合并后的時間數據與語義不為時間的格式模板對比,符合語義不為時間的格式模板的時間數據刪除;
(2.5)、時間實體數據合并模塊用以將具有連詞的日期數據合并;
地名抽取的步驟包括:
(3.1)、設置地名感知機規則特征模板,包括內部詞性序列模板、后綴特征詞模板、前指示詞模板、地名簡稱模板、并列關系連接詞模板;
(3.2)、依據地名感知機規則特征模板搜索文本中符合地名感知機規則特征模板的時間數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京中新賽克科技有限責任公司,未經南京中新賽克科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010848167.9/1.html,轉載請聲明來源鉆瓜專利網。





