[發明專利]基于無監督模型與狀態感知機的命名實體抽取系統及方法在審
| 申請號: | 202010848167.9 | 申請日: | 2020-08-21 |
| 公開(公告)號: | CN112183096A | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 張國威 | 申請(專利權)人: | 南京中新賽克科技有限責任公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/242;G06F40/284;G06F40/30 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 張弛 |
| 地址: | 210012 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 監督 模型 狀態 感知 命名 實體 抽取 系統 方法 | ||
本發明公開了一種基于無監督模型與狀態感知機的命名實體抽取系統及方法。本發明中提供了不依賴訓練數據的地名、時間及日期抽取的優化方案。本發明所述的狀態感知機以及詞典泛化匹配的設計架構避免了現有實體識別抽取需依賴大量經過人工標注的訓練語料模式,即自動從目標文本中抽取出相應地名,時間,及日期。
技術領域
本發明涉及計算機人工智能技術領域,尤其涉及命名實體識別的計算機程序技術領域。
背景技術
在計算機人工智能領域,使計算機程序進行命名實體識別(Named EntityRecognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。命名實體識別是信息提取、問答系統、句法分析、機器翻譯、面向Semantic Web的元數據標注等應用領域的重要基礎工具,在自然語言處理技術走向實用化的過程中占有重要地位。一般來說,命名實體識別的任務就是識別出待處理文本中三大類(實體類、時間類和數字類)、七小類(人名、機構名、地名、時間、日期、貨幣和百分比)命名實體。
通常包括兩部分:(1)實體邊界識別;(2)確定實體類別(人名、地名、機構名或其他)。英語中的命名實體具有比較明顯的形式標志(即實體中的每個詞的第一個字母要大寫),所以實體邊界識別相對容易,任務的重點是確定實體的類別。和英語相比,漢語命名實體識別任務更加復雜,而且相對于實體類別標注子任務,實體邊界的識別更加困難。
故結合上述說明,計算機程序進行命名實體識別的難點包括:
(1)漢語文本沒有類似英文文本中空格之類的顯式標示詞的邊界標示符,命名實體識別的第一步就是確定詞的邊界,即分詞;(2)漢語分詞和命名實體識別互相影響;(3)除了英語中定義的實體,外國人名譯名和地名譯名是存在于漢語中的兩類特殊實體類型;(4)現代漢語文本,尤其是網絡漢語文本,常出現中英文交替使用,這時漢語命名實體識別的任務還包括識別其中的英文命名實體;(5)不同的命名實體具有不同的內部特征,不可能用一個統一的模型來刻畫所有的實體內部特征
以上過程不難看出,在缺乏充足已標注好的訓練語料的的情況下,例如專有領域、未知領域等。傳統的命名實體識別技術均需依賴大量已標注的數據作為訓練語料,無法解決這種情況,故需要一種新的技術方案以解決上述技術問題。
發明內容
現發明一種針對電力系統中負荷記錄的壓縮編碼的記錄存儲方法,能夠提高存儲效率,減少存儲空間的占用。
為達到上述目的,本發明可采用如下技術方案:
一種基于無監督模型與狀態感知機的命名實體抽取系統,
包括日期抽取模塊、時間抽取模塊、地名抽取模塊;
日期抽取模塊包括日期正則表達模塊、日期搜索模塊、連續日期數據合并模塊、日期實體數據合并模塊;
日期正則表達模塊內設有若干種日期格式模板;日期搜索模塊用以依據日期格式模板搜索文本中符合日期格式的日期數據;連續日期數據合并模塊用以將搜索出的在文本中連續的日期數據合并為一個完整的日期數據;日期實體數據合并模塊設有若干種連詞模板,用以將具有連詞的日期數據、隔一個連詞的兩個相鄰日期數據合并;
時間抽取模塊包括時間正則表達模塊、時間搜索模塊、連續時間數據合并模塊、時間數據篩選模塊、時間實體數據合并模塊;
時間正則表達模塊內設有若干種時間格式模板;時間搜索模塊用以依據時間格式模板搜索文本中符合時間格式的時間數據;連續時間數據合并模塊用以將搜索出的在文本中連續的時間數據合并為一個完整的時間數據;時間數據篩選模塊中設有若干種語義不為時間的格式模板,并將搜索出的時間數據及合并后的時間數據與語義不為時間的格式模板對比,符合語義不為時間的格式模板的時間數據刪除;時間實體數據合并模塊用以將具有連詞的日期數據合并;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京中新賽克科技有限責任公司,未經南京中新賽克科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010848167.9/2.html,轉載請聲明來源鉆瓜專利網。





