[發明專利]一種基于電力審計制度的無監督知識圖譜構建方法在審
| 申請號: | 202110829109.6 | 申請日: | 2021-07-21 |
| 公開(公告)號: | CN113360680A | 公開(公告)日: | 2021-09-07 |
| 發明(設計)人: | 趙張莉;楊燕;崔藝馨;郝磊;崔霞;李博 | 申請(專利權)人: | 國網天津市電力公司;國家電網有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F16/31;G06F40/205;G06F40/253;G06F40/295;G06F40/30 |
| 代理公司: | 天津盛理知識產權代理有限公司 12209 | 代理人: | 王來佳 |
| 地址: | 300010*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 電力 審計 制度 監督 知識 圖譜 構建 方法 | ||
本發明提供了一種基于電力審計制度的無監督知識圖譜構建方法,包括以下步驟:步驟1、定義電力審計法律制度文檔關鍵信息的抽取規則,定義三元組類型與內容,并根據定義的三元組生成正則表達式;步驟2、基于步驟1中生成的正則表達式以及輸入的審計制度,采用無監督方法自動提取法律制度文檔中的關鍵信息;步驟3、基于步驟2中提取的三元組形式的法律制度文檔中的關鍵信息,根據實體和關系構建知識圖譜并保存,同時對關鍵信息進行上下文編碼得到稠密的低維向量語義表示。該方法以根據電力審計相關法律制度提取關鍵信息并構建知識圖譜為目標,便于更好地利用電力審計相關法律制度中的相關信息,為智能問答等下游任務提供基礎。
技術領域
本發明涉及移動通訊技術領域,具體為一種基于電力審計制度的無監督知識圖譜構建方法。
背景技術
隨著大數據時代的到來,知識工程受到了廣泛關注,如何從海量的數據中提取有用的知識,是大數據分析的關鍵。知識圖譜技術提供了一種從海量文本和圖像中抽取結構化知識的手段,從而具有廣闊的應用前景。
知識圖譜的概念于2012年由谷歌正式提出,現已成為人工智能重要研究領域。知識圖譜是結構化的語義網絡,“主語-謂語-賓語”三元組(簡稱三元組)是其最小組成單位。從字面上看,三元組特指“主語,謂詞,賓語”的組合,如“隕石,撞擊,月球”這類事實。但實際上,這一概念是非常廣泛的,它還可以用來指代形如“名詞,屬性,屬性值”或“名詞1,關系,名詞2”的組合。為便于研究,一般將這些都統一記作“實體1,關系,實體2”。其中,實體指的是對真實世界對象的抽象。知識圖譜包含數據與模式兩個層面。數據即由三元組描述的每一條知識組成,規模較為龐大。模式又被稱為本體,是對數據的抽象描述,規模較小。如對天眼查數據構建知識圖譜,數據包含形如“張三,持股,10%”的具體知識,模式則包含“持股人,持股,持股份額”這類對數據的概括。模式可由專家人工構建或借助神經網絡進行自動構建。
另一方面,三元組抽取為獲取三元組的過程,三元組抽取是構建知識圖譜的核心步驟,也是從知識圖譜誕生以來就面臨的一大難題。對半結構化或結構化的語料,只需對格式進行簡單處理就能夠得到所需的三元組。而對于非結構化的語料,則需要進行三元組抽取。由于人工抽取三元組耗時耗力、效率低下,研究者設計了諸多機器自動抽取三元組的方法。這些方法從技術層面可分為有監督、半監督和無監督三類。
有監督三元組抽取依賴于大量經標注的三元組。研究者需要先構造模式,并按照模式制作訓練集,通過機器學習的方法訓練關系分類器,然后使用關系分類器,將通過命名實體識別從句子中識別出的實體歸類于模式中的關系,得到形如“實體1,關系,實體2”的三元組。常見的有監督三元組抽取方法包括基于卷積神經網絡的三元組抽取、基于長短期記憶網絡的三元組抽取、基于預訓練語言模型BERT的三元組抽取等。
以遠程監督算法為代表的半監督三元組抽取同樣需要大量經標注的三元組,但這些三元組是由機器參照一個相關領域的知識圖譜自動進行標注的。該方法認為,如果一對實體之間具有某種關系,那么所有包含這對實體的句子都能夠表達這種關系。例如參照知識圖譜中包含“中國,首都,北京”這個三元組,那就認為待抽取語料中所有通過命名實體識別得到的含實體“中國”、“北京”的句子,都可以提取出該三元組,并將這些句子包含的關系標注為“首都”,從而完成對句子的標注。依照這一思想,研究者需要對待抽取語料按照參照圖譜中的實體與關系對進行分包、關系標注,進行多事例學習。
無監督方法不需要標注數據,主要包括句法依存方法和特征模板方法。句法依存方法要求研究者構筑相關領域的專用詞詞典,基于該詞典對句子進行分詞與語法依存分析,得到依存樹。此后通過對依存樹的遍歷,根據語法特征(如主謂賓、主系表、定狀補等)進行三元組抽取。特征模板方法要求研究者針對文本特征,設計特定規則模板抽取指定屬性的三元組。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網天津市電力公司;國家電網有限公司,未經國網天津市電力公司;國家電網有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110829109.6/2.html,轉載請聲明來源鉆瓜專利網。





