[發明專利]一種針對實體識別和關系抽取任務的語義分析方法在審
| 申請號: | 202010762584.1 | 申請日: | 2020-07-31 |
| 公開(公告)號: | CN112084329A | 公開(公告)日: | 2020-12-15 |
| 發明(設計)人: | 張彤;姚燕妮;朱磊;黑新宏;王一川;姬文江;孟海寧;姜琨 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06F40/30;G06F40/295;G06F40/205 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 寧文濤 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 實體 識別 關系 抽取 任務 語義 分析 方法 | ||
本發明提供了一種針對實體識別和關系抽取任務的語義分析方法,包含三個模塊的內容,建立地鐵設計規范領域的概念分層體系和語義關系分類體系,分析規范文本的語言特點,以及獲取細分領域任務的實體和關系類別信息。第一個模塊,借助本體論的思想,和映射對標UMLS,得到概念分層體系和語義關系分類體系。第二個模塊,通過規范文本的來源和構成、數據形式和所具備的子語言特性三個部分,由淺及深地分析規范文本的語言特性,以補充實體識別和關系抽取任務的規則提取。最后一個模塊,將本體分類的思想滲入這一領域的研究任務細分過程中,實現任務和實體關系類別的對應,從而提高信息抽取的效率。
技術領域
本發明屬于計算機自然語言處理技術技術領域,具體涉及一種針對實體識別和關系抽取任務的語義分析方法。
背景技術
在現代城市公共基礎建設中,地鐵以其運量大、速度快、安全可靠、準點舒適的技術優勢,成為眾多國家城市交通的主要手段。隨著我國城市化水平大幅度提升,地鐵建設在城市經濟發展中占據重要地位。為了確保建筑的安全、經濟、適用,建筑設計過程中需要按照國家相關規范和標準。因此,對信息量巨大的規范進行信息化處理的需求非常迫切,本文以地鐵設計規范中的實體識別和關系抽取為目標,提出了一種針對該領域的語義分析方法。首先,借助本體論的思想,建立了地鐵設計規范領域的知識概念分層體系,同時,對已成熟的統一醫學語言系統(UMLS)進行分析,通過概念的映射和對標,得到最終的概念分層體系。同樣地,將這一過程應用于語義關系的分析中,得到語義關系分類體系。接著,從規范文本的來源和構成、數據形式以及所具備的子語言特性,三個部分對規范文本的語言特性進行分析,為實體識別和關系抽取任務提供一定的規則依據。最后,通過細化地鐵設計規范領域的研究任務,確定出不同任務所需要的實體和關系類別信息。
建筑規范是建筑設計必須遵循的各種國家文件的統稱,包括面積定額、衛生標準、防火措施、技術規定等。2014年3月1日開始施行的,由中華人民共和國住房和城鄉建設部批準的《地鐵設計規范》中,針對地鐵工程的建設給出了相關設計的規范約束,以保證和提高工程質量、加快建設進度、節約建設材料、降低工程造價、推廣先進技術和提高勞動生產率。這些文本信息雖然可以方便地表達概念和事件,但是同時也為搜索、統計分析、設計審查等研究制造了障礙。
發明內容
本發明的目的是提供一種針對實體識別和關系抽取任務的語義分析方法,解決了現有技術中地鐵設計規范領域信息抽取效率低的問題。
本發明所采用的技術方案是,一種針對實體識別和關系抽取任務的語義分析方法,具體包括以下步驟:
步驟1,利用歸納和參照相結合的方式,獲取地鐵設計規范領域的概念分層體系和語義關系分類體系;
步驟2,按照由淺及深的步驟,分析規范文本的語言特點;
步驟3,根據本體的分類方法,結合實體和關系的不同類別,進一步確定出實體識別和關系抽取任務所需要的類別信息,以提升地鐵設計規范領域信息抽取的效率。
步驟1中所述獲取地鐵設計規范領域的概念分層體系和語義關系
分類體系的方法具體包括以下步驟:
步驟1.1,明確運用的領域范疇為地鐵設計規范文本的語義分析,領域為地鐵設計規范領域,范疇是規范文本所涉及的專業;
步驟1.2,對照“建筑信息模型分類”,查找現有的分類體系,收集建筑信息模型分類;
步驟1.3,梳理領域重要概念,上述建筑信息模型分類標準適用于民用建筑及通用工業廠房建筑信息模型中信息的分類和編碼,但是由于同屬建筑領域,于是將分類體系進行局部改動,并且對存在重復和交叉的概念進行剔除,最終確定出地鐵設計規范領域的概念;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010762584.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種應用于LLC變換器的多模式調制芯片
- 下一篇:用于發熱板的銅帶貼附設備





