[發明專利]一種針對實體識別和關系抽取任務的語義分析方法在審
| 申請號: | 202010762584.1 | 申請日: | 2020-07-31 |
| 公開(公告)號: | CN112084329A | 公開(公告)日: | 2020-12-15 |
| 發明(設計)人: | 張彤;姚燕妮;朱磊;黑新宏;王一川;姬文江;孟海寧;姜琨 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06F40/30;G06F40/295;G06F40/205 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 寧文濤 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 實體 識別 關系 抽取 任務 語義 分析 方法 | ||
1.一種針對實體識別和關系抽取任務的語義分析方法,其特征在于,具體包括以下步驟:
步驟1,利用歸納和參照相結合的方式,獲取地鐵設計規范領域的概念分層體系和語義關系分類體系;
步驟2,按照由淺及深的步驟,分析規范文本的語言特點;
步驟3,根據本體的分類方法,結合實體和關系的不同類別,進一步確定出實體識別和關系抽取任務所需要的類別信息,以提升地鐵設計規范領域信息抽取的效率。
2.根據權利要求1所述的一種針對實體識別和關系抽取任務的語義分析方法,其特征在于,步驟1中所述獲取地鐵設計規范領域的概念分層體系和語義關系分類體系的方法具體包括以下步驟:
步驟1.1,明確運用的領域范疇為地鐵設計規范文本的語義分析,領域為地鐵設計規范領域,范疇是規范文本所涉及的專業;
步驟1.2,對照“建筑信息模型分類”,查找現有的分類體系,收集建筑信息模型分類;
步驟1.3,梳理領域重要概念,上述建筑信息模型分類標準適用于民用建筑及通用工業廠房建筑信息模型中信息的分類和編碼,但是由于同屬建筑領域,于是將分類體系進行局部改動,并且對存在重復和交叉的概念進行剔除,最終確定出地鐵設計規范領域的概念;
步驟1.4,定義類和類的等級體系,根據概念梳理的結果,結合人工閱讀規范條文的方式,歸納創建實體類別;在歸納創建的實體類別基礎上,本文自頂向下通過映射和對標UMLS完善實體類別;
步驟1.5,梳理類之間的關系,提取類等級體系中已確立的關系,并且分析概念間是否存在橫向關系;在步驟4中可以得到類之間的層級關系,即上、下位概念;分析概念之間的橫向關系;
步驟1.6,確定抽取的實體及實體之間的關系,將不可再分的對象作為實體添加到對應的類中,并且在實體分類的基礎上,從規范條文語義出發,分析兩兩實體類別之間可能存在的關系。
3.根據權利要求2所述的一種針對實體識別和關系抽取任務的語義分析方法,其特征在于,步驟1.3中地鐵設計規范領域的四個基本概念為建設成果、建設進程、建設資源和建設屬性。
4.根據權利要求2所述的一種針對實體識別和關系抽取任務的語義分析方法,其特征在于,步驟1.4中通過映射完善實體類別的具體步驟為:
地鐵設計規范領域映射上三層的概念,更深層次的概念分類需要通過分析和對標的方式,進行采納或剔除,并且含義相同的概念名稱采用地鐵設計領域專業術語。
5.根據權利要求1所述的一種針對實體識別和關系抽取任務的語義分析方法,其特征在于,步驟2中分析語言特點的方法具體為:
規范文本語言特點分析,由淺及深包含三個部分:規范文本的來源和構成、數據形式以及所具備的子語言特性。地鐵設計規范數據的形式主要由表格、自由文本、圖像構成,其中自由文本形式的非結構化數據是地鐵設計規范中非常重要的數據,是地鐵設計規范信息抽取的重點。
6.根據權利要求5所述的一種針對實體識別和關系抽取任務的語義分析方法,其特征在于,所述語言特性包括:
1)忽略隱含信息,導致句子語法成分不完整,比如缺少主語;
2)包含一些以數字和字母表示的屬性值;
3)包含英文縮寫詞;
4)符號在地鐵設計領域的特殊意義;
5)表達模式化并且不同的模式可能等價;
6)包含大量專業術語
7)存在固定的語義類型
8)建筑設計習慣用語大量出現
9)為了表達清晰,用半結構化的方式組織各部分內容。
7.根據權利要求1所述的一種針對實體識別和關系抽取任務的語義分析方法,其特征在于,所述步驟3中本體的分類方法具體為:
按照領域依賴度的本體層次可以分為四類:頂層本體、領域本體、任務本體和應用本體;根據本體層次,從領域本體開始,將地鐵設計規范領域的研究任務進行細分;實體識別和關系抽取是該領域信息抽取研究的主要任務。
8.根據權利要求7所述的一種針對實體識別和關系抽取任務的語義分析方法,其特征在于,所述頂層本體是指通用概念及關系,領域本體是指特定領域概念及關系,任務本體是指領域內的指定問題概念及關系,應用本體是指特定任務的概念及關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010762584.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種應用于LLC變換器的多模式調制芯片
- 下一篇:用于發熱板的銅帶貼附設備





