[發明專利]基于語義角色標注的文書體裁分類系統及方法有效
| 申請號: | 201811409309.0 | 申請日: | 2018-11-23 |
| 公開(公告)號: | CN109710756B | 公開(公告)日: | 2023-07-07 |
| 發明(設計)人: | 藍建敏 | 申請(專利權)人: | 京華信息科技股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06N5/04 |
| 代理公司: | 北京聯瑞聯豐知識產權代理事務所(普通合伙) 11411 | 代理人: | 張清彥 |
| 地址: | 510000 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語義 角色 標注 文書 體裁 分類 系統 方法 | ||
1.一種基于語義角色標注的文書體裁分類系統,其特征在于,包括:
語義角色標注引擎:用于執行語義角色標注;
知識本體庫:用于存儲和維護知識本體;
體裁識別規則引擎:用于對體裁識別規則進行解析、匹配和推理;
體裁識別規則庫:用于維護和存儲體裁識別規則;
所述語義角色標注引擎、知識本體庫、體裁識別規則引擎和體裁識別規則庫相連接;
所述語義角色標注引擎包括相連接的分詞器、語義角色標注器和語法分析器;
所述體裁識別規則引擎包括:
體裁識別規則解析器:用于將所述體裁識別規則由文本解析成計算機程序能識別的數據結構;
體裁識別規則匹配器:用于將所述語義角色標注引擎標注過的結果與所述體裁識別規則進行匹配;
體裁識別規則推理器:用于根據所述體裁識別規則匹配器的匹配結果,執行推理得出最終的體裁分類;
所述體裁識別規則解析器、體裁識別規則匹配器和體裁識別規則推理器相連接;
應用于所述的基于語義角色標注的文書體裁分類系統的分類方法,所述方法包括如下步驟:
A0)建立體裁識別規則,并將其存入體裁識別規則庫;所述體裁識別規則包括前項描述部分、推導符和后項描述部分,所述前項描述部分為命名實體類型的序列組合,所述后項描述部分為體裁類別和可信度;
其進一步包括:
A01)人工總結規律;
A02)將所述規律用符合體裁識別規則語法的字符來表示,得到體裁識別規則;
A03)將所述體裁識別規則錄入所述基于語義角色標注的文書體裁分類系統;
A04)體裁識別規則解析器對所述體裁識別規則進行解析,得到表示體裁識別規則的計算機數據結構,判斷所述計算機數據結構是否符合所述體裁識別規則語法的語法結構,如是,執行步驟A05);否則,返回步驟A02);
A05)將所述計算機數據結構與已存在的體裁識別規則進行對比,判斷是否通過語義校驗,如是,執行步驟A06);否則,返回步驟A01);
A06)將所述體裁識別規則存入所述體裁識別規則庫;
A)使用語義角色標注引擎對輸入的文獻標題進行語義角色標注,得到語義角色標注結果;
B)從體裁識別規則庫讀取體裁識別規則,由體裁識別規則解析器進行解析,并得到體裁識別規則解析結果;
C)使用體裁識別規則匹配器對所述語義角色標注結果與所述體裁識別規則解析結果進行匹配操作;
D)使用匹配得到的體裁識別規則進行體裁分類;
其中,所述步驟A)進一步包括:
A1)使用分詞器對輸入的文獻標題進行全分詞,將所有的分詞組合提取出來;
A2)使用語義角色標注器對所述分詞組合進行語義角色標注;
A3)使用語法分析器進行語法分析,選擇出最合理的分詞結果組合,消除所述分詞結果組合中的重疊的部分,得到最終的所述語義角色標注結果;
所述步驟B)進一步包括:
B1)使用體裁識別規則解析器對由文本表示的體裁識別規則進行解析;
B2)將所述由文本表示的體裁識別規則轉換為計算機能識別的表示體裁識別規則的數據結構;
所述步驟C)進一步包括:
C1)將所述語義角色標注結果與所述體裁識別規則中的角色類型序列進行一一比對;
C2)獲取所有匹配成功的體裁識別規則;
所述步驟D)進一步包括:
D1)將所述匹配成功的體裁識別規則的后項描述部分取出;
D2)選出所述后項描述部分中可信值最大的體裁識別規則,并將其作為結果輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京華信息科技股份有限公司,未經京華信息科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811409309.0/1.html,轉載請聲明來源鉆瓜專利網。





