[發明專利]一種基于規則的樹庫自動轉換方法及系統有效
| 申請號: | 202211224562.5 | 申請日: | 2022-10-09 |
| 公開(公告)號: | CN115292549B | 公開(公告)日: | 2022-12-20 |
| 發明(設計)人: | 楊麟兒;謝晨暉;胡正升;廖田昕;楊爾弘 | 申請(專利權)人: | 北京語言大學 |
| 主分類號: | G06F16/84 | 分類號: | G06F16/84 |
| 代理公司: | 北京市廣友專利事務所有限責任公司 11237 | 代理人: | 張仲波 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 規則 自動 轉換 方法 系統 | ||
本發明提供了一種基于規則的樹庫自動轉換方法及系統,涉及自然語言處理技術領域。包括:將輸入的短語結構字符串進行多叉樹數據結構構造;初始化xml存儲根節點xml_root對象;對多叉樹進行先序遍歷;判斷句子中是否存在小句,若不存在則進行規則轉換流程;遍歷每個子節點,判斷子節點是否符合句法成分轉換規則以及句式轉換規則,新建xml_root的子節點;對終端節點進行詞性規則的轉換,根據詞性轉換規則表將其轉換為句式結構樹庫的詞性;將更新的xml_root轉換為xml字符串,生成xml文件。充分利用短語結構樹庫和句式結構樹庫的標注體系的對應規律,為建立高質量的樹庫轉換模型和句式結構句法分析器提供了有效的數據支持,對句式結構自動句法分析等研究具有重要意義。
技術領域
本發明涉及自然語言處理技術領域,特別是指一種基于規則的樹庫自動轉換方法及系統。
背景技術
大規模句法資源的構建是一項費時費力的工程,目前常用的有以下幾種方法:人工標注及樹庫轉換。人工標注樹庫能夠保證樹庫質量,但成本高,耗時長。第二種方法即利用現有的樹庫資源,通過尋找兩種形式語法之間的映射關系,轉化成所需的目標樹庫。句式結構樹庫是以句本位語法為理論基礎構建的句法資源,對漢語教學以及句式結構自動句法分析等研究具有重要意義。目前已有的句式結構樹庫語料主要來源于教材領域,其他領域的標注數據較為缺乏。
發明內容
針對現有句式結構樹庫語料主要來源于教材領域,其他領域的標注數據較為缺乏的問題,本發明提出了一種基于規則的樹庫自動轉換方法及系統。
為解決上述技術問題,本發明提供如下技術方案:
一方面,提供了一種基于規則的結構樹庫自動轉換方法,該方法應用于電子設備,包括以下步驟:
S1:將輸入的短語結構字符串進行多叉樹數據結構構造,形成短語樹;初始化xml存儲根節點xml_root對象;
S2:從所述短語樹的根節點出發,對多叉樹進行先序遍歷;判斷句子中是否存在小句,如果存在則進行小句的切分,若不存在則進行規則轉換流程;
S3:遍歷每個子節點,判斷子節點是否符合句法成分轉換規則以及句式轉換規則,如果符合則按照預設規則進行轉換,轉換成功后新建xml_root的子節點;若不符合,判斷子節點是否符合特殊轉換規則,如果符合則按照預設規則進行轉換;若不符合,則結束;
S4:對終端節點進行詞性規則的轉換,根據詞性轉換規則表將其轉換為句式結構樹庫的詞性;
S5:將不斷更新xml_root轉換為xml字符串,生成xml文件,完成短語結構樹庫向句式結構樹庫的自動轉換。
可選地,步驟S1中, 所述多叉樹數據結構中每個節點的屬性包括:父節點、標簽值以及子節點屬性。
可選地,步驟S3中,遍歷每個子節點,判斷子節點是否符合句法成分轉換規則以及句式轉換規則,如果符合則按照預設規則進行轉換,轉換成功后新建xml_root的子節點;若不符合,判斷子節點是否符合特殊轉換規則,如果符合則按照預設規則進行轉換;若不符合,則結束,包括:
S31:遍歷每個子節點,判斷子節點是否符合句法成分轉換規則以及句式轉換規則,若符合,則根據句法成分轉換規則以及句式轉換規則進行轉換;
S32:若不符合句法成分轉換規則以及句式轉換規則,則根據句法成分轉換規則以及句式轉換規則,對特殊情況或多標簽組合的情況進行判斷,根據特殊情況的轉換規則進行轉換,其中所述特殊情況包括:子節點不能直接對應句法成分轉換規則、句式轉換規則,必須增加限制條件;子節點的標簽超過三個及以上;
S33:轉換成功后新建xml_root的子節點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京語言大學,未經北京語言大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211224562.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種橡膠粉碎裝置
- 下一篇:一種基于船舶狀態監測的海纜安全預警方法及系統





