[發明專利]面向句式結構圖解分析的交互式標注方法和系統有效
| 申請號: | 202010123672.7 | 申請日: | 2020-02-27 | 
| 公開(公告)號: | CN111428469B | 公開(公告)日: | 2023-06-16 | 
| 發明(設計)人: | 宋繼華;彭煒明;管世昱;郭冬冬;宋天寶 | 申請(專利權)人: | 宋繼華;彭煒明;郭冬冬;宋天寶 | 
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/289 | 
| 代理公司: | 北京市盛峰律師事務所 11337 | 代理人: | 席小東 | 
| 地址: | 100875 北*** | 國省代碼: | 北京;11 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 面向 句式 結構 圖解 分析 交互式 標注 方法 系統 | ||
本發明提供一種面向句式結構圖解分析的交互式標注方法和系統,方法包括:對傳統正則表達式進行擴展,得到新型正則表達式;使用新型正則表達式構建句式規則集;對待標注文本進行分詞和詞性標注,生成詞對象序列;使用句式規則集,對詞對象序列進行單層句式結構分析,將分析結果以句式結構表達式的形式提示在待標注文本附近的懸浮框內。本發明提供的一種面向句式結構圖解分析的交互式標注方法和系統,構建交互式標注環境,語料標注采用逐層分析、逐層標注的模式,且在系統分析結果正確的情況下,所有單層成分的切分可以通過一次鼠標操作完成,因此,提高標注效率。
技術領域
本發明屬于自然語言處理技術領域,具體涉及一種面向句式結構圖解分析的交互式標注方法和系統。
背景技術
在理論語言學與計算語言學的研究中,樹庫是一種十分重要的資源。在理論語言學中,樹庫為語言學家提供了大量基于真實語言的數據,為完善和驗證傳統的語言學理論奠定了堅實的基礎。在計算語言學中,自動句法分析以及各種上層應用都依賴于樹庫的規模與質量。
主流的樹庫主要是基于短語結構語法體系和依存結構語法體系進行構建的。經過多年的研究,兩種語法體系下的自動句法分析算法的準確率已經能夠達到90%左右。所以,樹庫的建設可以采用首先進行計算機自動分析,然后進行人工校正的方式,進而提高效率。
但是,短語結構語法和依存結構語法都不是教學語法,難以直接應用于漢語語法教學中。目前而言,語法教學研究與中文信息處理之間存在一道很深的信息鴻溝。基于這一事實,有學者從研究服務于語言習得的漢語文本分析技術的角度出發,提出了基于句本位思想的句式結構語法體系(Peng?et?al.,2015)。與主流的語法體系不同,句式結構語法體系不再局限于探究句子中的二元關系,而是從整體上把握句子的結構:劃分句子成分,分析句子成分的排列方式。顯然,句式結構語法體系與教學語法十分契合,能夠直接應用于漢語語法教學。
目前,依據句式結構語法體系的句法和詞法標準,已經開發完成一個句式結構圖解標注平臺(楊天心,2014;趙敏,2014)用于語料標注。利用該平臺,通過人工標注的方式已經建立了約十萬句規模的樹庫。但是,純人工的標注方式存在兩個主要問題:(1)二分的標注過程與句本位思想不符,反而更接近短語結構的思想;(2)句子成分需要逐個切分,標注效率太低。
發明內容
針對現有技術存在的缺陷,本發明提供一種面向句式結構圖解分析的交互式標注方法和系統,可有效解決上述問題。
本發明采用的技術方案如下:
本發明提供一種面向句式結構圖解分析的交互式標注方法,包括以下步驟:
步驟S1,對傳統正則表達式進行擴展,得到新型正則表達式;所述新型正則表達式支持詞對象序列的正則匹配;
步驟S2,使用所述新型正則表達式構建句式規則集;具體的,通過句子成分的詞形特征和詞性特征建立句式規則集,所述句式規則集中的每個句式規則使用所述新型正則表達式表示;其中,所述詞性特征為長度為1的英文字母,所述詞形特征為長度大于等于1的中文字符串;其中,所述句子成分包括:主語、謂語、賓語、定語、狀語和補語;
所述句式規則具體為:
1)獲得單層句式結構中各種句子成分的結構規律;
2)根據所述句子成分的結構規律,使用所述新型正則表達式表示每種句子成分;然后,根據句式結構特點,將各個所述句子成分組合在一起,構建得到一條完整的句式規則;
步驟S3,對待標注文本進行分詞和詞性標注,生成詞對象序列;
步驟S4,使用步驟S2構建的所述句式規則集,對步驟S3生成的詞對象序列進行正則匹配,將匹配結果以句式結構表達式的形式提示在待標注文本附近的懸浮框內。
優選的,步驟S1具體包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于宋繼華;彭煒明;郭冬冬;宋天寶,未經宋繼華;彭煒明;郭冬冬;宋天寶許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010123672.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種顯示裝置
 - 下一篇:面向漢語詞匯學習的分級詞表動態生成方法和系統
 





