[發明專利]一種自動解析英文文本語法現象的方法在審
| 申請號: | 201910088630.1 | 申請日: | 2019-01-30 |
| 公開(公告)號: | CN111581953A | 公開(公告)日: | 2020-08-25 |
| 發明(設計)人: | 戴翰波;李輝;王麗 | 申請(專利權)人: | 武漢慧人信息科技有限公司 |
| 主分類號: | G06F40/253 | 分類號: | G06F40/253 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430000 湖北省武漢市*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動 解析 英文 文本 語法 現象 方法 | ||
1.一種自動解析英文文本語法現象的方法,其特征在于:包括數據預處理模塊、語法樹映射模塊以及結果輸出模塊三大模塊:
數據預處理模塊利用自然語言處理包,對自然語言文本進行句子分割、字符標記、詞性標注、命名實體識別、單詞原型解析以及句子依存關系分析等;
語法樹映射模塊將預處理模塊得到的結果進行再處理,利用詞性標記結果和依存句法分析結果,結合正則表達式,實現所得結果映射到我們自己總結歸納的常見語法組成的語法樹上;
結果輸出模塊主要將映射得到的語法現象,根據用戶制定的選擇策略輸出,也可以全部輸出。
2.根據權利要求1所述的數據預處理模塊,具體處理流程為:
A.用任意的語法分析工具,對自然語言文本進行句子分割、字符標記、詞性標注、命名實體識別、單詞原型解析以及句子依存關系分析,得到英語文本斷句之后的結果,存為列表sentences
B.遍歷列表sentences,對每一個句子sentence先調用依存句法分析方法得到樹形結構的分析結果,存為dependency,然后對句子中每個單詞進行標記,記為token,得到每個token代表的單詞形式word,word對應的單詞原型lemma,詞性標記結果pos,以及命名實體識別結果ner
C.由上述結果整理得到句子和單詞的信息組,兩者分別包含[文本text,依存關系dependency]和[id號,word,詞性標注pos,原型lemma,命名實體識別ner],作為下一模塊語法樹映射模塊的輸入。
3.根據權利要求1所述的語法樹映射模塊,其中模塊包括詞法分析和句法分析兩部分,詞法分析又細化為普通單詞的詞法分析以及依賴句法的詞法分析兩部分。
4.根據權利要求1所述的結果輸出模塊,主要流程如下:
A.用戶根據自己需要制定選擇策略,策略的制定可以是語法樹上的任意一個節點或者任意節點的組合要求,更特殊的,可以選擇一棵子樹,即某一大類的輸出,如:選擇策略,詞法中定義為形容詞,句法中定義為基本句型和句子種類
B.根據用戶定義的選擇策略,進行語法現象的篩選。我們遍歷語法樹映射后的所有語法現象,查看每一條語法現象是否包含用戶選擇的語法樹中的節點組合中的節點,如果包含則是滿足條件的語法現象,反之,該條語法現象不滿足用戶定義的選擇策略
C.將上一步得到的結果整理輸出,返回給用戶。
5.根據權利要求3所述的詞法分析過程,包括以下幾部分:
A.讀入單詞信息組[id號,word,詞性標注pos,原型lemma,命名實體識別ner],以及句子信息組[文本text,依存關系dependency]
B.調用遍歷我們自己歸納的復合名詞詞匯表,進行復合名詞的識別,以及其主謂一致現象的識別
C.詞性標注類別分組,將語法樹中的詞法類別(包括名詞、數詞、形容詞、副詞、常見限定詞、代詞、動詞、介詞、冠詞、連詞)與詞性標注結果對應起來
D.每類詞法類別下,利用句子的依賴關系進行判斷,查看樹結構形成的依賴關系記錄中,該單詞的父節點具有的詞性,實現單詞功用的解析
E.單詞對應形態變化的語法,利用word和原型lemma的對比給出
F.單詞詞組固定搭配的識別,不涉及語法的,利用原型lemma的正則匹配實現
G.涉及語法的固定搭配的識別,利用詞性標注pos和單詞word或原型lemma實現
H.語法樹詞法現象中最后葉子節點細化到某個詞的解析,先用單詞原型lemma進行識別,然后利用詞性標注pos鎖定詞性分支,最后根據上下文特征細化到最后一層匹配。
6.根據權利要求3所述的句法分析過程,包括以下幾部分:
A.讀入句子信息組[文本text,依存關系dependency]
B.利用詞性標注為VB.*(動詞的各種變化形態)實現時態或非謂語形式的解析
C.利用文本內容進行正則表達式匹配,結合匹配單詞的詞性標注結果pos,識別不同句型的標志詞或引導詞,達到句子種類的判別
D.進而根據不同句型進行細化分析,主要利用每個單詞之間的依賴關系和單詞及詞性的正則匹配,這里的正則匹配主要是(id)lemma和pos的結構組合
E.記錄依賴關系,進行句子結構的分析,查看該句擁有的依賴關系,判斷基本句型和句子語序下的語法現象。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢慧人信息科技有限公司,未經武漢慧人信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910088630.1/1.html,轉載請聲明來源鉆瓜專利網。





