[發明專利]一種基于句法謂詞聚類的中文篇章主題表現力分析方法有效
| 申請號: | 201810166074.0 | 申請日: | 2018-02-28 |
| 公開(公告)號: | CN108460018B | 公開(公告)日: | 2020-11-06 |
| 發明(設計)人: | 周建設;張文彥;張凱;史金生;蔡天健;張龍春 | 申請(專利權)人: | 首都師范大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/284 |
| 代理公司: | 長沙智德知識產權代理事務所(普通合伙) 43207 | 代理人: | 陳銘浩 |
| 地址: | 100089 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 句法 謂詞 中文 篇章 主題 表現力 分析 方法 | ||
1.一種基于句法謂詞聚類的中文篇章主題表現力分析方法,該方法包括以下步驟:
一、語料集獲取:獲取待分析的目標篇章,并依次判定篇章語言主體為中文和表達類型為記敘文后,以一篇待分析的篇章為一個語料集M;
二、語料集預處理:對所述語料集M的每一個句子依次執行下述規則后,得語料集B:
規則1:過濾純非中文句子;
規則2:掃描錯別字、修正;
規則3:對經規則1和規則2處理后的句子進行子句劃分,以動詞為標志確定子句數量,一個動詞對應為一個子句;
規則4:對經規則1、規則2和規則3處理后的句子依次標記為T1、T2、T3...、Tn;
規則5:所述語料集B={T1、T2、T3...、Tn};
三、句法謂詞提取:對所述語料集B中所有已標記的子句分別執行下述規則提取句法謂詞,歸集為句法謂詞集S;
規則1:采用預置的中文句子成分骨干模型A-主謂賓成分主干模型,執行謂語的識別和賓語的識別,分別歸集為子集K1和子集K2;
規則2:將所述子集K1中,與子集K2為并集的集合過濾,子集K1中的保留集合重新歸集為子集K3;
規則3:識別子集K3中元素內部的語義角色成分,包括工具、時間、程度、方式四種語義角色成分,其識別結果分別歸集為子集G、子集T、子集C、子集F;
規則4:采用預置的中文語義角色骨干模型Q,過濾所述子集K3中的工具、時間、程度、方式類語義角色成分,將所述子集K3中,與子集G、子集T、子集C、子集F為并集的集合過濾,子集K3中的保留集合重新歸集為句法謂詞集S1;
規則5:識別子句為包含子句性賓語的主謂句的,采用分層識別執行謂語的識別,首先執行最外層子句的謂語識別,其次執行賓語內部的謂語識別;
規則6:采用所述主謂賓成分主干模型,執行謂語的識別和子句性賓語的識別,其中謂語和子句性賓語的識別結果分別歸集為子集K1*和子集K2*;
規則7:將所述子集K1*中,與子集K2*為并集的集合過濾,子集K1*中的保留集合重新歸集為子集K3*;
規則8:識別子集K3*中元素內部的語義角色成分,包括工具、時間、程度、方式四種語義角色成分,其識別結果分別歸集為子集G*、子集T*、子集C*、子集F*;
規則9:采用所述中文語義角色骨干模型Q,過濾所述子集K3*中的工具、時間、程度、方式類語義角色成分,將所述子集K3*中,與子集G*、T*、C*、F*為并集的集合過濾,子集K3*中的保留集合重新歸集為句法謂詞集S1*;
規則10:將所述子集K2*中的元素采用所述主謂賓成分主干模型或中文句子成分骨干模型B——主謂成分骨干模型執行謂語和賓語的識別,其中謂語和賓語的識別結果分別歸集為子集K1**和子集K2**,然后依次執行規則7至規則9,得到句法謂詞集S1**;若K2**中的元素仍為非名詞性成分,則繼續執行規則6-規則10,直至賓語的識別結果為名詞性成分;
規則11:識別子句為不包含賓語的主謂句的,采用所述中文句子成分骨干模型B——主謂成分主干模型,執行謂語的識別,其中謂語的識別結果歸結為子集K1’;
規則12:識別子集K1’中元素內部的語義角色成分,包括工具、時間、程度、方式四種語義角色成分,其識別結果分別歸集為子集G’、子集T’、子集C’、子集F’;
規則13:采用所述中文語義角色骨干模型Q,過濾所述子集K1’中的工具、時間、程度、方式類語義角色成分,將所述子集K1’中,與子集G’、T’、C’、F’為并集的集合過濾,子集K1’中的保留集合重新歸集為句法謂詞集S1’;
規則14:將句法謂詞集S1、S1*和句法謂詞集S1’取并集,歸集為句法謂詞集S;
四、有效句法謂詞篩選:遍歷句法謂詞集S中的所有詞語,執行以下規則,得有效聚合句法謂詞集C:
規則1:篇章中的句法謂詞聚合方式包括主語一致聚合、賓語一致聚合、語義場聚合三種聚合模式;
規則2:采用預置的中文句子成分骨干模型A——主謂賓成分主干模型或中文句子成分骨干模型B——主謂成分主干模型,執行主語和句法謂詞的識別,分別給每個句法謂詞標注上角標,按照主語先后出現次序,依次標記為0、1、2、3……自然數,主語相同的句法謂詞上角標標注相同,其中,兩個以上上角標一致的句法謂詞之間的語義關系判定為主語一致聚合關系;
規則3:依次抽取有效句法謂詞集S中的元素;
規則4:若沒有與抽取元素存在主語一致聚合關系的句法謂詞,則抽取該元素相鄰的下一個句法謂詞元素,繼續執行規則3,直至所述句法謂詞集S中的最后一個句法謂詞;
規則5:將有效句法謂詞集S中相互間擁有主語一致聚合關系的句法謂詞集C11、C12、C13……集合取并集,記為集合C1,C1=C11∪C12∪C13∪……;
規則6:子句成分為主謂賓的,采用所述中文句子成分骨干模型A——主謂賓成分主干模型執行句法謂詞和賓語的識別,分別給句法謂詞標注,按照賓語先后出現次序,依次標記為0、1、2、3……自然數,賓語相同的句法謂詞標注相同,其中,兩個以上標注一致的句法謂詞之間的語義關系判定為賓語一致聚合關系;
規則7:子句成分為主謂的,其句法謂詞標注統一記為特殊符號#,標注為特殊符號#的句法謂詞均不存在賓語一致聚合關系,過濾;
規則8:依次抽取句法謂詞集S中的元素,遍歷S中的其他句法謂詞,如果其他句法謂詞中有和該元素存在賓語一致聚合關系的句法謂詞,則收集為該元素的有效聚合句法謂詞集C2n;
規則9:若沒有與規則8中抽取元素存在賓語一致聚合關系的句法謂詞,則機器自動抽取與上述元素相鄰的下一個句法謂詞,繼續執行規則8,直至所述句法謂詞集S中的最后一個句法謂詞;
規則10:將句法謂詞集S中相互間擁有賓語一致聚合關系的句法謂詞集C21、C22、C23……集合取并集,記為集合C2,C2=C21∪C22∪C23∪……;
規則11:采用預置的中文語義詞庫,將擁有同義語義關系、近義語義關系、反義語義關系、上位語義關系、下位語義關系語義關系的句法謂詞之間的語義關系判定為語義場聚合關系;
規則12:依次抽取句法謂詞集S中的元素,遍歷S中的其他句法謂詞,如果其他句法謂詞中有和抽取元素存在語義場聚合關系的句法謂詞,則收集為該元素的有效聚合句法謂詞集C3n;
規則13:若沒有和所述規則12抽取元素存在語義場聚合關系的句法謂詞,則機器自動抽取與該相鄰的下一個句法謂詞,繼續執行規則12,直至S中的最后一個句法謂詞;
規則14:將句法謂詞集S中相互間擁有語義場聚合關系的句法謂詞集C31、C32、C33……集合取并集,記為集合C3,C3=C31∪C32∪C33∪……;
規則15:抽取句法謂詞集S中的任一句法謂詞,遍歷S中的其他所有元素,若其他所有元素和抽取元素之間均沒有主語一致聚合關系、賓語一致聚合關系和語義場聚合關系的語義關系,則判定該元素為對應篇章中的離散謂詞,將句法謂詞集S中所有的離散謂詞歸集為離散謂詞集L;
離散謂詞的判定,取句法謂詞集S中的任一句法謂詞,遍歷S中的其他所有元素,如果其他所有元素和該元素之間均沒有主語一致聚合關系、賓語一致聚合關系和語義場聚合關系的語義關系,則判定該元素為對應篇章中的離散謂詞;將句法謂詞集S中所有的離散謂詞收集為離散謂詞集L;
規則16:取所述集合C1、集合C2、集合C3并集,歸集為有效聚合句法謂詞集C;
五、句法謂詞聚類獲取:遍歷有效句法謂詞集C中的所有詞語,與預置的中文語義詞庫內的詞語一一匹配,執行下述規則:
規則1:匹配成功的詞語,判定為登陸詞語;
規則2:匹配不成功的詞語,轉由人工匹配,人工匹配成功判定為登陸詞語,人工匹配失敗判定為未登錄詞語;
規則3:登陸詞語給予唯一若干位數編號,同聚類詞語至少有一位的同位編碼相同;
規則4:分別識別登陸詞語語義,識別后的語義詞語相互比對;
規則5:語義同義、近義、反義、上位詞義、下位詞義判定為同聚類詞語;
規則6:獲取不同句法謂詞聚類的種類的詞語數量并依次集合為子集Z1、子集Z2、...子集Zn;
規則7:將規則6各子集歸集為句法謂詞聚類集合Z,所述句法謂詞聚類集合Z為大于0的自然數;
六、句法謂詞聚類主題表現力計算,執行下列多元回歸方程,所得值為句法謂詞聚類的主題表現力量化值:
F(N)=1/Z+(β1Z1+β2Z2+β3Z3+......+βnZn)/a×n
其中a為常數,βn為回歸系數,n=1,2,3,…,n;
所述中文句子成分骨干模型A-主謂賓成分主干模型采用下述方式訓練:
—提取樣本句子的句子成分序列;
—針對獲取的句子成分的各序列分別進行標注;
—標注為謂語成分的,將獲取的詞語、短語歸入子集K1;
—標注為賓語成分的,將獲取的詞語、短語歸入子集K2;
所述中文語義角色骨干模型Q采用下述方式訓練:
—提取樣本謂詞所在的句子;
—針對所提取句子的謂語的語義成分角色類型依次進行識別;
—識別語義成分角色為工具、時間、程度、方式類型的,標注為不可歸集謂語成分;
—識別語義角色為為動作、性質類型的,標注為可歸集謂詞;
—完成標注后,將不可歸集謂語成分過濾。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于首都師范大學,未經首都師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810166074.0/1.html,轉載請聲明來源鉆瓜專利網。





