[發明專利]依存句法樹構建系統在審
| 申請號: | 201811617007.2 | 申請日: | 2018-12-27 |
| 公開(公告)號: | CN109710937A | 公開(公告)日: | 2019-05-03 |
| 發明(設計)人: | 石進;韓進;金鵬 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 南京中高專利代理有限公司 32333 | 代理人: | 祝進 |
| 地址: | 210023 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語境 構建 構建系統 片段序列 集合 核心詞 句子 歸屬模塊 獲取模塊 去除 歸屬 | ||
1.一種依存句法樹構建系統,其特征在于,包括:
獲取模塊,獲取句子;
切分模塊,通過核心詞判斷將句子切分形成片段序列;
語境歸屬模塊,判斷片段序列之間的中間詞的歸屬語境;
最小語境集合模塊,去除單個詞的語境,以獲得最小語境集合;以及
構建依存句法樹模塊,基于最小語境集合構建依存句法樹。
2.如權利要求1所述的基于語境的依存句法樹構建系統,其特征在于,
所述獲取模塊適于獲取句子,即
初始化詞字典,針對訓練文本集中每個文本D,將文本D拆分成句子集合S。
3.如權利要求2所述的基于語境的依存句法樹構建系統,其特征在于,
所述切分模塊適于通過核心詞判斷將句子切分形成片段序列,即
遍歷句子集合S,將其中每一個句子拆分成n個詞形成詞集合WS;
針對詞集合WS中每個詞wi,i∈n計算其與詞集合中任一詞的共現次數;
查找詞字典中詞wi,將詞wi與詞集合WS中的其它詞wj,j∈n按<wj,couni>累加;
針對詞字典,進行遍歷,求出每個詞wi的語境共現頻率向量Vi,即將所有與詞wi具有共現關系的詞,基于公式:其中wj∈WS且wj≠wi,m∈n.m=n-1,獲得語境共現頻率向量Vi;
式中為其它詞wj的共現頻率,為其它詞wj和詞wi的共現次數;
基于公式計算出每個詞wi的語境共現熵值H(Vi),完成整個文本的訓練;
針對文本集進行文本分類處理后得到的文本分類集中任一句子集合S,將其拆分成詞集合WS,遍歷其中每個詞wi,根據詞字典中詞wi對應的熵,逐一比較各詞的語境共現熵值,具有最大語境共現熵值的詞即為核心詞;
基于各詞的語境共現熵值按照各詞在句中的位置生成折線圖,在折線圖中的拐點處的相鄰詞的語境共現熵值均大于拐點處的詞的語境共現熵值,則按拐點將折線圖切分成各個片段,形成片段序列。
4.如權利要求3所述的基于語境的依存句法樹構建系統,其特征在于,
所述語境歸屬模塊適于判斷片段序列之間的中間詞的歸屬語境,即
相鄰二個片段序列之間的中間詞歸屬于語境共現熵值較大的核心詞所在的片段序列對應的語境。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811617007.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種跨層級政府公文公告主題分析方法
- 下一篇:用于確定主題的方法和裝置





