[發明專利]自然語言句法分析方法及系統在審
| 申請號: | 201610467343.8 | 申請日: | 2016-06-24 |
| 公開(公告)號: | CN107544955A | 公開(公告)日: | 2018-01-05 |
| 發明(設計)人: | 陳浩 | 申請(專利權)人: | 匯仕電子商務(上海)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 上海宏京知識產權代理事務所(普通合伙)31297 | 代理人: | 周高 |
| 地址: | 200333 上海市普陀區金通*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自然語言 句法 分析 方法 系統 | ||
1.一種自然語言句法分析方法,其特征在于包括如下步驟:
S1:對輸入文本句進行分詞操作,提取構成輸入文本句的各個單詞;
S2:對S1所得各個單詞進行詞性標注,獲取各個單詞的詞性;
S3:統計兩兩單詞之間構成依存關系的頻次,統計各單詞與另一單詞的詞性之間構成依存關系的頻次,統計兩兩單詞的詞性之間構成依存的頻次;
S4:在輸入文本句中的各單詞之間生成依存句法邊,所述S3中所得兩兩單詞之間構成依存關系的頻次,設定依存關系DrC、DrD、DrE、DrF的頻次分別為f(c)、f(d)、f(e)、f(f),那么詞語i與詞語j的權值為(f(c) + f(d) + f(e) + f(f))/4);計算出句子中各依存句法邊的權值后,取最大的作為唯一的邊,加入有向圖中,以最大權值為唯一的邊生成有向樹圖;
S5:在有向樹圖中以Prim最小生成樹算法,計算出最小生成樹;
S6:對S5所得最小生成樹格式化輸出。
2.如權利要求1所述一種自然語言句法分析方法,其特征在于還包括步驟S7;
S7:對S6所得格式化輸出進行可視化展現。
3.一種自然語言句法分析系統,其特征在于:包括分詞單元(1),詞性標注單元(2),依存分析單元(3),有向樹圖構建單元(4),最小生成樹構建單元(5)和格式化輸出單元(6);
所述分詞單元(1)用于對輸入文本句進行分詞操作,提取構成輸入文本句的各個單詞;
所述詞性標準單元(2)連接分詞單元(1),用于各個單詞進行詞性標注,獲取各個單詞的詞性;
所述依存分析單元(3)連接詞性標準單元(2)和分詞單元(1),用于統計兩兩單詞之間構成依存關系的頻次、各單詞與另一單詞的詞性之間構成依存關系的頻次和兩兩單詞的詞性之間構成依存的頻次;
所述有向樹圖構建單元(4)連接依存分析單元(3),用于在輸入文本句中的各單詞之間生成依存句法邊,其權值為所述S3中所得兩兩單詞之間構成依存關系的頻次、各單詞與另一單詞的詞性之間構成依存關系的頻次和兩兩單詞的詞性之間構成依存的頻次三者的綜合,以最大權值為唯一的邊生成有向樹圖;
所述最小生成樹構建單元(5)連接有向樹圖構建單元(4),用于以Prim最小生成樹算法計算出最小生成樹;
所述格式化輸出單元(6)連接最小生成樹構建單元(5),用于將最小生成樹構建單元(5)計算出的最小生成樹格式化輸出。
4.如權利要求3所述一種自然語言句法分析系統,其特征在于:還包括可視化工具單元(7),所述可視化工具單元(7)連接格式化輸出單元(6),用于對格式化輸出單元(6)的格式化輸出進行可視化展現。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于匯仕電子商務(上海)有限公司,未經匯仕電子商務(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610467343.8/1.html,轉載請聲明來源鉆瓜專利網。





