[發(fā)明專利]自然語言句法分析方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201610467343.8 | 申請日: | 2016-06-24 |
| 公開(公告)號: | CN107544955A | 公開(公告)日: | 2018-01-05 |
| 發(fā)明(設(shè)計(jì))人: | 陳浩 | 申請(專利權(quán))人: | 匯仕電子商務(wù)(上海)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 上海宏京知識產(chǎn)權(quán)代理事務(wù)所(普通合伙)31297 | 代理人: | 周高 |
| 地址: | 200333 上海市普陀區(qū)金通*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 自然語言 句法 分析 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及句法分析技術(shù)領(lǐng)域,具體來說涉及一種自然語言句法分析方法,以及一種用于實(shí)現(xiàn)該分析方法的自然語言句法分析系統(tǒng)。
背景技術(shù)
自然語言處理是人工智能和語言學(xué)領(lǐng)域的分支學(xué)科,是利用計(jì)算機(jī)工具對人類特有的書面形式和口頭形式的自然語言信息進(jìn)行各種處理和加工的技術(shù)。自然語言處理大致分為兩個(gè)層面,一個(gè)是淺層分析,如分詞,詞性標(biāo)注。這種技術(shù)只需對句子的局部范圍進(jìn)行分析處理,已經(jīng)屬于成熟技術(shù)。另一個(gè)層面是對語言進(jìn)行深層的處理,需要對句子的句法、語義、語用進(jìn)行全局分析。目前,哈工大開發(fā)的LTP和Stanford Parser處于業(yè)內(nèi)領(lǐng)先水平。其可以很好的解決短句的句法分析,而對于長句的句法分析,精確度仍然有待提高。如何開發(fā)出一種能夠?qū)﹂L句進(jìn)行準(zhǔn)確分析的分析系統(tǒng)和分析方法,克服現(xiàn)有技術(shù)存在缺陷的分析系統(tǒng)是本領(lǐng)域技術(shù)人員需要研究的方向。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種句法分析方法,以克服現(xiàn)有技術(shù)所存在的上述問題。
其采用的技術(shù)方案是:
一種自然語言句法分析方法,包括如下步驟:
S1:對輸入文本句進(jìn)行分詞操作,提取構(gòu)成輸入文本句的各個(gè)單詞;
S2:對S1所得各個(gè)單詞進(jìn)行詞性標(biāo)注,獲取各個(gè)單詞的詞性;
S3:統(tǒng)計(jì)兩兩單詞之間構(gòu)成依存關(guān)系的頻次,統(tǒng)計(jì)各單詞與另一單詞的詞性之間構(gòu)成依存關(guān)系的頻次,統(tǒng)計(jì)兩兩單詞的詞性之間構(gòu)成依存的頻次;
S4:在輸入文本句中的各單詞之間生成依存句法邊,所述S3中所得兩兩單詞之間構(gòu)成依存關(guān)系的頻次,設(shè)定依存關(guān)系DrC、DrD、DrE、DrF的頻次分別為f(c)、f(d)、f(e)、f(f),那么詞語i與詞語j的權(quán)值為(f(c) + f(d) + f(e) + f(f))/4);計(jì)算出句子中各依存句法邊的權(quán)值后,取最大的作為唯一的邊,加入有向圖中,以最大權(quán)值為唯一的邊生成有向樹圖;
S5:在有向樹圖中以Prim最小生成樹算法,計(jì)算出最小生成樹;
S6:對S5所得最小生成樹格式化輸出。
優(yōu)選的是,還包括步驟S7;所述步驟S7為:對S6所得格式化輸出進(jìn)行可視化展現(xiàn)。
本發(fā)明還提供了一種自然語言句法分析系統(tǒng),包括分詞單元,詞性標(biāo)注單元,依存分析單元,有向樹圖構(gòu)建單元,最小生成樹構(gòu)建單元和格式化輸出單元;所述分詞單元用于對輸入文本句進(jìn)行分詞操作,提取構(gòu)成輸入文本句的各個(gè)單詞;所述詞性標(biāo)準(zhǔn)單元連接分詞單元,用于各個(gè)單詞進(jìn)行詞性標(biāo)注,獲取各個(gè)單詞的詞性;所述依存分析單元連接詞性標(biāo)準(zhǔn)單元和分詞單元,用于統(tǒng)計(jì)兩兩單詞之間構(gòu)成依存關(guān)系的頻次、各單詞與另一單詞的詞性之間構(gòu)成依存關(guān)系的頻次和兩兩單詞的詞性之間構(gòu)成依存的頻次;所述有向樹圖構(gòu)建單元連接依存分析單元,用于在輸入文本句中的各單詞之間生成依存句法邊,其權(quán)值為所述S3中所得兩兩單詞之間構(gòu)成依存關(guān)系的頻次、各單詞與另一單詞的詞性之間構(gòu)成依存關(guān)系的頻次和兩兩單詞的詞性之間構(gòu)成依存的頻次三者的綜合,以最大權(quán)值為唯一的邊生成有向樹圖;所述最小生成樹構(gòu)建單元連接有向樹圖構(gòu)建單元,用于以Prim最小生成樹算法計(jì)算出最小生成樹;所述格式化輸出單元連接最小生成樹構(gòu)建單元,用于將最小生成樹構(gòu)建單元計(jì)算出的最小生成樹格式化輸出。
優(yōu)選的是,上述自然語言句法分析系統(tǒng)中,還包括可視化工具單元,所述可視化工具單元連接格式化輸出單元,用于對格式化輸出單元的格式化輸出進(jìn)行可視化展現(xiàn)。
與現(xiàn)有技術(shù)相比,本發(fā)明引入淺層分析的方式,獲取輸入文本的各個(gè)單詞和詞性。算法思路簡潔,數(shù)據(jù)處理速度快;可作為長句句法分析的關(guān)鍵技術(shù)深入研究。
附圖說明
圖1為本發(fā)明的工作流程圖;
圖2為本發(fā)明的結(jié)構(gòu)示意圖。
上述附圖中各部件與附圖標(biāo)記的對應(yīng)關(guān)系如下:
1、分詞單元;2、詞性標(biāo)注單元;3、依存分析單元;4、有向樹圖構(gòu)建單元;5、最小生成樹構(gòu)建單元;6、格式化輸出單元;7、可視化工具單元。
具體實(shí)施方式
以下結(jié)合實(shí)施例對本發(fā)明做進(jìn)一步的描述。
實(shí)施例1:
以@符號連接起兩個(gè)詞匯或詞性,用<>括起來的表示詞性,否則是詞匯。如果@后面沒有內(nèi)容,則表示頻次,否則表示一些依存關(guān)系與其出現(xiàn)的頻次。
以“我吃米飯”為例,先對該文本句進(jìn)行分詞與詞性標(biāo)注,
[我/rr, 吃/v, 米飯/nf]
接著,生成有向圖;
由于依存句法樹中有虛根的存在,所以為其加入一個(gè)虛節(jié)點(diǎn),這樣一共有四個(gè)節(jié)點(diǎn)
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于匯仕電子商務(wù)(上海)有限公司,未經(jīng)匯仕電子商務(wù)(上海)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610467343.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





