[發(fā)明專利]一種中文句法分析方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110023058.8 | 申請日: | 2021-01-08 |
| 公開(公告)號: | CN112699664A | 公開(公告)日: | 2021-04-23 |
| 發(fā)明(設(shè)計)人: | 俞蓮 | 申請(專利權(quán))人: | 中國專利信息中心 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/253;G06F40/289;G06N20/00 |
| 代理公司: | 北京中普鴻儒知識產(chǎn)權(quán)代理有限公司 11822 | 代理人: | 劉浩 |
| 地址: | 100088 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 中文 句法 分析 方法 系統(tǒng) | ||
本發(fā)明提出一種中文句法分析方法和系統(tǒng),包括制定規(guī)則(詞語規(guī)則、短語規(guī)則、句子規(guī)則和句法分析規(guī)則)、分詞、標(biāo)注詞性、識別詞和詞組、識別慣用型短語、識別慣用型句式、識別句子核心動詞、句法分析并按中文語法標(biāo)注句子組分的語法成分或關(guān)系,以及按需求輸出分析結(jié)果。本發(fā)明從中文語言特征入手,深入挖掘了中文文字與句子結(jié)構(gòu)的特點(diǎn),充分利用中文語法和表達(dá)習(xí)慣,通過規(guī)則設(shè)計,實(shí)現(xiàn)中文句子語義的智能解析。句法分析層次和過程簡潔、快速和直觀,特別對于解析結(jié)構(gòu)較特殊的句子和大量文檔提高了準(zhǔn)確度和效率。本發(fā)明可廣泛應(yīng)用于人工智能領(lǐng)域,像人機(jī)問答、文本聚類、文本相似度計算、機(jī)器翻譯、智能檢索、智慧城市和機(jī)器人等。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言分析技術(shù)領(lǐng)域,尤其涉及一種中文句法分析方法和系統(tǒng)。
背景技術(shù)
自然語言處理是人工智能和語言學(xué)領(lǐng)域的分支學(xué)科,是利用計算機(jī)工具對人類特有的書面形式和口頭形式的自然語言信息進(jìn)行各種處理和加工的技術(shù)。自然語言處理大致分為兩個層面,一個是淺層分析,如分詞、詞性標(biāo)注。這種技術(shù)只需對句子的局部范圍進(jìn)行分析處理。另一個層面是對語言進(jìn)行深層的處理,需要對句子的句法、語義、語用進(jìn)行全面分析。
目前,主流的句法分析方法主要通過詞語間的依存關(guān)系進(jìn)行句法分析,分析層次和解析過程復(fù)雜繁瑣,句子組分之間的關(guān)系繁冗,解析準(zhǔn)確度和速度仍然有待提高。句法分析是自然語言處理的關(guān)鍵技術(shù)環(huán)節(jié),應(yīng)用非常廣泛,例如,結(jié)合句法分析技術(shù),在自動問答裝置中,通過計算提問的句子和知識庫中對應(yīng)的句子之間相似度在知識庫中查找到對應(yīng)答案。在信息過濾技術(shù)中,通過文本相似度計算自動過濾用戶可能并不想看到的信息。但由于現(xiàn)有技術(shù)的缺陷,正確率、速度和召回率較低。
發(fā)明內(nèi)容
針對以上問題,本發(fā)明提出一種中文句法分析方法和系統(tǒng),從語言特征入手,充分挖掘了中文文字與結(jié)構(gòu)的特點(diǎn),利用現(xiàn)有中文語法和習(xí)慣,通過規(guī)則設(shè)計,實(shí)現(xiàn)中文的句子級語義的智能解析,從而讓機(jī)器“看懂”語言。
根據(jù)本發(fā)明的一個方面,提出一種中文句法分析方法,包括以下步驟:
步驟S1:對輸入的文本進(jìn)行分句、分詞,并標(biāo)注詞性;
步驟S2:識別句子中的詞組;
步驟S3:識別句子中的短語;
步驟S4:識別句子的構(gòu)架;
步驟S5:對句子進(jìn)行句法分析,并按中文語法標(biāo)注和輸出句子組分的語法關(guān)系。
進(jìn)一步的,在所述步驟S2中,所述詞組包括慣用型詞組和一般詞組,所述慣用型詞組指詞組形式的慣用表達(dá)以及包含特定字或名詞的詞組形式的慣用表達(dá),一般詞組指組合式名詞。
進(jìn)一步的,在所述步驟S3中,所述短語包括慣用型短語和一般短語,所述慣用型短語指以短語節(jié)點(diǎn)庫中的字、詞或其搭配詞作為節(jié)點(diǎn)的短語形式的慣用表達(dá),由節(jié)點(diǎn)和組分構(gòu)成,所述組分包括名詞、詞組、動詞、形容詞、副詞、短語或子句。
進(jìn)一步的,所述步驟3包括:
S31、對每個分句從左到右與短語節(jié)點(diǎn)庫進(jìn)行對比,識別單節(jié)點(diǎn)或雙節(jié)點(diǎn);
S32、將句子從左到右距離最近的雙節(jié)點(diǎn)和所述雙節(jié)點(diǎn)之間的內(nèi)容標(biāo)注為雙節(jié)點(diǎn)慣用型短語;
S33、識別一般短語,所述一般短語指動詞+名詞組成的短語和 “的”字形容詞短語,其中,“的”字前為名詞、代詞、形容詞或“名詞+動詞”;
S34、如果識別出前單節(jié)點(diǎn),則將所述前單節(jié)點(diǎn)到緊隨其后的不在“的”字形容詞短語或雙節(jié)點(diǎn)慣用型短語中的“動詞+名詞”,或動詞,或詞組或名詞的部分標(biāo)注為單節(jié)點(diǎn)慣用型短語,如果識別出后單節(jié)點(diǎn),則將所述后單節(jié)點(diǎn)到緊靠其前的“動詞+名詞”,或動詞,或詞組或名詞的部分標(biāo)注為單節(jié)點(diǎn)慣用型短語。
進(jìn)一步的,所述步驟S4包含:
S41、對比慣用型句式庫,判斷句子是否為復(fù)合句;
S42、對比慣用型句式庫,識別并標(biāo)注慣用型句式;
S43、識別并標(biāo)注句子核心動詞;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國專利信息中心,未經(jīng)中國專利信息中心許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110023058.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





