[發明專利]一種中文句法分析方法和系統在審
| 申請號: | 202110023058.8 | 申請日: | 2021-01-08 |
| 公開(公告)號: | CN112699664A | 公開(公告)日: | 2021-04-23 |
| 發明(設計)人: | 俞蓮 | 申請(專利權)人: | 中國專利信息中心 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/253;G06F40/289;G06N20/00 |
| 代理公司: | 北京中普鴻儒知識產權代理有限公司 11822 | 代理人: | 劉浩 |
| 地址: | 100088 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 句法 分析 方法 系統 | ||
本發明提出一種中文句法分析方法和系統,包括制定規則(詞語規則、短語規則、句子規則和句法分析規則)、分詞、標注詞性、識別詞和詞組、識別慣用型短語、識別慣用型句式、識別句子核心動詞、句法分析并按中文語法標注句子組分的語法成分或關系,以及按需求輸出分析結果。本發明從中文語言特征入手,深入挖掘了中文文字與句子結構的特點,充分利用中文語法和表達習慣,通過規則設計,實現中文句子語義的智能解析。句法分析層次和過程簡潔、快速和直觀,特別對于解析結構較特殊的句子和大量文檔提高了準確度和效率。本發明可廣泛應用于人工智能領域,像人機問答、文本聚類、文本相似度計算、機器翻譯、智能檢索、智慧城市和機器人等。
技術領域
本發明涉及自然語言分析技術領域,尤其涉及一種中文句法分析方法和系統。
背景技術
自然語言處理是人工智能和語言學領域的分支學科,是利用計算機工具對人類特有的書面形式和口頭形式的自然語言信息進行各種處理和加工的技術。自然語言處理大致分為兩個層面,一個是淺層分析,如分詞、詞性標注。這種技術只需對句子的局部范圍進行分析處理。另一個層面是對語言進行深層的處理,需要對句子的句法、語義、語用進行全面分析。
目前,主流的句法分析方法主要通過詞語間的依存關系進行句法分析,分析層次和解析過程復雜繁瑣,句子組分之間的關系繁冗,解析準確度和速度仍然有待提高。句法分析是自然語言處理的關鍵技術環節,應用非常廣泛,例如,結合句法分析技術,在自動問答裝置中,通過計算提問的句子和知識庫中對應的句子之間相似度在知識庫中查找到對應答案。在信息過濾技術中,通過文本相似度計算自動過濾用戶可能并不想看到的信息。但由于現有技術的缺陷,正確率、速度和召回率較低。
發明內容
針對以上問題,本發明提出一種中文句法分析方法和系統,從語言特征入手,充分挖掘了中文文字與結構的特點,利用現有中文語法和習慣,通過規則設計,實現中文的句子級語義的智能解析,從而讓機器“看懂”語言。
根據本發明的一個方面,提出一種中文句法分析方法,包括以下步驟:
步驟S1:對輸入的文本進行分句、分詞,并標注詞性;
步驟S2:識別句子中的詞組;
步驟S3:識別句子中的短語;
步驟S4:識別句子的構架;
步驟S5:對句子進行句法分析,并按中文語法標注和輸出句子組分的語法關系。
進一步的,在所述步驟S2中,所述詞組包括慣用型詞組和一般詞組,所述慣用型詞組指詞組形式的慣用表達以及包含特定字或名詞的詞組形式的慣用表達,一般詞組指組合式名詞。
進一步的,在所述步驟S3中,所述短語包括慣用型短語和一般短語,所述慣用型短語指以短語節點庫中的字、詞或其搭配詞作為節點的短語形式的慣用表達,由節點和組分構成,所述組分包括名詞、詞組、動詞、形容詞、副詞、短語或子句。
進一步的,所述步驟3包括:
S31、對每個分句從左到右與短語節點庫進行對比,識別單節點或雙節點;
S32、將句子從左到右距離最近的雙節點和所述雙節點之間的內容標注為雙節點慣用型短語;
S33、識別一般短語,所述一般短語指動詞+名詞組成的短語和 “的”字形容詞短語,其中,“的”字前為名詞、代詞、形容詞或“名詞+動詞”;
S34、如果識別出前單節點,則將所述前單節點到緊隨其后的不在“的”字形容詞短語或雙節點慣用型短語中的“動詞+名詞”,或動詞,或詞組或名詞的部分標注為單節點慣用型短語,如果識別出后單節點,則將所述后單節點到緊靠其前的“動詞+名詞”,或動詞,或詞組或名詞的部分標注為單節點慣用型短語。
進一步的,所述步驟S4包含:
S41、對比慣用型句式庫,判斷句子是否為復合句;
S42、對比慣用型句式庫,識別并標注慣用型句式;
S43、識別并標注句子核心動詞;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國專利信息中心,未經中國專利信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110023058.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種磁耦合電感器
- 下一篇:一種面向鐵路編組站的尾部編組計劃確定系統及方法





