[發明專利]分詞、詞性標注、實體識別及句法分析的聯合處理方法有效
| 申請號: | 201810167568.0 | 申請日: | 2018-02-28 |
| 公開(公告)號: | CN108280064B | 公開(公告)日: | 2020-09-11 |
| 發明(設計)人: | 郭平;常薇;辛欣 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/211;G06F16/35 |
| 代理公司: | 北京正陽理工知識產權代理事務所(普通合伙) 11639 | 代理人: | 唐華 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分詞 詞性 標注 實體 識別 句法 分析 聯合 處理 方法 | ||
本發明涉及分詞、詞性標注、實體識別及句法分析的處理方法,是一種聯合處理分詞、詞性標注、實體識別和成分句法分析任務的方法,屬于自然語言處理技術領域。核心思想如下:首先分步構建出聯合模型;然后利用現有的實體數據和成分句法樹數據構造出聯合句法樹數據;接著從聯合句法樹數據中提取出訓練數據;再使用訓練數據對聯合模型進行訓練,最后使用訓練好的聯合模型對待分析的中文語句進行分析,得到作為分析結果的聯合句法樹。該方法有效地避免了錯誤傳播問題,并且是一種基于轉移的分析方法,保證了本發明的執行速度。
技術領域
本發明涉及分詞、詞性標注、實體識別及句法分析的聯合處理方法,屬于自然語言處理技術領域。
背景技術
分詞、詞性標注、實體識別和句法分析都屬于自然語言處理領域中重要的基礎任務。分詞,就是讓模型能夠準確地識別句子中的詞,因為在一些語言中,例如中文,在句子中是沒有明顯的分詞標記的,詞與詞之間沒有間隔,而在進行文本分析的時候,往往需要使用到詞級別的文本,所以,分詞成為了一項必需的基礎任務。詞性標注,就是判斷句子中每個詞的語法范疇,確定其詞性并加以標注。實體識別,就是識別句子中具有特定意義的實體,主要包括人名、地名、機構名等。句法分析,主要包括成分句法分析和依存句法分析,本發明中涉及的是成分句法分析,成分句法分析就是獲取整個句子的合乎語法的句法結構,句法結構一般用樹狀數據結構表示,所以分析結果通常稱為句法樹。做好這四項基礎任務,是分析和理解自然語言的關鍵,也是信息抽取、問答系統、機器翻譯等自然語言上層任務的重要基礎。
在傳統方式下,自然語言處理的中基礎分析任務都是單獨完成的,不同任務之間通過管道方式進行,即首先對待分析的中文語句進行分詞,然后在分詞的基礎上進行詞性標注和實體識別,然后在前面兩步的基礎上進行句法分析。這種管道式的處理方法有一個不可避免的問題,即錯誤傳播問題,在前面任務中產生的錯誤分析結果會隨著分析的進行傳播到后面的任務中,從而影響分析的準確性。所以,為了解決錯誤傳播的問題,一些學者提出了一些聯合模型,將分詞、詞性標注、實體識別和句法分析中的兩項或者是三項任務進行聯合,在分析文本的時候不使用管道式的方法,而使用聯合模型來處理,從而避免了錯誤傳播的問題。本發明受此啟發,提出一種聯合處理方法,該方法能夠同時解決四項任務,在解決的任務數量上多于以前的模型方法。同樣,因為是一種聯合方法,本發明同樣能夠避免管道式方法的錯誤傳播問題。在句法分析的方法上劃分,句法分析又可以分為基于圖的分析方法和基于轉移的分析方法,本發明的分析方法使用的是基于轉移的分析方法,基于轉移的分析方法具有比基于圖的分析方法更快的執行速度。
本發明通過為待分析的中文語句生成聯合句法樹,完成對該語句的分詞、詞性標注、實體識別和成分句法分析。聯合句法樹是本發明提出的一種帶有實體標簽節點的成分句法樹。在聯合句法樹中,分詞的結果可以從句法樹的葉子節點中獲得,每一個單獨的葉子節點都是一個詞;詞性標注和實體識別的結果可以從葉子節點的父節點(上一層節點)中獲得,若一個詞屬于某類實體,則該節點的父節點就是實體節點,表示該節點的實體類型,否則該節點的父節點是詞性節點,表示該節點的詞性類型;成分句法分析的結果就是句法樹的其他節點。由此,一個聯合句法樹包含上述四項任務的分析結果。
發明內容
本發明的目的是為了解決傳統方法中以管道的方式進行分詞、詞性標注、實體識別和成分句法分析任務時產生錯誤在任務之間傳播,從而導致任務準確率下降的問題,提供了分詞、詞性標注、實體識別及句法分析的聯合處理方法,是一種聯合處理分詞、詞性標注、實體識別和成分句法分析任務的方法,該方法有效地避免了錯誤傳播問題,并且是一種基于轉移的分析方法,保證了本發明的執行速度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810167568.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:卡托自動彈出裝置及具有其的電子設備
- 下一篇:影像圖像傳輸方法及裝置





