[發明專利]一種自然語言處理方法及裝置有效
| 申請號: | 201810085253.1 | 申請日: | 2018-01-29 |
| 公開(公告)號: | CN108182179B | 公開(公告)日: | 2019-07-30 |
| 發明(設計)人: | 任寧 | 申請(專利權)人: | 北京神州泰岳軟件股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京弘權知識產權代理事務所(普通合伙) 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 100089 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 命名實體 預設 關聯詞 關聯關系 標注 自然語言處理 角色 分析 匹配 文本 挖掘 | ||
本發明實施例公開一種自然語言處理方法,包括:獲取第一分析序列,第一分析序列包括至少一個命名實體和關聯詞,并且至少一個命名實體與關聯詞之間具有第一語序,關聯詞為表征命名實體之間的關聯關系的字詞;獲取標注序列,標注序列包括至少一個預設命名實體和預設關聯詞,并且至少一個預設命名實體與預設關聯詞之間具有第二語序,每個預設命名實體對應一種關聯關系的角色,預設關聯詞為表征預設命名實體之間的關聯關系的字詞;比較第一語序和第二語序是否匹配,如果是,則設置第一分析序列中命名實體的角色與標注序列中對應的預設命名實體的角色相同。采用上述方法以挖掘出文本中命名實體之間的關聯關系、命名實體的角色等有價值的信息。
技術領域
本發明涉及自然語言處理技術領域,具體涉及一種自然語言處理方法及裝置。
背景技術
企業的公告、研報、新聞、裁判文書等文本中有大量涉及命名實體的文字描述,例如企業與企業之間的關系、企業與個人之間的關系、企業的內部組織架構等。對企業決策者或者管理者而言,這些信息有助于了解企業/行業動態、判斷企業/行業風險,以及預測企業/行業前景。在信息爆炸的今天,要從海量且篇幅冗長的企業的公告、研報等文本中挖掘出這些有價值的信息,就需要依靠自然語言處理(natural language processing,NLP)技術。
相對于英語等外語來說,漢語沒有形態變化,更多地依賴語序來表現語法或者表達不同的語義。也就是說,即使句子中的字詞相同或類似,但語序不同,所表達的語義就可能存在較大差異。例如,“A公司收購B公司的股權”、“B公司收購A公司的股權”,這兩個句子中的字詞相同但語義完全不同,相應地,句子中所包含的企業之間的關系也不相同。在前一個句子中,A公司是收購公司,B公司是被收購公司;在后一個句子中,A公司是被收購公司,B公司是收購公司。
現有的自然語言處理的方法主要通過計算文本的相似度來挖掘出文本中的信息,例如采用余弦相似度法、編輯距離算法等。但是,計算文本相似度的方法對于中文語序問題的處理能力比較弱。當面對字詞相似度高但語序不同的兩個漢語文本時,采用計算文本相似度的方法所計算得到兩個文本的相似度很高,從而認為兩個文本的語義相近,因此無法準確地挖掘出這兩個文本的各自實際表達的語義,因此也無法應用于挖掘文本中命名實體之間的關系等有價值的信息上。
發明內容
為解決上述技術問題,本申請提供一種新的自然語言處理方法,以挖掘出文本中命名實體之間的關聯關系、命名實體在關聯關系中的角色等有價值的信息。
第一方面,提供一種自然語言處理方法,包括:
獲取第一分析序列,所述第一分析序列中包括至少一個命名實體和關聯詞,并且所述至少一個命名實體與所述關聯詞之間具有第一語序,其中,所述關聯詞為表征命名實體之間的關聯關系的字詞;
獲取標注序列,所述標注序列包括至少一個預設命名實體和預設關聯詞,并且所述至少一個預設命名實體與預設關聯詞之間具有第二語序,每個所述預設命名實體對應一種關聯關系的角色,其中,所述預設關聯詞為表征預設命名實體之間的關聯關系的字詞;
比較所述第一語序和所述第二語序是否匹配,如果是,則設置所述第一分析序列中命名實體的角色與所述標注序列中對應的預設命名實體的角色相同。
結合第一方面,在第一方面第一種可能的實現方式中,所述第一分析序列還包括關鍵詞,并且所述至少一個命名實體、所述關聯詞與所述關鍵詞之間具有第三語序,其中,所述關鍵詞為在所述第一分析序列中影響所述命名實體的角色的字詞;
所述標注序列還包括預設關鍵詞,并且所述至少一個預設命名實體、預設關聯詞與預設關鍵詞之間具有第四語序,其中,所述預設關鍵詞為在標注序列中影響所述預設命名實體的角色的字詞;
比較所述第一語序和所述第二語序是否匹配的步驟,具體為:
比較所述第三語序和所述第四語序是否匹配。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京神州泰岳軟件股份有限公司,未經北京神州泰岳軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810085253.1/2.html,轉載請聲明來源鉆瓜專利網。





