[發明專利]自然語言處理方法、裝置、存儲介質及電子設備在審
| 申請號: | 201911401196.4 | 申請日: | 2019-12-30 |
| 公開(公告)號: | CN111209746A | 公開(公告)日: | 2020-05-29 |
| 發明(設計)人: | 劉振宇;王志剛;王澤皓;王亞平;劉雅婷;劉芬;鄧應強 | 申請(專利權)人: | 航天信息股份有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 魏嘉熹 |
| 地址: | 100195 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自然語言 處理 方法 裝置 存儲 介質 電子設備 | ||
本公開涉及一種自然語言處理方法、裝置、存儲介質及電子設備,所述方法包括:接收待分析文本數據和分析指令,分析指令用于指示對待分析文本數據進行的分析模式和分析結果格式;若分析模式指示對待分析文本數據進行句法依存分析,則對待分析文本數據進行分詞處理,獲得分詞數據;根據分詞數據對待分析文本數據進行詞性標注,獲得分詞詞性數據;對分詞詞性數據中的名詞詞性的分詞詞語進行實體識別,獲得實體識別數據;根據分詞詞性數據和實體識別數據進行句法依存分析,獲得句法依存數據;根據分析結果格式確定文本數據分析結果,輸出文本數據分析結果,文本數據分析結果包括分詞數據、分詞詞性數據、實體識別數據和句法依存數據中的一者或多者。
技術領域
本公開涉及計算機技術領域,具體地,涉及一種自然語言處理方法、裝置、存儲介質及電子設備。
背景技術
隨著計算機技術的發展,自然語言處理技術也隨之興起。如,在稅務領域、醫學領域等,均可以通過自然語言處理技術從而對該領域中的文本進行標準化處理,降低用戶的工作量。
然而,在現有技術中,該自然語言處理的不同技術通常是被單獨的在各智能平臺及自然語言處理工具中提供,這樣往往會導致各種重復性計算問題。如用戶在使用實體識別功能時需要重新進行分詞和詞性標注工作,浪費了大量的運算時間。
發明內容
本公開的目的是提供一種準確地自然語言處理方法、裝置、存儲介質和電子設備。
為了實現上述目的,根據本公開的第一方面,提供一種自然語言處理方法,包括:
接收待分析文本數據和分析指令,其中,所述分析指令用于指示對所述待分析文本數據進行的分析模式和分析結果格式;
若所述分析模式指示對所述待分析文本數據進行句法依存分析,則對所述待分析文本數據進行分詞處理,獲得分詞數據;
根據所述分詞數據對所述待分析文本數據進行詞性標注,獲得分詞詞性數據;
對所述分詞詞性數據中的名詞詞性的分詞詞語進行實體識別,獲得實體識別數據;
根據所述分詞詞性數據和所述實體識別數據進行句法依存分析,獲得句法依存數據;
根據所述分析結果格式確定文本數據分析結果,并輸出所述文本數據分析結果,其中,所述文本數據分析結果包括所述分詞數據、所述分詞詞性數據、所述實體識別數據和所述句法依存數據中的一者或多者。
可選地,所述對所述待分析文本數據進行分詞處理,獲得分詞數據,包括:
將所述待分析文本數據輸入分詞模型,獲得初始分詞數據,其中所述分詞模型為隱馬爾科夫鏈模型;
針對所述初始分詞數據中的各個初始詞語,計算該初始詞語對應的詞內緊密度;
針對待分析文本數據的每句對應的分詞數據,若該句對應的分詞數據中的最小的詞內緊密度小于預設閾值,分別確定該最小的詞內緊密度對應的初始詞語與初始該詞語的相鄰詞語之間的詞間緊密度;
將最大的詞間緊密度對應的初始詞語合并為新的分詞詞語,獲得所述分詞數據,其中,所述分詞數據包括所述初始分詞數據中未進行合并的初始詞語和所述新的分詞詞語。
可選地,所述針對所述初始分詞數據中的各個初始詞語,通過以下公式,計算該初始詞語對應的詞內緊密度:
其中,pmi(C)表示該初始詞語對應的詞內緊密度;
p(C)表示該初始詞語對應的出現概率;
p(Ci)表示第i個初始詞語對應的出現概率;
n表示所述分詞數據中該初始詞語所在句包含的初始詞語的總個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于航天信息股份有限公司,未經航天信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911401196.4/2.html,轉載請聲明來源鉆瓜專利網。





