[發明專利]自然語言處理方法、裝置、存儲介質及電子設備在審
| 申請號: | 201911401196.4 | 申請日: | 2019-12-30 |
| 公開(公告)號: | CN111209746A | 公開(公告)日: | 2020-05-29 |
| 發明(設計)人: | 劉振宇;王志剛;王澤皓;王亞平;劉雅婷;劉芬;鄧應強 | 申請(專利權)人: | 航天信息股份有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 魏嘉熹 |
| 地址: | 100195 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自然語言 處理 方法 裝置 存儲 介質 電子設備 | ||
1.一種自然語言處理方法,其特征在于,所述方法包括:
接收待分析文本數據和分析指令,其中,所述分析指令用于指示對所述待分析文本數據進行的分析模式和分析結果格式;
若所述分析模式指示對所述待分析文本數據進行句法依存分析,則對所述待分析文本數據進行分詞處理,獲得分詞數據;
根據所述分詞數據對所述待分析文本數據進行詞性標注,獲得分詞詞性數據;
對所述分詞詞性數據中的名詞詞性的分詞詞語進行實體識別,獲得實體識別數據;
根據所述分詞詞性數據和所述實體識別數據進行句法依存分析,獲得句法依存數據;
根據所述分析結果格式確定文本數據分析結果,并輸出所述文本數據分析結果,其中,所述文本數據分析結果包括所述分詞數據、所述分詞詞性數據、所述實體識別數據和所述句法依存數據中的一者或多者。
2.根據權利要求1所述的方法,其特征在于,所述對所述待分析文本數據進行分詞處理,獲得分詞數據,包括:
將所述待分析文本數據輸入分詞模型,獲得初始分詞數據,其中所述分詞模型為隱馬爾科夫鏈模型;
針對所述初始分詞數據中的各個初始詞語,計算該初始詞語對應的詞內緊密度;
針對待分析文本數據的每句對應的分詞數據,若該句對應的分詞數據中的最小的詞內緊密度小于預設閾值,分別確定該最小的詞內緊密度對應的初始詞語與初始該詞語的相鄰詞語之間的詞間緊密度;
將最大的詞間緊密度對應的初始詞語合并為新的分詞詞語,獲得所述分詞數據,其中,所述分詞數據包括所述初始分詞數據中未進行合并的初始詞語和所述新的分詞詞語。
3.根據權利要求2所述的方法,其特征在于,所述針對所述初始分詞數據中的各個初始詞語,通過以下公式,計算該初始詞語對應的詞內緊密度:
其中,pmi(C)表示該初始詞語對應的詞內緊密度;
p(C)表示該初始詞語對應的出現概率;
p(Ci)表示第i個初始詞語對應的出現概率;
n表示所述分詞數據中該初始詞語所在句包含的初始詞語的總個數。
4.根據權利要求2所述的方法,其特征在于,所述對所述分詞詞性數據中的名詞詞性的分詞詞語進行實體識別,獲得實體識別數據,包括:
將所述名詞詞性的分詞詞語輸入實體識別模型,獲得所述實體識別數據,其中,所述實體識別模型為基于實體詞典、隱馬爾科夫鏈、和通過長短期記憶神經網絡對所述新的分詞詞語進行訓練獲得的。
5.根據權利要求1所述的方法,其特征在于,所述方法還包括:
接收用戶上傳的實體擴展詞典;
所述對所述分詞詞性數據中的名詞詞性的分詞詞語進行實體識別,獲得實體識別數據,包括:
將所述分詞詞性數據中的名詞詞性的分詞詞語與所述實體擴展詞典進行匹配,以獲得實體識別數據。
6.根據權利要求1所述的方法,其特征在于,所述根據所述分析結果格式確定文本數據分析結果,并輸出所述文本數據分析結果,包括:
根據所述分詞結果格式,從所述分詞數據、所述分詞詞性數據、所述實體識別數據和所述句法依存數據中確定所述分詞結果格式對應的數據,作為所述文本數據分析結果;
分別輸出所述文本數據分析數據結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于航天信息股份有限公司,未經航天信息股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911401196.4/1.html,轉載請聲明來源鉆瓜專利網。





