[發明專利]自然語言處理方法、裝置及電子設備在審
| 申請號: | 202011479380.3 | 申請日: | 2020-12-15 |
| 公開(公告)號: | CN112528654A | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 呂少科;蔣宏飛;宋旸;邵睿;張振 | 申請(專利權)人: | 作業幫教育科技(北京)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F40/211;G06N3/04 |
| 代理公司: | 北京清誠知識產權代理有限公司 11691 | 代理人: | 宋紅艷 |
| 地址: | 100085 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自然語言 處理 方法 裝置 電子設備 | ||
本發明屬于計算機信息處理技術領域,提供一種自然語言處理方法、裝置、電子設備及計算機可讀介質,該方法包括:對文本數據中的文字進行分詞處理以獲取文字和/或詞匯;將所述文本數據和其對應的領域屬性輸入文字向量模型中,獲取字向量;將所述文本數據和其對應的領域屬性輸入詞匯向量模型中,獲取詞向量;基于所述文本數據確定所述文字對應的第一權重和/或所述詞匯對應的第二權重;通過所述字向量、所述第一權重和/或所述詞向量、所述第二權重確定所述文本數據的句子語義向量;基于所述句子語義向量對所述實時文本數據進行自然語言處理。本發明能夠有效提升句子的語義表達能力。
技術領域
本發明屬于計算機信息處理領域技術領域,特別適用于機器的語義識別領域,更具體的是涉及一種自然語言處理方法、裝置、電子設備及計算機可讀介質。
背景技術
自然語言處理(NLP)是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現自然語言通信的計算機系統,特別是其中的軟件系統。因而它是計算機科學的一部分。實際上,自然語言處理,即實現人機間自然語言通信,或實現自然語言理解和自然語言生成是十分困難的。一個中文文本或一個漢字 (含標點符號等)串可能有多個含義。它是自然語言理解中的主要困難和障礙。反過來,一個相同或相近的意義同樣可以用多個中文文本或多個漢字串來表示。
現代NLP算法是基于機器學習,特別是統計機器學習。機器學習范式是不同于一般之前的嘗試語言處理。語言處理任務的實現,通常涉及直接用手的大套規則編碼。通常做法是,基于常用語料庫對機器學習模型進行訓練,對一段含有自然語言的文本數據進行分詞處理,將分詞處理后的結果輸入到訓練好的機器學習模型中,然后基于詞向量進行語義識別。
在所述背景技術部分公開的上述信息僅用于加強對本公開的背景的理解,因此它可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本發明旨在解決現有技術的自然語言處理中存在的困境,因為現有技術中的自然語言處理過程,均為基于分詞的方式進行的,而在實際的中文中,單字也能表達很多含義;而且,現有技術中的自然語言處理模型均是基于寬泛的語料庫進行訓練,力求得到一個適用于所有場景的自然語言處理模型。以上兩個缺點使得現有技術中的自然語言處理模型計算較慢,而且在某些場景中給出的分析結果不夠準確。
為解決上述技術問題,本發明的一方面提出一種自然語言處理方法,該方法包括:對文本數據中的文字進行分詞處理以獲取文字和/或詞匯;將所述文本數據和其對應的領域屬性輸入文字向量模型中,獲取字向量;將所述文本數據和其對應的領域屬性輸入詞匯向量模型中,獲取詞向量;基于所述文本數據確定所述文字對應的第一權重和/或所述詞匯對應的第二權重;通過所述字向量、所述第一權重和/或所述詞向量、所述第二權重確定所述文本數據的句子語義向量;基于所述句子語義向量對所述實時文本數據進行自然語言處理。
根據本發明的優選實施方式,還包括:提取數據庫中多個預設文本數據的句子語義向量;基于所述句子語義向量將所述文本數據和所述多個預設文本數據進行相似度比較;根據相似度比較結果由所述多個預設文本數據中確定目標文本數據。
根據本發明的優選實施方式,還包括:基于多個帶有領域屬性的語料對深度神經網絡模型進行訓練,生成所述文字向量模型;基于多個帶有領域屬性的語料對淺層神經網絡模型進行訓練,生成所述詞匯向量模型。
根據本發明的優選實施方式,對文本數據中的文字進行分詞處理以獲取文字和/或詞匯,包括:獲取分詞字典;基于所述分詞字典對所述文本數據進行分詞,生成詞匯網絡,所述詞匯網絡為有向無環圖;基于所述詞匯網絡確定所述詞匯。
根據本發明的優選實施方式,基于所述詞匯網絡確定所述詞匯,包括:基于動態規劃算法確定所述詞匯網絡中的最大概率路徑;基于所述最大概率路徑確定所述詞匯。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于作業幫教育科技(北京)有限公司,未經作業幫教育科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011479380.3/2.html,轉載請聲明來源鉆瓜專利網。





