[發明專利]無語義文本的識別方法及裝置有效
| 申請號: | 201710182218.7 | 申請日: | 2017-03-24 |
| 公開(公告)號: | CN108628822B | 公開(公告)日: | 2021-12-07 |
| 發明(設計)人: | 江南;祝慧佳 | 申請(專利權)人: | 創新先進技術有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽 |
| 地址: | 開曼群島大開曼島*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義 文本 識別 方法 裝置 | ||
1.一種無語義文本的識別方法,其特征在于,包括:
獲取待識別文本;
對所述待識別文本進行預處理;
確定預處理后的待識別文本的各個詞序列;
根據N-gram語言模型,確定所述各個詞序列的概率分數值;
根據所述各個詞序列的概率分數值以及所述詞序列的個數,確定所述待識別文本的平均概率分數值和概率分數標準差值;
分別對所述平均概率分數值和所述概率分數標準差值進行歸一化處理,得到對應的第一處理結果和第二處理結果;
比較所述第一處理結果與所述第二處理結果;
若所述第一處理結果較大,則對所述第一處理結果進行放大處理,并將放大處理后的第一處理結果確定為所述待識別文本的綜合分數值;
若所述第二處理結果較大,則對所述第二處理結果進行放大處理,并將放大處理后的第二處理結果確定為所述待識別文本的綜合分數值;
當所述綜合分數值滿足預設條件時,將所述待識別文本識別為無語義文本。
2.根據權利要求1所述的方法,其特征在于,所述對所述待識別文本進行預處理包括以下任意一個或多個步驟:
去除所述待識別文本中的干擾元素;
將所述待識別文本中的繁體字轉換為簡體字;
將所述待識別文本中的數字字符串轉換為預定格式;
對所述待識別文本進行子句拆分。
3.根據權利要求1或2所述的方法,其特征在于,還包括:訓練所述N-gram語言模型的步驟,包括:
獲取訓練樣本集合,所述訓練樣本集合包括至少一個訓練樣本;
對所述訓練樣本集合中的各個訓練樣本進行預處理;
對預處理后的每個訓練樣本,確定所述訓練樣本中的各個詞語組合;
統計所述各個訓練樣本中的各個詞語組合出現的次數;
所述各個詞語組合以及所述次數構成所述N-gram語言模型。
4.根據權利要求3所述的方法,其特征在于,所述訓練樣本包括:
中文的文本、英文的文本和/或其它目標語種的文本;所述文本包括新聞內容、博客內容、論壇內容和/或聊天內容。
5.根據權利要求3所述的方法,其特征在于,在所述確定所述訓練樣本中的各個詞語組合之后,還包括:
對所述各個詞語組合中的每個詞語組合,判斷所述詞語組合是否包含在預設的詞語集合中,若未包含在所述預設的詞語集合中,則刪除所述詞語組合;
所述統計所述各個訓練樣本中的各個詞語組合出現的次數,包括:
統計所述各個訓練樣本中的經過刪除處理后的各個詞語組合出現的次數。
6.根據權利要求3所述的方法,其特征在于,還包括:
從所述各個訓練樣本中的各個詞語組合中選取所述各個訓練樣本的至少一個樣本詞序列;
根據所述N-gram語言模型,確定所述各個訓練樣本的各個樣本詞序列的概率分數值;
根據所述各個訓練樣本的各個樣本詞序列的概率分數值以及所述各個訓練樣本中包含的樣本詞序列的個數,確定所述各個訓練樣本的平均概率分數值和概率分數標準差值;
分別按照所述各個訓練樣本的平均概率分數值和概率分數標準差值,對所述各個訓練樣本進行排序;
根據排序結果,確定對所述平均概率分數值進行歸一化處理的第一函數公式,并確定對所述概率分數標準差值進行歸一化處理的第二函數公式;
所述對所述平均概率分數值進行歸一化處理,包括:
根據所述第一函數公式,對所述平均概率分數值進行歸一化處理;
所述對所述概率分數標準差值進行歸一化處理,包括:
根據所述第二函數公式,對所述概率分數標準差值進行歸一化處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創新先進技術有限公司,未經創新先進技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710182218.7/1.html,轉載請聲明來源鉆瓜專利網。





