[發明專利]無語義文本的識別方法及裝置有效
| 申請號: | 201710182218.7 | 申請日: | 2017-03-24 |
| 公開(公告)號: | CN108628822B | 公開(公告)日: | 2021-12-07 |
| 發明(設計)人: | 江南;祝慧佳 | 申請(專利權)人: | 創新先進技術有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 陳霽 |
| 地址: | 開曼群島大開曼島*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義 文本 識別 方法 裝置 | ||
本申請涉及計算機技術領域,尤其涉及一種無語義文本的識別方法及裝置,在一種無語義文本的識別方法中,獲取待識別文本,并對待識別文本進行預處理。確定預處理后的待識別文本的各個詞序列,根據N?gram語言模型,確定各個詞序列的概率分數值。根據各個詞序列的概率分數值以及詞序列的個數,確定待識別文本的平均概率分數值和/或概率分數標準差值。根據平均概率分數值和/或概率分數標準差值,確定待識別文本的綜合分數值。當綜合分數值滿足預設條件時,將待識別文本識別為無語義文本。由此,可以提高對無語義文本識別的準確性和全面性。
技術領域
本申請涉及計算機技術領域,尤其涉及一種無語義文本的識別方法及裝置。
背景技術
傳統技術中,主要通過如下兩種方法來識別無語義文本:
第一種方法是,通過監督式機器學習的方法,即人工預先搜集一些無語義文本的語義特征,如,變種詞、特殊符號等,并針對語料庫內的樣本進行標記是否為無語義文本,然后利用語料庫以及語義特征,訓練識別模型,最后由識別模型來識別輸入文本是否為無語義文本。然而,在該方法中,若輸入文本中包含了未被搜集到的語義特征,或者,若輸入文本包含了變形后的語義特征,則不能將該輸入文本識別為無語義文本,這影響了無語義文本識別的準確性。此外,該方法通常需要耗費大量人力來對語料庫內的樣本進行標注,這影響了無語義文本識別的效率。
第二種方法是,計算相似度的方法,即對用戶舉報或通過其它渠道得到的內容文本進行存檔,從而生成樣本庫,之后通過計算輸入文本與樣本庫內內容文本的相似度,來識別輸入文本是否為無語義文本。然而,該方法通常只能識別已經出現的內容文本,無法識別新型的內容文本,在信息日益膨脹的今天,通過人工的方式不可能枚舉出所有的內容文本,從而該方法不能對所有的輸入文本進行識別,也即第二種方法對無語義文本的識別不全面。
發明內容
本申請描述了一種無語義文本的識別方法及裝置,可以提高對無語義文本識別的準確性和全面性。
第一方面,提供了一種無語義文本的識別方法,包括:
獲取待識別文本;
對所述待識別文本進行預處理;
確定預處理后的待識別文本的各個詞序列;
根據N-gram語言模型,確定所述各個詞序列的概率分數值;
根據所述各個詞序列的概率分數值以及所述詞序列的個數,確定所述待識別文本的平均概率分數值和/或概率分數標準差值;
根據所述平均概率分數值和/或所述概率分數標準差值,確定所述待識別文本的綜合分數值;
當所述綜合分數值滿足預設條件時,將所述待識別文本識別為無語義文本。
第二方面,提供了一種無語義文本的識別裝置,包括:
獲取單元,用于獲取待識別文本;
預處理單元,用于對所述獲取單元獲取的所述待識別文本進行預處理;
確定單元,用于確定所述預處理單元預處理后的待識別文本的各個詞序列;
所述確定單元,還用于根據N-gram語言模型,確定所述各個詞序列的概率分數值;
所述確定單元,還用于根據所述各個詞序列的概率分數值以及所述詞序列的個數,確定所述待識別文本的平均概率分數值和/或概率分數標準差值;
所述確定單元,還用于根據所述平均概率分數值和/或所述概率分數標準差值,確定所述待識別文本的綜合分數值;
識別單元,用于當所述確定單元確定的所述綜合分數值滿足預設條件時,將所述待識別文本識別為無語義文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創新先進技術有限公司,未經創新先進技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710182218.7/2.html,轉載請聲明來源鉆瓜專利網。





