[發明專利]一種文本打分方法及裝置有效
| 申請號: | 201910517312.2 | 申請日: | 2019-06-14 |
| 公開(公告)號: | CN110298038B | 公開(公告)日: | 2022-12-06 |
| 發明(設計)人: | 劉思陽 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/253;G06N3/04 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 李欣;丁蕓 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 打分 方法 裝置 | ||
本申請實施例提供了一種文本打分方法及裝置。方法包括:對待打分文本進行分詞處理,得到待打分文本的分詞;確定分詞的詞義向量和詞性向量,得到由詞義向量和詞性向量組成的詞向量;將詞向量輸入至于預先經過訓練的序列編碼器,得到序列編碼器的輸出,作為待打分文本的序列編碼向量;將詞向量輸入至預先經過訓練的樹型編碼器,得到樹型編碼器的輸出,作為待打分文本的樹型編碼向量;融合待打分文本的序列編碼向量和樹型編碼向量,得到待打分文本的融合編碼向量;基于融合編碼向量,確定待打分文本為指定類型的文本的可信程度,作為待打分文本的得分。可以提高得分的準確率。
技術領域
本申請涉及深度學習技術領域,特別是涉及一種文本打分方法及裝置。
背景技術
隨著互聯網發展,人們的生活、工作等均與互聯網密切相關,因此,人們會在互聯網上產生大量數據,比如文本、語音、圖像、視頻等,而為了維護網絡環境,達到凈化網絡的目的,對互聯網上的數據進行合規審核變得十分重要。
目前,針對文本數據的審查主要是利用傳統算法和機器學習算法,機器學習算法基于深度學習網絡,隨著深度學習的廣泛應用,在文本審查中機器學習算法成為一種重要的方式。具體地,在對文本審查過程中,將待審查的文本進行分詞處理,轉換為詞向量表示,然后根據轉換后的詞向量進行打分,根據打分來判斷是否涉及敏感內容,是否符合審查規定。
然而,發明人在實現本發明的過程中發現,現有技術至少存在如下問題:目前對文本僅進行了詞向量的替換,打分也僅基于詞向量。但是,對于一句話來說,除了由單個的詞組成以外,還包括了其他的很多信息。即使相同的詞組成的一句話,但是其他的信息不同也會導致這句話所表達的意思不同,這樣也會影響最后的打分結果。因此,如何根據更全面的文本信息進行打分進而得到更精確的打分結果是亟待解決的問題。
發明內容
本申請實施例的目的在于提供一種文本打分方法及裝置,以實現根據更全面的文本信息進行打分,提高打分的精確度。具體技術方案如下:
在本發明實施例的第一方面,提供了一種文本打分方法,所述方法包括:
對待打分文本進行分詞處理,得到待打分文本的分詞;
確定所述分詞的詞義向量和詞性向量,得到由所述詞義向量和所述詞性向量組成的詞向量,所述詞義向量用于表示所述分詞的詞義,所述詞性向量用于表示所述分詞的詞性;
將所述詞向量輸入至于預先經過訓練的序列編碼器,得到所述序列編碼器的輸出,作為所述待打分文本的序列編碼向量,所述序列編碼向量用于表示文本中分詞之間的上下文關系;
將所述詞向量輸入至預先經過訓練的樹型編碼器,得到所述樹型編碼器的輸出,作為所述待打分文本的樹型編碼向量,所述樹型編碼向量用于表示文本的語法結構;
融合所述待打分文本的所述序列編碼向量和所述樹型編碼向量,得到所述待打分文本的融合編碼向量;
基于所述融合編碼向量,確定所述待打分文本為指定類型的文本的可信程度,作為所述待打分文本的得分。
在一種可能的實施例中,所述融合所述待打分文本的所述序列編碼向量和所述樹型編碼向量,得到所述待打分文本的融合編碼向量,包括:
融合所述待打分文本的所述序列編碼向量和所述樹型編碼向量以及預設任務向量,得到所述待打分文本的融合編碼向量,所述任務向量為用于表示多種預設文本類型中的一種文本類型的獨熱(one-hot)編碼;
所述基于所述融合編碼向量,確定所述待打分文本為指定類型的文本的可信程度,作為所述待打分文本的得分,包括:
基于所述融合編碼向量,確定所述待打分文本為所述任務向量所表示的文本類型的文本的可信程度,作為所述待打分文本的得分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910517312.2/2.html,轉載請聲明來源鉆瓜專利網。





