[發(fā)明專利]自動解析文本中隱私信息的方法和裝置在審
| 申請?zhí)枺?/td> | 202110601345.2 | 申請日: | 2021-05-31 |
| 公開(公告)號: | CN113283232A | 公開(公告)日: | 2021-08-20 |
| 發(fā)明(設計)人: | 鮑夢瑤;劉佳偉;章鵬;劉新源;張謙;賈茜 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/211;G06F40/289;G06F21/62;G06N3/04;G06K9/62;G06N3/08 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 孫欣欣;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自動 解析 文本 隱私 信息 方法 裝置 | ||
本說明書實施例提供一種自動解析文本中隱私信息的方法和裝置,方法包括:獲取待解析文本;對所述待解析文本進行分詞處理,得到包含若干個詞語的詞序列;對所述詞序列進行基于上下文的編碼,得到所述若干個詞語分別對應的詞向量;根據所述詞向量,確定其對應的詞語分別屬于多個隱私信息類別的各概率;將所述各概率中最大概率對應的隱私信息類別確定為相應詞語的歸屬類別;根據詞語的歸屬類別和該詞語在所述詞序列中的位置,確定所述待解析文本的解析結果。能夠提升文本的解析效果。
技術領域
本說明書一個或多個實施例涉及計算機領域,尤其涉及自動解析文本中隱私信息的方法和裝置。
背景技術
隱私數據(private data)或秘密數據,是指不想被他人或無關人等獲知的信息,從隱私的所有者的角度,可以將隱私數據分為個人隱私數據和共同隱私數據,其中個人隱私數據包括可以用來定位或者識別個人的信息(如電話號碼、地址、信用卡號等)和敏感信息(如個人健康情況、財務信息、公司重要文件等)。共同隱私數據主要以家庭隱私為主,如家庭年收入情況等。隱私數據的泄露和濫用極易引起各種個人和公共安全問題。為了防止隱私數據的泄露和濫用,常常會涉及自動解析文本中隱私信息。
現有技術中,利用提前標注的數據構建命名實體模型,而后利用命名實體模型從文本中抽取隱私信息。由于需要大量的標注數據,標注難度大,且模型計算復雜,對文本的解析效果不佳。
因此,希望能有改進的方案,能夠提升文本的解析效果。
發(fā)明內容
本說明書一個或多個實施例描述了一種自動解析文本中隱私信息的方法和裝置,能夠提升文本的解析效果。
第一方面,提供了一種自動解析文本中隱私信息的方法,方法包括:
獲取待解析文本;
對所述待解析文本進行分詞處理,得到包含若干個詞語的詞序列;
對所述詞序列進行基于上下文的編碼,得到所述若干個詞語分別對應的詞向量;
根據所述詞向量,確定其對應的詞語分別屬于多個隱私信息類別的各概率;
將所述各概率中最大概率對應的隱私信息類別確定為相應詞語的歸屬類別;
根據詞語的歸屬類別和該詞語在所述詞序列中的位置,確定所述待解析文本的解析結果。
在一種可能的實施方式中,所述對所述待解析文本進行分詞處理,包括:
將所述待解析文本拆分為多個語句;
將所述多個語句中的任一語句作為目標語句,將所述目標語句輸入遷移學習模型,通過所述遷移學習模型對所述目標語句進行分詞處理,得到包含若干個詞語的詞序列。
在一種可能的實施方式中,所述對所述詞序列進行基于上下文的編碼,包括:
將所述詞序列輸入深度學習模型的編碼層,通過所述編碼層對所述詞序列進行基于上下文的編碼,得到所述若干個詞語分別對應的詞向量。
進一步地,所述根據所述詞向量,確定其對應的詞語分別屬于多個隱私信息類別的各概率,包括:
將所述詞向量輸入所述深度學習模型的分類層,通過所述分類層輸出其對應的詞語分別屬于多個隱私信息類別的各概率。
在一種可能的實施方式中,所述根據詞語的歸屬類別和該詞語在所述詞序列中的位置,確定所述待解析文本的解析結果,包括:
根據詞語的歸屬類別和該詞語在所述詞序列中的位置,檢查所述待解析文本中相鄰位置的多個詞語是否為同一歸屬類別;
合并同一歸屬類別的相鄰位置的多個詞語,作為一個結果單元,將結果單元對應的歸屬類別和其在所述詞序列中的位置確定為所述待解析文本的解析結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110601345.2/2.html,轉載請聲明來源鉆瓜專利網。





