[發(fā)明專利]自動(dòng)檢測(cè)自由文本中的個(gè)人信息在審
| 申請(qǐng)?zhí)枺?/td> | 202011013395.0 | 申請(qǐng)日: | 2020-09-24 |
| 公開(公告)號(hào): | CN112560483A | 公開(公告)日: | 2021-03-26 |
| 發(fā)明(設(shè)計(jì))人: | A·芬克爾施泰因;B·哈伊姆;E·梅納赫姆 | 申請(qǐng)(專利權(quán))人: | 國(guó)際商業(yè)機(jī)器公司 |
| 主分類號(hào): | G06F40/295 | 分類號(hào): | G06F40/295;G06F40/232;G06F40/166 |
| 代理公司: | 北京市中咨律師事務(wù)所 11247 | 代理人: | 于靜;楊曉光 |
| 地址: | 美國(guó)*** | 國(guó)省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 自動(dòng)檢測(cè) 自由 文本 中的 個(gè)人信息 | ||
1.一種方法,包括操作至少一個(gè)硬件處理器以:
自動(dòng)將命名實(shí)體識(shí)別(NER)算法應(yīng)用于數(shù)字文本文檔,以檢測(cè)出現(xiàn)在所述數(shù)字文本文檔中的命名實(shí)體,其中所述命名實(shí)體選自自由以下各項(xiàng)組成的組:至少一個(gè)個(gè)人類型實(shí)體,以及至少一個(gè)非個(gè)人類型實(shí)體;
通過對(duì)包含檢測(cè)到的命名實(shí)體的所述數(shù)字文本文檔的句子應(yīng)用詞性(POS)標(biāo)記算法和依賴項(xiàng)解析算法,自動(dòng)檢測(cè)所述命名實(shí)體之間的至少一種關(guān)系;
自動(dòng)估計(jì)所述命名實(shí)體之間的至少一種關(guān)系是否表示個(gè)人信息;以及
自動(dòng)發(fā)出估計(jì)結(jié)果的通知。
2.根據(jù)權(quán)利要求1所述的方法,還包括:操作至少一個(gè)硬件處理器,以在所述數(shù)字文本文檔中用所述至少一個(gè)個(gè)人類型實(shí)體的名字的名詞替換與所述至少一個(gè)個(gè)人類型實(shí)體有關(guān)的代詞。
3.根據(jù)權(quán)利要求1所述的方法,還包括操作至少一個(gè)硬件處理器以:
在自動(dòng)應(yīng)用NER算法之前,通過以下至少一項(xiàng)自動(dòng)預(yù)處理所述數(shù)字文本文檔:
(a)檢測(cè)所述數(shù)字文本文檔的主要語言,從而選擇NER算法以匹配所述主要語言;
(b)從數(shù)字文本文檔中移除以下至少一項(xiàng):空白和技術(shù)字符;以及
(c)更正所述數(shù)字文本文檔中的拼寫錯(cuò)誤。
4.根據(jù)權(quán)利要求1所述的方法,其中所述至少一個(gè)非個(gè)人類型實(shí)體選自由以下各項(xiàng)組成的組:組織、對(duì)象、位置、國(guó)籍、時(shí)間、日期、地址、藝術(shù)品、事件、婚姻狀況、職業(yè)、金錢、語言和數(shù)量。
5.根據(jù)權(quán)利要求1所述的方法,還包括操作至少一個(gè)硬件處理器以:將不同的命名實(shí)體識(shí)別(NER)算法自動(dòng)應(yīng)用于所述數(shù)字文本文檔;以及應(yīng)用一個(gè)或多個(gè)預(yù)定義規(guī)則來解決由所述NER算法和不同的NER算法檢測(cè)到的命名實(shí)體之間的一個(gè)或多個(gè)沖突。
6.如權(quán)利要求1所述的方法,還包括操作至少一個(gè)硬件處理器以過濾所述命名實(shí)體并合并至少一些所述命名實(shí)體。
7.根據(jù)權(quán)利要求1所述的方法,其中所述自動(dòng)檢測(cè)所述命名實(shí)體之間的至少一個(gè)關(guān)系還包括:
利用所應(yīng)用的依賴性解析算法的結(jié)果來確定將每個(gè)句子中的每?jī)蓚€(gè)命名實(shí)體連接起來的依賴性路徑;
選擇位于依賴性路徑內(nèi)的文本表達(dá);以及
將每個(gè)所述文本表達(dá)與從預(yù)定義的一組關(guān)系類型中選擇的關(guān)系類型相關(guān)聯(lián)。
8.根據(jù)權(quán)利要求7所述的方法,其中所述自動(dòng)估計(jì)包括基于以下內(nèi)容來計(jì)算所述數(shù)字文本文檔的隱私分?jǐn)?shù)或所述至少一個(gè)個(gè)人類型實(shí)體中的每一個(gè)的隱私分?jǐn)?shù):
與所述關(guān)系類型相關(guān)聯(lián)的第一組預(yù)定義分?jǐn)?shù),其中第一組的每個(gè)分?jǐn)?shù)指示相應(yīng)的關(guān)系類型是個(gè)人信息的一部分的可能性;以及
與所述命名實(shí)體相關(guān)聯(lián)的第二組預(yù)定義分?jǐn)?shù),其中第二組的每個(gè)分?jǐn)?shù)指示相應(yīng)的命名實(shí)體是個(gè)人信息的一部分的可能性。
9.根據(jù)權(quán)利要求7所述的方法,還包括操作至少一個(gè)硬件處理器以:
自動(dòng)檢測(cè)所述至少一個(gè)個(gè)人類型實(shí)體包括至少一部分人名;
自動(dòng)將NER算法應(yīng)用于訓(xùn)練集,該訓(xùn)練集包含多個(gè)包含全名的其他數(shù)字文本文檔,以檢測(cè)多個(gè)個(gè)人類型實(shí)體和多個(gè)非個(gè)人類型實(shí)體;
通過將詞性(POS)標(biāo)記算法和依賴項(xiàng)解析算法應(yīng)用于多個(gè)其他數(shù)字文本文檔的句子,每個(gè)句子都包含多個(gè)個(gè)人類型實(shí)體和多個(gè)非個(gè)人類型實(shí)體中的至少兩個(gè)命名實(shí)體,以自動(dòng)檢測(cè)所述多個(gè)個(gè)人類型實(shí)體與所述多個(gè)非個(gè)人類型實(shí)體之間的關(guān)系,
自動(dòng)生成訓(xùn)練知識(shí)圖,所述訓(xùn)練知識(shí)圖的節(jié)點(diǎn)包括相互關(guān)聯(lián)的所述多個(gè)個(gè)人類型實(shí)體和所述多個(gè)非個(gè)人類型實(shí)體的節(jié)點(diǎn),并且其邊包括關(guān)系中的各個(gè)關(guān)系;
自動(dòng)生成特定知識(shí)圖,所述知識(shí)圖的節(jié)點(diǎn)包括相互關(guān)聯(lián)的至少一個(gè)個(gè)人類型實(shí)體和至少一個(gè)非個(gè)人類型實(shí)體的節(jié)點(diǎn),并且其邊包括至少一個(gè)關(guān)系中的各個(gè)關(guān)系;以及
通過交叉引用特定知識(shí)圖和訓(xùn)練知識(shí)圖,自動(dòng)確定至少一個(gè)個(gè)人類型實(shí)體的至少一個(gè)全名。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國(guó)際商業(yè)機(jī)器公司,未經(jīng)國(guó)際商業(yè)機(jī)器公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011013395.0/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 保護(hù)控制裝置
- PCB板柔性全自動(dòng)檢測(cè)生產(chǎn)線PCB板自動(dòng)檢測(cè)機(jī)模塊
- 內(nèi)孔直徑全自動(dòng)檢測(cè)裝置
- 內(nèi)孔直徑全自動(dòng)檢測(cè)裝置
- 軸承套圈在線自動(dòng)檢測(cè)線
- 一種用于BIM模型的質(zhì)量自動(dòng)檢測(cè)系統(tǒng)
- 軸承套圈在線自動(dòng)檢測(cè)線
- 一種無線傳輸控制單元的檢測(cè)方法
- 自動(dòng)上料裝置及全自動(dòng)檢測(cè)設(shè)備
- 彎管管體表面缺陷的自動(dòng)檢測(cè)系統(tǒng)及其自動(dòng)檢測(cè)方法
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





