[發(fā)明專利]一種基于事件搜索的敏感信息監(jiān)控方法有效
| 申請?zhí)枺?/td> | 201210170863.4 | 申請日: | 2012-05-29 |
| 公開(公告)號: | CN102693314A | 公開(公告)日: | 2012-09-26 |
| 發(fā)明(設(shè)計)人: | 代松;姬東鴻 | 申請(專利權(quán))人: | 代松 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢天力專利事務(wù)所 42208 | 代理人: | 吳曉穎;馮衛(wèi)平 |
| 地址: | 430000 湖北省武漢市*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 事件 搜索 敏感 信息 監(jiān)控 方法 | ||
1.一種基于事件搜索的敏感信息監(jiān)控方法,該方法使用的硬件部分包括事件識別部件、事件抽取部件,其特征在于該方法包括以下步驟:
(1)事件識別部件利用PropBank的語義角色分類體系對被監(jiān)控的文本信息進行語義角色標注,用以描述事件及其特征;
(2)識別事件后,事件抽取部件采用對數(shù)線性模型進行事件抽取,包括構(gòu)成事件的基本概念;用以對被監(jiān)控的文本信息的句子進行句法分析,以獲得該句子中的事件;
(3)在被監(jiān)控的文本信息中自動搜索指定事件及事件相關(guān)概念,其方法為利用從用戶指定自然語言查詢中抽取到的敏感事件,與在被監(jiān)控的文本信息中抽取到的事件進行匹配,若謂詞、論元及語義角色類別均相同,則為同一事件,即判定被監(jiān)控的文本信息為敏感信息;
(4)當(dāng)一個文本片斷被判定為敏感信息后,會自動產(chǎn)生預(yù)警信息,該信息將通過郵件、短信手段通知相關(guān)用戶,以便及時采取應(yīng)對措施。
2.根據(jù)權(quán)利要求1所述的基于事件搜索的敏感信息監(jiān)控方法,其特征在于:步驟(1)中所述語義角色標注采用最大熵模型作為分類器,標注過程分為兩個階段,
第一階段識別謂詞,即識別出被監(jiān)控的文本信息句中的哪些詞為謂詞;假設(shè)C={01,02,…,NL}為義項集合,其中NL為類別個數(shù),ti為詞w在句子s中的第i個義項,最大熵模型利用以下公式求解使條件概率P(w|s,ti)最大的t值
?????????????????????????????????????????????????????????
為識別謂詞,采用以下特征:詞自身、依存類別、父親、父親詞性、孩子集合、孩子詞性集合、孩子依存類別集合、左鄰居、右鄰居、左鄰居依存類別、右鄰居依存類別;
第二階段對謂詞的語義類別進行分類,分類過程仍然采用最大熵作為分類器,特征與謂詞識別時相同;這里,謂詞的語義類別參考PropBank中的標準;語義角色標注過程與謂詞識別過程相同,并將論元識別和論元分類合并為一個過程,除了謂詞識別中用到的特征,語義角色標注還利用了以下特征:位置即在謂詞左或右,或自身、在PropBank里定義的謂詞義類、最左和最右的詞、最左和最右的孩子、詞性路徑即從該詞到某一謂詞的全部詞性,按訪問路徑排列、依存類別路徑即從該詞到某一謂詞的全部依存類別,按訪問路徑排列、共同祖先路徑即該詞到與某一謂詞的共同祖先經(jīng)過的路徑,包括詞性路徑和依存類別路徑。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于代松,未經(jīng)代松許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210170863.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





