[發明專利]一種網絡自殺遺書的識別方法有效
| 申請號: | 201110386606.X | 申請日: | 2011-11-29 |
| 公開(公告)號: | CN102521220A | 公開(公告)日: | 2012-06-27 |
| 發明(設計)人: | 王泰;徐薇;李隆;劉三女牙 | 申請(專利權)人: | 華中師范大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 武漢天力專利事務所 42208 | 代理人: | 吳曉穎;馮衛平 |
| 地址: | 430079 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網絡 自殺 遺書 識別 方法 | ||
技術領域
本發明屬于中文文本信息處理與應用心理學技術領域,具體涉及一種網絡自殺遺書的識別方法。
背景技術
自殺已經成為我國15-34歲人群死亡的首因,有研究統計,自殺案例中有28.1%的人留有遺言、遺書。近年來,有網民在自殺前將其臨終遺言張貼在互聯網上。因為熱心網民與警方的及時干預,最終都避免了悲劇的發生。
由此可見,開發一種自動識別網絡自殺遺書的方法,對于及時挽救具有自殺意念的生命無疑具有重要的現實意義。
盡管對自殺遺書的研究已經非常充分,但是這些研究主要集中在通過遺書來回溯導致自殺的因素等方面。目前,國際上有關自殺遺書的自動分類的研究還處于起步階段。首次提出自動識別張貼在互聯網上的自殺遺書的方法則是在2007年才出現,Yen-Pei?Huang,Tiong?Goh,Chern?Li?Liew,Hunting?Suicide?Notes?in?Web?2.0-Prel?iminary?Findings,in?Proc.of?IEEE?9th?Int’1.Symp.On?Multimedia?2007,517-521。該方法依照關鍵詞或詞組的出現頻率給一個待定文本評分,分數越高則疑似自殺的程度也越高。這種方法盡管非常簡單,但是準確率比較低。2008、2009年連續兩年在生物自然語言處理學術研討會上,美國辛辛那提大學兒童醫療中心和波蘭尼古拉斯哥白尼大學的學者相繼提出用有監督的機器學習方法(序列最小優化法)和無監督的機器學習方法(順序信息瓶頸法)來識別自殺遺書,顯著提高了準確率。
目前,國內還沒有公開文獻報道有關中文自殺遺書的自動分類成果。中文自殺遺書的自動分類不能簡單地移植適用于拉丁語系的自殺遺書自動分類方法。這是因為:第一,與英文中詞與詞之間按照空格自然分隔不同的是,在漢語的一個分句中,字與字緊密排列,要把關鍵詞自動地提取出來,且不引發歧義,縱有較為成熟的中文自動分詞組件,仍存在一定的困難;第二,中文的表達方法比較含蓄,在遺書中,往往不像英文那樣直白地出現“自殺”,“killed?myself”等字眼,而常使用“死亡”,“離開這個世界”等詞語或者短語;第三,如果僅僅采用高頻詞如“死亡”、“世界”等作為識別依據,那么“中國隊男足在南非世界杯預選賽上被分入死亡之組”這條體育新聞也有可能被誤判為自殺遺書。
現有技術的不足之處是沒有在機器自動識別的過程中更深入地借鑒人類的閱讀規律。一般來說,人類在閱讀一篇文本時,先后經歷了自底向上和由頂而下兩個認識過程,即先理解詞而后連詞成句(自底向上),句義比詞義要完整、具體一些;在閱讀完全篇以后,根據上下文和自身體驗,形成對句子重要性的認識,特別是對重要句子中某個詞的深刻記憶(由頂而下)。
發明內容
針對現有技術的上述不足,并考慮到自殺遺書是一類描述了某個固定而具體的意念的文本,本發明提出了一種核心詞綁定特征句的網絡自殺遺書識別方法,該方法簡便易行,規避了分詞缺陷的負面影響,對新增樣本的兼容性強,識別準確率較高,漏檢率較低。
具體來說,本發明一種網絡自殺遺書的識別方法分為特征提取與特征識別兩個階段。
所述特征提取階段共分三步,如圖1所示。
第一步,從收集到的足夠數量的自殺遺書樣本中選出最能體現作者自殺意念的句子,即如果刪去該句,則該遺書只能被認為是懺悔或者抱怨這樣的情緒宣泄,這些被選出的句子被稱為特征句,如果是某個句子中的分句,則只取該分句。
第二步,在這些特征句中,選出最能表達作者自殺意念的核心詞,每個特征句限選一個核心詞,然后將核心詞相同的特征句歸入該核心詞的特征句庫,核心詞A的同義詞B也視為核心詞,且該同義詞B所在的特征句也歸入到核心詞A的特征句庫去。
第三步,選擇盡可能少的核心詞以覆蓋盡可能多的自殺遺書樣本,第一輪先把覆蓋最多樣本的核心詞挑出來即包含該詞的樣本數目最多;以后每輪都把能覆蓋最多剩余樣本的核心詞挑出來,如果這樣的核心詞超過1個,則選擇出現頻率最高的那一個;重復上述過程,直到累計覆蓋樣本數目超過樣本總量的95%為止;經過以上過程,獲得了“核心詞——特征句庫”對照表。
特征識別階段共分兩步,如圖2所示。
第一步,掃描待檢文本,如果沒有出現核心詞,則判別為非自殺遺書。如果出現核心詞,則進行第二步。
第二步,設待檢文本T中出現了N次核心詞,且第j次出現的核心詞記作Wj,j=1,2,3,...,N,N為自然數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中師范大學,未經華中師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110386606.X/2.html,轉載請聲明來源鉆瓜專利網。





