[發(fā)明專利]一種網(wǎng)絡(luò)自殺遺書的識別方法有效
| 申請?zhí)枺?/td> | 201110386606.X | 申請日: | 2011-11-29 |
| 公開(公告)號: | CN102521220A | 公開(公告)日: | 2012-06-27 |
| 發(fā)明(設(shè)計)人: | 王泰;徐薇;李隆;劉三女牙 | 申請(專利權(quán))人: | 華中師范大學(xué) |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 武漢天力專利事務(wù)所 42208 | 代理人: | 吳曉穎;馮衛(wèi)平 |
| 地址: | 430079 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 網(wǎng)絡(luò) 自殺 遺書 識別 方法 | ||
1.一種網(wǎng)絡(luò)自殺遺書的識別方法,其特征在于:該方法由特征提取與特征識別兩個階段組成,
所述特征提取階段,用于獲得特征識別階段所需的“核心詞——特征句庫”對照表;在該階段,首先從收集到的足夠數(shù)量的自殺遺書樣本中選出最能體現(xiàn)作者自殺意念的分句稱為特征句,然后在這些特征句中,選出最能表達作者自殺意念的核心詞,每個特征句限選一個核心詞;核心詞相同的特征句歸入到該核心詞的特征句庫;核心詞A的同義詞B也視為核心詞,且該同義詞B所在的特征句也歸入到核心詞A的特征句庫去;最后,采用啟發(fā)式的算法選擇盡可能少的核心詞以覆蓋盡可能多的自殺遺書樣本,從而建立了“核心詞——特征句庫”對照表;
所述特征識別階段,用于根據(jù)“核心詞——特征句庫”對照表,對待檢文本是否為自殺遺書進行判斷;具體過程是如果該文本沒有出現(xiàn)核心詞,則判別為非自殺遺書;否則,將所有出現(xiàn)了核心詞的分句與“核心詞——特征句庫”對照表中與該核心詞相對應(yīng)的特征句進行比較,把在比較過程中獲得的語句相似度的最大值作為該待檢句的自殺傾向值,所有待檢句自殺傾向值的平均值就是該待檢文本的自殺傾向值,最后,將其自殺傾向值與設(shè)定閾值進行比較,判斷其是否為自殺遺書。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)自殺遺書的識別方法,其特征在于:在特征識別階段中計算兩個語句的相似度時,分別計算字的匹配度和字串的匹配度,然后進行線性組合,獲得兩個語句的相似度。
3.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)自殺遺書的識別方法,其特征在于所述特征提取階段的具體步驟如下:
第一步,從收集到的足夠數(shù)量的自殺遺書樣本中選出最能體現(xiàn)作者自殺意念的句子,即如果刪去該句,則該遺書只能被認為是懺悔或者抱怨這樣的情緒宣泄,這些被選出的句子被稱為特征句,如果是某個句子中的分句,則只取該分句;
第二步,在這些特征句中,選出最能表達作者自殺意念的核心詞,每個特征句限選一個核心詞,然后將核心詞相同的特征句歸入該核心詞的特征句庫,核心詞A的同義詞B也視為核心詞,且該同義詞B所在的特征句也歸入到核心詞A的特征句庫去;
第三步,選擇盡可能少的核心詞以覆蓋盡可能多的自殺遺書樣本,第一輪先把覆蓋最多樣本的核心詞挑出來即包含該詞的樣本數(shù)目最多;以后每輪都把能覆蓋最多剩余樣本的核心詞挑出來,如果這樣的核心詞超過1個,則選擇出現(xiàn)頻率最高的那一個;重復(fù)上述過程,直到累計覆蓋樣本數(shù)目超過樣本總量的95%為止;經(jīng)過以上過程,獲得了“核心詞——特征句庫”對照表。
4.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)自殺遺書的識別方法,其特征在于特征識別階段的具體步驟如下:
第一步,掃描待檢文本,如果沒有出現(xiàn)核心詞,則判別為非自殺遺書,如果出現(xiàn)核心詞,則進行第二步;
第二步,設(shè)待檢文本T中出現(xiàn)了N次核心詞,且第j次出現(xiàn)的核心詞記作Wj,j=1,2,3,...,N,N為自然數(shù);
將T中Wj所在的分句Sj摘錄出來,計算待檢句Sj與Wj的每一個特征句C(Wj,i)的語句相似度A(Sj,C(Wj,i)),其中i=1,2,...,L(Wj),L(Wj)是“核心詞——特征句庫”對照表中Wj所對應(yīng)的特征句的個數(shù);
待檢句Sj的自殺傾向值
待檢樣本T的自殺傾向值
然后比較M(T)與設(shè)定閾值的大小關(guān)系,作出是否為自殺遺書的判斷,若M(T)大于等于該閾值則判斷待檢文本為自殺遺書,若M(T)小于該閾值則判斷待檢文本為非自殺遺書;
在計算兩個語句S1和S2相似度A(S1,S2)的時候,分別計算“字的匹配度”和“字串的匹配度”,然后采用線性加權(quán),得到語句相似度;“字的匹配度”、“字串的匹配度”、語句相似度的具體計算方法如下
字的匹配度
字串的匹配度,字串即是一串連續(xù)的字,中間沒有分隔符
語句相似度
語句相似度=β×字的匹配度+α×字串的匹配度
上述β=0.5,α=0.7,閾值取0.425。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華中師范大學(xué),未經(jīng)華中師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110386606.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 一種自殺基因納米膠束及其制備方法和應(yīng)用
- 一種使用自殺性載體去除大腸桿菌Nissle菌內(nèi)隱秘質(zhì)粒的方法
- 使用組合的基因組和臨床風(fēng)險評估預(yù)測自殺傾向
- 基于微博和模糊認知圖的自殺風(fēng)險檢測方法及系統(tǒng)
- 一種基于微博文本的自殺風(fēng)險識別方法
- 基于圖像識別的防自殺預(yù)警方法、裝置、設(shè)備及存儲介質(zhì)
- 一種微博用戶自殺風(fēng)險檢測方法及裝置
- 心理危機干預(yù)管理方法及系統(tǒng)
- 自殺基因/前藥系統(tǒng)療效的評價方法和藥物篩選方法
- 一種社交網(wǎng)絡(luò)自殺意念檢測方法及系統(tǒng)





