[發明專利]一種基于微博文本的自殺風險識別方法有效
| 申請號: | 201910104464.X | 申請日: | 2019-02-01 |
| 公開(公告)號: | CN109918649B | 公開(公告)日: | 2023-08-11 |
| 發明(設計)人: | 孫軍梅;章宣 | 申請(專利權)人: | 杭州師范大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/279;G06F16/951;G06F16/9535;G06N3/0464 |
| 代理公司: | 杭州杭誠專利事務所有限公司 33109 | 代理人: | 尉偉敏 |
| 地址: | 310015 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 自殺 風險 識別 方法 | ||
本發明公開了一種基于微博文本的自殺風險識別方法,包括以下幾個步驟:步驟S1:建立自殺微博語料庫;步驟S2:建立自殺微博語料識別模型;步驟S3:實驗設計尋找最優模型;步驟S4:判定結果輸出;本發明的有益效果:采用該方法可以迅速并且主動識別出具有自殺風險的用戶,能夠在個體的自殺意念形成的早期階段,及時發現并加以有效干預,這極大地提升了自殺風險評估工作的覆蓋面和速度;彌補了以往研究中普遍存在的自殺文本數據的缺乏問題;解決了當前神經網絡單一結構在預測精度提升上的瓶頸問題,應用到自殺干預的早期預防中,具有良好的社會效益和經濟效益。
技術領域
本發明涉及網絡技術領域,具體涉及一種基于微博文本的自殺風險識別方法。
背景技術
目前對于臨床和社區范圍內的個體自殺風險評估主要采用心理量表的方法進行評估。我國現階段比較常用的自殺風險評估量表主要來源于國外原版量表的翻譯和本土化修訂。李獻云等修訂了貝克自殺意念量表的簡體中文版并測試了其在我國社區內成年人群中的信效度,發現量表對于評估個體最消沉、最憂郁和自殺傾向嚴重時期的效果最好。此外,梁瑛楠等翻譯并修訂了簡體中文版的自殺可能性量表,并驗證其在我國大學生群體中具有很好的信效度。
自殺風險評估工具主要包括成人自殺意念問卷、自殺概率量表(SPS)和抑郁焦慮應激量表-21(DASS-21),基于心理量表的自殺風險評估方法雖然針對個體比較深入,但是由于實施過程中的時效問題,與實際的干預工作之間往往存在時間差,在大批量運用于社區的時候,耗費大量的人力成本和時間成本,更難以對大量的個體進行長時間的追蹤。在中國有很多具有自殺風險的個體并不主動尋求幫助,從而現有依賴自我報告的評估和篩查方法無法找到一些隱藏的具有自殺風險者。
發明內容
本發明的目是解決當前自殺風險評估工作的時效低、成本高及被動性問題,提出一種基于微博文本的自殺風險識別方法,采用該技術方案有助于提升了自殺風險評估工作的覆蓋面和速度,并且提高了微博自殺風險的識別精度。
為實現上述技術目的,本發明提供的一種技術方案是,一種基于微博文本的自殺風險識別方法,包括以下幾個步驟:
步驟S1:建立自殺微博語料庫;
步驟S2:建立自殺微博語料識別模型;
步驟S3:實驗設計尋找最優模型;
步驟S4:判定結果輸出。
所述步驟S1中,自殺微博語料庫的建立遵循以下兩個步驟:
步驟S11:語料采集;所述語料采集是基于Python語言使用Cookie信息,模擬瀏覽器訪問的新浪微博自殺文本信息自動爬取方案,獲取網站數據;所述自動爬取步驟包括使用requesst來模擬登陸、URL構造、網頁下載、網頁解析以及網頁內容導出;
步驟S12:語料預處理;所述語料預處理的步驟包括對語料采集的網頁內容的無效數據進行過濾、繁體字的轉換、文本分詞、停用詞去除以及文本數字化。
本方案中,針對當前微博自殺語料庫缺失問題,提出了一種基于Python語言,使用Cookie信息,模擬瀏覽器訪問的新浪微博自殺文本信息自動爬取方案,使用該方案搭建的微博語料采集系統能夠穩定的爬取新浪微博文本數據。其主要特點如下:
(1)可自主讀取收集好的采集對象的微博ID和所需爬取頁數,符合本研究的需求;
(2)使用單線程低頻率的爬取方式可有效避免反爬蟲機制的檢測;
(3)采用爬取微博移動端網頁的策略,由于該網頁結構簡單,所以可最大限度提升爬取效率;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州師范大學,未經杭州師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910104464.X/2.html,轉載請聲明來源鉆瓜專利網。





