[發明專利]一種環境類投訴舉報事件相似度分析方法在審
| 申請號: | 202110282614.3 | 申請日: | 2021-03-16 |
| 公開(公告)號: | CN113064962A | 公開(公告)日: | 2021-07-02 |
| 發明(設計)人: | 范青武;陳光;楊凱;張汪洋 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/289;G06K9/62;G06N3/02 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 張慧 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 環境 投訴 舉報 事件 相似 分析 方法 | ||
1.一種環境類投訴舉報事件相似度分析方法,其特征在于:
包括以下步驟:
步驟1事件要素相似度計算
步驟1.1獲取一定數量的環境類投訴舉報數據,數據當中應當包含組成投訴舉報事件的幾項基本要素,即舉報事件的發生時間、舉報事件發生所在地的地點名稱、舉報事件所處的處理階段、舉報對象的名稱以及舉報人對舉報事件的描述文本,數據當中還應當包含每兩條投訴舉報事件之間的相似度數值,并且確保這些數值是準確無誤的;
步驟1.2計算每兩條投訴舉報事件之間的發生時間相似度,具體的計算方法如下:
上式中,SimTime(A,B)指的是兩條投訴舉報事件的發生時間相似度,A、B均為舉報事件編號,TimeA、TimeB分別指事件A、B所對應的發生時間;
步驟1.3計算每兩條投訴舉報事件發生所在地的地點名稱相似度;將所獲取到的地點名稱先根據中國行政區劃規則進行規范化處理,即通過與中國行政區劃名稱進行匹配的方法將其表示為如下形式:
省級地名+地級地名+縣級地名+鄉級地名+其它地名
在上述針對地名的規范化處理當中,如遇缺失信息則將其所對應的位置空出;
將根據地點名稱的層次進行相似度計算,具體的計算方法如下:
設投訴舉報事件A、B的地點名稱LocationA、LocationB的形式如下:
投訴舉報事件的地點名稱相似度計算方法如下:
其中,SimLocation(A,B)指的是兩條投訴舉報事件的地點名稱相似度,PrA、PrB分別指事件A、B的省級地名,CtA、CiB分別指事件A、B的地級地名,CoA、CoB分別指事件A、B的縣級地名,StA、StB分別指事件A、B的鄉級地名,OrA、OrB分別指事件A、B的其它地名;
步驟1.4計算每兩條投訴舉報事件的處理階段之間的相似度;采用判斷事件處理階段是否相同的方式來衡量其相似度,具體方法如下:
上式中,SimStatus(A,B)指的是兩條投訴舉報事件的處理階段的相似度,A、B均為舉報事件編號,StatusA、StatusB分別指事件A、B所處的處理階段;
步驟1.5計算投訴舉報事件的對象名稱相似度;對于舉報對象名稱之間的相似度,采用Levenshtein編輯距離法來進行計算,其計算公式如下:
上式中,SimObject(A,B)指的是兩條投訴舉報事件的舉報對象名稱相似度,A、B均為舉報事件編號,ObjectA、ObjectB分別指舉報事件A、B所對應的舉報對象名稱,|ObjectA|、|ObjectB|分別指名稱ObjectA、ObjectB的字符長度,ed(ObjectA,ObjectB)表示將名稱ObjectA轉換為ObjectB所需要的最小操作數;
由于Levenshtein編輯距離的取值范圍在[0,+∞)之間,為了便于后期對數據進行分析以及建立模型,需要對數據進行歸一化處理,歸一化的計算方式如下:
上式中,f(x)為歸一化函數,x為數據集中的某一個元素,xmax為數據集中的最大值,xmin為數據集中的最小值;
步驟1.6計算每兩條投訴舉報事件之間舉報人對舉報事件的描述文本相似度:采用基于余弦距離的文本相似度計算方法,具體實施步驟如下:
首先,利用jieba分詞工具對文本進行詞語切分,同時采用向量空間模型(VSM)法對文本進行建模,模型的表達形式如下:
Di=D(t1,w1;t2,w2;…;tn,wn) (7)
上式中,Di為某條投訴舉報文本的空間向量,i為其編號,tn為投訴舉報文本當中某個詞語所對應的子向量,wn為其權重,n為子向量的標號;
其次,采用詞頻-逆向文檔頻率(TF-IDF)算法對文本模型進行特征提取;TF-IDF由G.Salton等人提出,其計算方法如下:
Pi=tfij×idfi (8)
上式中,Pi為每一個詞語的綜合頻度,tfij為某個詞語在一篇文檔中出現的頻率,idfi為包含某個詞語的文檔占整個文本集的比例,i為詞語標號,j為文檔標號;
經過特征提取后,文本就被表示成降維的詞向量,如下所示:
D′i=D(t1,w1;t2,w2;…;tk,wk) (9)
上式中,Di’為某條投訴舉報文本所對應的降維詞向量,其中i為文本編號,tk為投訴舉報文本當中某個詞語所對應的子向量,wk為權重,k為子向量的標號;;
然后,計算兩條文本向量模型之間的余弦相似度,具體方法如下:
上式中,SimLanguage(A,B)指的是兩條投訴舉報事件的描述文本相似度,A、B均為舉報事件編號,DtiA、D′iB分別指投訴舉報事件A、B所對應的降維的文本空間向量,m為空間向量中的元素標號;
步驟1.7建立投訴舉報事件的相似度數組,即以每兩條投訴舉報事件之間各個要素的相似度為元素構建相似度數組,作為事件相似度的樣本數據,其形式如下所示:
xAB=[SimTime SimLocation SimObject SimLanguage SimStatus] (11)
上式中,A、B均為投訴舉報事件的編號,xAB表示舉報事件A與B之間的相似度數組;
步驟2 GRNN相似度模型建立
利用GRNN建立投訴舉報事件相似度分析模型的原理如下:
(1)輸入層:GRNN輸入層接收到輸入數據,并且其神經元的數目與輸入數據的維度大小是一致的;輸入數據將通過線性函數直接傳遞給模式層;
(2)模式層:根據輸入層傳遞的輸入數據維度來構造模式層結構,其傳遞函數的表達式如下式所示:
上式當中,X代表GRNN的輸入數據,Xi代表第i個神經元所對應的數,σ代表平滑因子;
(3)加和層:GRNN的加和層神經元具有兩種類型,第一類即對模式層神經元輸出的算數求和,如下式所示:
上式當中,SD代表此類神經元的輸出;
第二類神經元則是對模式層神經元輸出的加權求和,如下式所示:
上式當中,SNj代表此類神經元的輸出,yij代表輸出樣本Y當中的第j個元素,同時也代表第i個神經元與求和層當中第j個神經元的權重;
(4)輸出層:輸出層神經元的個數等于輸出數據的維度大小,每個神經元將于求和層的輸出相除,如下式所示:
上式當中,Yj代表輸出層的輸出;
由此,GRNN相似度分析模型建立的步驟如下:
步驟2.1確定參數σ的大小;
步驟2.2將投訴舉報事件的相似度數據劃分為訓練集與測試集兩個部分;
步驟2.3把訓練集輸入至GRNN,同時輸入參數σ,進行訓練;
步驟3 GRNN模型參數優化
提出一種IFOA優化算法對GRNN模型參數進行優化,其計算原理如下:
(1)初始化IFOA的參數,即最大迭代次數gmax、種群規模p、初始搜索半徑R、果蠅個體的初始位置坐標X以及s和t的值;
上式中,Rand為(0,1)之間的隨機數,X為某一個體的位置坐標值;
(2)計算所有果蠅個體的味道濃度判定值:
S=sin(X) (17)
上式中,S為某一個體的味道濃度判定值;
(3)將所有果蠅個體的味道濃度判定依次帶入目標函數(待優化問題),得到個體的適應度值,挑選出適應度值最小和最大所對應的個體,即最優個體和最差個體,將其位置和適應度值均記錄下來:
fitness=f(Sn) n=1,2,...,p (18)
[bestfitness,bestlocation]=min(fitness) (19)
[worstfitness,worstlocation]=max(fitness) (20)
上式中,n為個體標號,fitness為所有個體的適應度值集合,f(x)為目標函數,bestfitness為最優的適應度值,bestlocation為最優個體的位置,worstfitness為最差的適應度值,worstlocation為最差個體的位置;
(4)計算所有果蠅個體與最優個體以及最差個體間的距離,若其與最優個體間的距離比最差個體間的距離近,則將其劃分為第一類種群,否則將其劃分為第二類種群;
上式中,distencebest為某一個體與最優個體間的距離,Xbestlocation為最優個體的位置,distenceworst為某一個體與最差個體間的距離,Xworstlocation為最差個體的位置;
(5)第一類種群在最優個體的指導下進行視覺搜索,第二類種群則重新生成初始位置并進行視覺搜索,并且這兩類種群的搜索半徑各不相同;
其中:
上式中,Xone為第一類種群當中某一個體的位置坐標,Rone為屬于第一類種群個體的搜索半徑,Xtwo為第二類種群當中某一個體的位置坐標,Rtwo表示屬于第二類種群個體的搜索半徑,gi表示當前迭代次數,fitnessi表示當前個體的適應度值,fitnessi+1表示上一代個體的適應度值,s和t均為常量;
(6)計算位置更新后所有果蠅個體的味道濃度判定值和適應度值,記錄新的最優和最差個體的位置及適應度值,若該最優個體的適應度值大于上一代的值,則最優個體的位置仍延用上一代的位置;同理,若該最差個體的適應度值小于上一代的值,則最差個體的位置同樣延用上一代的位置;
(7)進入算法的迭代過程,重復步驟(2)至(6),若達到最大迭代次數,則算法結束,輸出末代最優個體的味道濃度判定值,即目標函數的最優解;
由此,GRNN模型參數優化的步驟如下:
步驟3.1初始化IFOA的參數,即最大迭代次數gmax、種群規模p、初始搜索半徑R、果蠅個體的初始位置坐標X以及s和t的值;
步驟3.2計算所有果蠅個體的味道濃度判定值;
步驟3.3將果蠅個體的味道濃度判定值作為參數σ輸入至GRNN,同時利用投訴舉報事件相似度樣本數據當中的訓練集對GRNN進行訓練,之后采用樣本數據當中的測試集對模型進行測試;此時,IFOA的目標函數將替換為模型預測結果的均方根誤差函數,即RMSE,其計算方法如下式:
上式中,Xi、Yi分別代表模型的理論輸出以及實際輸出的第i個元素,N代表整體數據元素的個數;
使用函數RMSE計算出GRNN模型輸出的均方根誤差,作為個體的適應度值,同時挑選出適應度值最小以及最大所對應的個體,即最優個體和最差個體,記錄其位置及適應度值;
步驟3.4計算所有果蠅個體與最優個體和最差個體間的距離,若其與最優個體間的距離比最差個體間的距離近,則將其劃分為第一類種群,否則將其劃分為第二類種群;
步驟3.5第一類種群在最優個體的指導下進行視覺搜索,第二類種群則重新生成初始位置并進行視覺搜索,并且這兩類種群的搜索半徑各不相同;
步驟3.6計算位置更新后所有果蠅個體的味道濃度判定值,同樣將其作為參數σ輸入至GRNN,利用樣本數據進行訓練并測試,計算出模型輸出的均方根誤差,作為新的個體適應度值;之后,記錄新的最優和最差個體的位置及適應度值,若該最優個體的適應度值大于上一代的值,則最優個體的位置仍延用上一代的位置;同理,若該最差個體的適應度值小于上一代的值,則最差個體的位置同樣延用上一代的位置;
步驟3.7進入算法的迭代過程,重復步驟3.3至3.6,若達到最大迭代次數,則算法結束,輸出末代最優個體的味道濃度判定值,作為GRNN的最佳參數;
步驟4模型使用
步驟4.1按照步驟1.1收集需要計算相似度的環境類投訴舉報事件的各項要素;
步驟4.2按照步驟1.2至1.6計算兩條投訴舉報事件之間各個要素的相似度;
步驟4.3按照步驟1.7來構造兩條投訴舉報事件的相似度數組,作為樣本數據;
步驟4.4將樣本數據輸入經過參數優化的GRNN模型當中;
步驟4.5獲取模型的輸出,即兩條投訴舉報事件之間的相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110282614.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:顯示面板及顯示裝置
- 下一篇:一種基于SiP封裝的物聯網多模通信芯片結構





