[發(fā)明專利]基于聯(lián)合相似度的民航旅客不文明等級預測方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201910404740.4 | 申請日: | 2019-05-15 |
| 公開(公告)號: | CN110084440B | 公開(公告)日: | 2022-12-23 |
| 發(fā)明(設計)人: | 丁建立;李洋;王懷超 | 申請(專利權)人: | 中國民航大學 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q50/30;G06F16/33;G06F40/211;G06F40/289 |
| 代理公司: | 天津市鼎和專利商標代理有限公司 12101 | 代理人: | 蒙建軍 |
| 地址: | 300300 天*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 聯(lián)合 相似 民航 旅客 不文明 等級 預測 方法 系統(tǒng) | ||
1.一種基于聯(lián)合相似度的民航旅客不文明等級預測方法,其特征在于:至少包括如下步驟:
步驟一:數(shù)據(jù)預處理;
將來自于民航和社會兩部分的不文明旅客信息記錄和不文明人員信息記錄進行處理生成待輸入數(shù)據(jù)集,根據(jù)數(shù)據(jù)來源的不同將數(shù)據(jù)分為民航和社會兩個數(shù)據(jù)集,同時對數(shù)據(jù)進行如下的清洗:刪除重復數(shù)據(jù),將文檔中的雜亂字符進行替換,從而達到統(tǒng)一的數(shù)據(jù)組織方式,將民航與社會中的不文明信息記錄和懲處結果分別表示,為后續(xù)模型的運算提供數(shù)據(jù)輸入;
步驟二:文本信息的特征提取;
來自民航和社會的不文明信息記錄以文本形式存在,對旅客發(fā)生不文明行為的潛在程度的預測,通過word2vec算法對文本信息進行特征提取,word2vec算法專注于神經網絡學習的單詞的分布式表示,將單個詞表示為語義空間的詞向量,通過skip-gram模型通過當前單詞詞向量預測周圍單詞詞向量的機制獲得不文明旅客文本記錄信息的語義表示;
步驟三:民航不文明旅客與社會不文明人員的不文明行為通過IPS算法進行句子向量表示;不文明旅客的行為記錄的文本信息是通過短文本的句子形式記錄的,依據(jù)word2vec算法將文本信息處理成詞向量,再通過IPS算法進行加權求和獲得不文明行為的句子向量表示;公式表述如下:
X←{vs:s∈S}
vs←vs-uuTvs
算法中:w代表一個詞,V代表整個語料庫生成的詞的全集,vw代表詞向量,即{vw:w∈V};s代表一個句子或段落,S代表數(shù)據(jù)中所有句子的全集,vs是句子向量,即{vs:s∈S};其中a為平滑反頻率參數(shù),p(w)為單詞在整個語料庫中的頻率;為了句子向量和語義空間上下文建立聯(lián)系,將所有的句子向量組成矩陣X,得到X的第一奇異向量u,通過第一奇異向量u對原本的vs進行更新獲得最新新的vs向量表示;
步驟四:不文明旅客的懲處特征的度量,具體為:
1)引入不文明旅客處罰規(guī)則概率P,
在不文明旅客處罰規(guī)則關系網絡中,C代表不文明旅客的處罰類型的集合,Ci代表不文明旅客的第i種處罰類型,P(Ci)的表達式為:
式中:∑Ci代表i種處罰類型總數(shù),為所有處罰類型數(shù)目之和;不文明旅客的處罰類型在當前所有處罰情況中所占比重不同,引入概率保證度量的合理性;
2)引入不文明旅客行為嚴重程度歸一度量標準L,
在不文明旅客的處罰結果中,Cij為第i種處罰類型j處罰結果,Max(Cij)為i類型種j處罰結果中的最大值,Lij的表達式為:
其中:Lij的值域為Lij∈(0,1),Max(Cij)+1可防止Lij=1情況的出現(xiàn);
3)不文明旅客處罰規(guī)則的歸一標準度量矩陣PL公式為:
4)引入概率模型尋優(yōu)參數(shù)β,
其中:λ為處罰規(guī)則的平滑反頻率,β為反頻率參數(shù),β∈(10-4,100);β的引入使得每一類的PL值隨處罰梯度上升而增加,以ω=2e-5作為步長使β在(10-4,100)上尋優(yōu),優(yōu)化后的PL值隨處罰梯度的上升而增加;
步驟五:基于聯(lián)合相似度匹配的旅客不文明等級預測,具體步驟如下:
使用余弦相似度來比較來自民航和社會的不文明文本記錄的語義相似性,使用改進的反正切函數(shù)來比較兩個處罰統(tǒng)一度量值的相似性,并為聯(lián)合相似度匹配算法設置加權參數(shù),聯(lián)合相似度算法如下所示:
sims=α·cos(vi,vj)+(1-α)sim(PLi,PLj)
約束條件:
α>(1-α),α∈(0,1)
其中:cosθ為余弦距離來度量不文明記錄的語義相似度,sim()為改進的反正切函數(shù)來度量懲處特征的相似度,sims()算法是聯(lián)合相似度匹配算法,α為權重參數(shù);
步驟六:通過對來自民航和社會兩部分不文明旅客和不文明人員行為數(shù)據(jù)進行整理,并帶入聯(lián)合相似度匹配模型進行計算,同時分別在平均詞向量算法、Doc2vec模型、IPS算法、以及IPBS-IPS算法中進行實驗對比與分析,并依據(jù)各模型的相似度值來預測在從事民航活動的人員發(fā)生不文明行為的潛在程度,最后通過查準率、召回率、F1值和準確率來對實驗結果進行評估。
2.一種基于聯(lián)合相似度的民航旅客不文明等級預測系統(tǒng),其特征在于,至少包括:
數(shù)據(jù)預處理模塊:將來自于民航和社會兩部分的不文明旅客信息記錄和不文明人員信息記錄進行處理生成待輸入數(shù)據(jù)集,根據(jù)數(shù)據(jù)來源的不同將數(shù)據(jù)分為民航和社會兩個數(shù)據(jù)集,同時對數(shù)據(jù)進行如下的清洗:刪除重復數(shù)據(jù),將文檔中的雜亂字符進行替換,從而達到統(tǒng)一的數(shù)據(jù)組織方式,將民航與社會中的不文明信息記錄和懲處結果分別表示,為后續(xù)模型的運算提供數(shù)據(jù)輸入;
文本信息的特征提取模塊:來自民航和社會的不文明信息記錄以文本形式存在,對旅客發(fā)生不文明行為的潛在程度的預測,通過word2vec算法對文本信息進行特征提取,word2vec算法專注于神經網絡學習的單詞的分布式表示,將單個詞表示為語義空間的詞向量,通過skip-gram模型通過當前單詞詞向量預測周圍單詞詞向量的機制獲得不文明旅客文本記錄信息的語義表示;
向量表述模塊:民航不文明旅客與社會不文明人員的不文明行為通過IPS算法進行句子向量表示;不文明旅客的行為記錄的文本信息是通過短文本的句子形式記錄的,依據(jù)word2vec算法將文本信息處理成詞向量,再通過IPS算法進行加權求和獲得不文明行為的句子向量表示;公式表述如下:
X←{vs:s∈S}
vs←vs-uuTvs
算法中:w代表一個詞,V代表整個語料庫生成的詞的全集,vw代表詞向量,即{vw:w∈V};s代表一個句子或段落,S代表數(shù)據(jù)中所有句子的全集,vs是句子向量,即{vs:s∈S};其中a為平滑反頻率參數(shù),p(w)為單詞在整個語料庫中的頻率;為了句子向量和語義空間上下文建立聯(lián)系,將所有的句子向量組成矩陣X,得到X的第一奇異向量u,通過第一奇異向量u對原本的vs進行更新獲得最新新的vs向量表示;
不文明旅客的懲處特征的度量模塊:
1)引入不文明旅客處罰規(guī)則概率P,
在不文明旅客處罰規(guī)則關系網絡中,C代表不文明旅客的處罰類型的集合,Ci代表不文明旅客的第i種處罰類型,P(Ci)的表達式為:
式中:∑Ci代表i種處罰類型總數(shù),為所有處罰類型數(shù)目之和;不文明旅客的處罰類型在當前所有處罰情況中所占比重不同,引入概率保證度量的合理性;
2)引入不文明旅客行為嚴重程度歸一度量標準L,
在不文明旅客的處罰結果中,Cij為第i種處罰類型j處罰結果,Max(Cij)為i類型種j處罰結果中的最大值,Lij的表達式為:
其中:Lij的值域為Lij∈(0,1),Max(Cij)+1可防止Lij=1情況的出現(xiàn);
3)不文明旅客處罰規(guī)則的歸一標準度量矩陣PL公式為:
4)引入概率模型尋優(yōu)參數(shù)β,
其中:λ為處罰規(guī)則的平滑反頻率,β為反頻率參數(shù),β∈(10-4,100);β的引入使得每一類的PL值隨處罰梯度上升而增加,以ω=2e-5作為步長使β在(10-4,100)上尋優(yōu),優(yōu)化后的PL值隨處罰梯度的上升而增加;
基于聯(lián)合相似度匹配的旅客不文明等級預測模塊:
使用余弦相似度來比較來自民航和社會的不文明文本記錄的語義相似性,使用改進的反正切函數(shù)來比較兩個處罰統(tǒng)一度量值的相似性,并為聯(lián)合相似度匹配算法設置加權參數(shù),聯(lián)合相似度算法如下所示:
sims=α·cos(vi,vj)+(1-α)sim(PLi,PLj)
約束條件:
α>(1-α),α∈(0,1)
其中:cosθ為余弦距離來度量不文明記錄的語義相似度,sim()為改進的反正切函數(shù)來度量懲處特征的相似度,sims()算法是聯(lián)合相似度匹配算法,α為權重參數(shù);
評估模塊:通過對來自民航和社會兩部分不文明旅客和不文明人員行為數(shù)據(jù)進行整理,并帶入聯(lián)合相似度匹配模型進行計算,同時分別在平均詞向量算法、Doc2vec模型、IPS算法、以及IPBS-IPS算法中進行實驗對比與分析,并依據(jù)各模型的相似度值來預測在從事民航活動的人員發(fā)生不文明行為的潛在程度,最后通過查準率、召回率、F1值和準確率來對實驗結果進行評估。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國民航大學,未經中國民航大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910404740.4/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預測目的的處理系統(tǒng)或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優(yōu)化,例如線性規(guī)劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規(guī)劃、調度或分配時間、人員或機器資源;企業(yè)規(guī)劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





