[發明專利]一種以群智感知任務為中心的知識圖譜構建方法在審
| 申請號: | 202011053028.3 | 申請日: | 2020-09-29 |
| 公開(公告)號: | CN112463976A | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 金嘉暉;高士杰;熊潤群;張競慧 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 南京眾聯專利代理有限公司 32206 | 代理人: | 薛雨妍 |
| 地址: | 210096 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 感知 任務 中心 知識 圖譜 構建 方法 | ||
1.以群智感知任務為中心的演化知識圖譜構造方法,其特征在于,該方法包括以下步驟:
步驟(1)在群智感知任務中,以Application為核心構建知識圖譜子圖,感知任務由Publisher發布,可以擁有多個子任務Task;對發布任務,有hasEvent關系描述特定時間點,hasPlace描述感知地點;每個子任務有hasTitle表示任務名稱,hasDescription描述任務詳情,hasType描述任務類型,hasState描述具體的感知結果,State可以記錄感知的對象hasEntity,感知的對象hasPlace,感知的執行者hasActor,而感知的詳細數據將以haseAttr進行保存,以key/value對的形式保留數據key為結果類型,value為狀態值;
步驟(2)感知人員進行感知之后,通過平臺提交感知數據T,感知數據一般情況下是非格式化的描述文字。對感知數據運用雙向LSTM-CRF進行命名實體識別,抽取非格式化文本T中的對應描述實體M;同時,感知數據T中針對感知對象的描述往往包含某種描述關系,通過預處理后,對信息中存在的關系進行抽取,構造M-R-M關系鏈;
步驟(3)通過步驟(2)得到相關描述實體集合后,需要將描述實體M與知識圖譜中節點E進行匹配;利用迭代式搜索算法,首先得到描述實體M的候選節點集在迭代時,篩選匹配度高于閾值的M標記為“已匹配”,作為訓練的錨點;每次迭代都加入新的“已匹配”集,直到全部匹配;則M-R-M關系可以構造成E-R-E關系鏈;
步驟(4)將感知人員提供的E-R-E信息進行可信度檢測,主要方式為根據感知人員歷史感知信息可靠度,將感知人員區分為勤奮的、草率的和惡意的工作者,丟棄評分過低的感知信息;最后將該次感知的信息構建成圖譜子圖,并加入原始圖譜中,形成圖譜的演化過程。
2.根據權利要求1所述的以群智感知任務為中心的演化知識圖譜構造方法,其特征在于,步驟(2)中,采用雙向LSTM模型進行命名實體識別及關系提取,具體步驟為:
步驟(2.1)利用業內公開的標注數據集作為訓練樣本;在命名實體識別中,采用雙向LSTM-CRF模型;首先,對輸入的非格式化信息T進行分詞操作得到字詞cj;然后,通過向量映射層將輸入的字或詞映射為低維向量(一般采用GloVe),即:其中,Tc為映射函數,將字詞映射得到特定的嵌入向量,為對應于詞cj的詞向量;
步驟(2.2)將詞向量輸入雙向LSTM網絡中,將正反方向LSTM模型輸出的向量進行拼接得到輸出向量將該向量輸入CRF層,并進而得到預測的標簽Lj輸出。其中,CRF條件隨機場可以形式化的表示為:
其中,輸出的分數是每個詞ci映射到tagj的概率;在CRF中,存在轉移概率矩陣A,Ai,j代表tagi轉移到tagj的轉移概率;矩陣Pi,j為雙向LSTM輸出的預測分數,即第i個字對應第i個標簽的概率;
根據如下損失函數,使得真實路徑的占比在全部計算可能路徑中比例盡可能提高。路徑值即各字詞對應標簽形成的概率分數,其中P1,P2等為詞ci對應于特定標簽的可能結果,PRealPath為最終正確的對應方式。
在最終輸出結果中,挑選分值最大者為標記結果。將訓練好的模型用于標注得到的非結構化感知數據。通過該模型,可以得到cj:Lj映射,表示詞cj的標簽為Lj;
步驟(2.3)通過步驟(2.2)得到{cj:Lj}映射集;首先對映射集進行預篩除,忽略其中所有標注非“人物”、“地點”、“時間”、“動詞”等信息;隨后,構建關系詞字典,用于匹配動詞中的描述過程;對于非精確匹配的動詞,利用編輯距離計算相似度,高于某個閾值者認為匹配;最后,迭代處理映射集,按照“實體”-“動詞”-“實體”的規范讀取規范化的數據,將每一條關系作為單個元素構成M-R-M集合{ci:Lk:cj}。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011053028.3/1.html,轉載請聲明來源鉆瓜專利網。





