[發明專利]一種工業安全主題多文檔自動消歧方法及裝置有效
| 申請號: | 201710538752.7 | 申請日: | 2017-07-04 |
| 公開(公告)號: | CN107391613B | 公開(公告)日: | 2020-09-11 |
| 發明(設計)人: | 李博;陳漢騰;馮巖;符式定;李建欣 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30 |
| 代理公司: | 北京中創陽光知識產權代理有限責任公司 11003 | 代理人: | 尹振啟 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 工業 安全 主題 文檔 自動 方法 裝置 | ||
本發明公開了一種工業安全主題多文檔自動消歧方法及裝置,所述方法包括:創建具有多種維度的DAG主題結構圖,所述DAG主題結構圖中的全部主題形成主題集合;獲取輸入的關鍵詞,并采集與所述關鍵詞相關的多個文檔,所述多個文檔形成文檔集合;為所述文檔集合中的各個文檔標注相應的標簽;將所述DAG主題結構圖和標注標簽后的文檔集合,輸入多子模函數中,并對所述多子模函數進行優化;根據優化結果,確定出目標主題子集,所述目標主題子集為所述主題集合的子集;基于所述DAG主題結構圖,確定與各個文檔的標簽相關聯的主題;針對所述目標主題子集中的各個主題,將與所述主題相關聯的文檔分為一組。
技術領域
本發明涉及文檔消歧技術領域,尤其涉及一種基于多子模優化方法的工業安全主題多文檔自動消歧方法及裝置。
背景技術
近年來,機器學習迅速發展,已經被應用到各個領域。目前,機器學習應用往往涉及到對于實驗對象的分組,具體到自然語言處理領域,很多機器學習應用都需要對于輸入的多文檔進行分類。使用消歧技術可以替代傳統的人工方式,進行高效而準確的文檔分類,因而其對于機器學習的發展有著深刻的促進作用。
目前已有的消歧技術是結合無回路有向圖(DAG,Directed Acyclic Graph)主題結構圖,設計子模函數,來針對輸入的文檔的標簽挑選主題,并最終根據輸出的主題集合將輸入文檔進行分組。然而,該方法使用的DAG主題結構圖并沒有考慮不同類型主題間的區別,因此圖的繼承結構也就相應的不夠準確。
發明內容
為解決上述技術問題,本發明實施例提供了一種工業安全主題多文檔自動消歧方法及裝置。
本發明實施例提供的工業安全主題多文檔自動消歧方法,包括:
創建具有多種維度的DAG主題結構圖,所述DAG主題結構圖中的全部主題形成主題集合;
獲取輸入的關鍵詞,并采集與所述關鍵詞相關的多個文檔,所述多個文檔形成文檔集合;
為所述文檔集合中的各個文檔標注相應的標簽;
將所述DAG主題結構圖和標注標簽后的文檔集合,輸入多子模函數中,并對所述多子模函數進行優化;根據優化結果,確定出目標主題子集,所述目標主題子集為所述主題集合的子集;
基于所述DAG主題結構圖,確定與各個文檔的標簽相關聯的主題;
針對所述目標主題子集中的各個主題,將與所述主題相關聯的文檔分為一組。
本發明實施例中,所述創建具有多種維度的DAG主題結構圖,包括:
針對每種類型的主題,基于該類型的各個主題之間的關系結構構建出相應的DAG主題結構圖;對多種類型的DAG主題結構圖進行融合,得到多種維度的DAG主題結構圖。
本發明實施例中,所述針對每種類型的主題,基于該類型的各個主題之間的關系結構構建出相應的DAG主題結構圖;對多種類型的DAG主題結構圖進行融合,得到多種維度的DAG主題結構圖,包括:
從維基百科的歷史鏡像中提取出各個主題,依據各個主題之間的關系結構構建出實體對應的DAG主題結構圖;
從在線動詞詞典的動詞庫中提取出各個動詞類,依據各個動詞類之間的關系結構構建出動詞對應的DAG主題結構圖;
從地圖資源中提取出各個地理位置,依據各個地理位置的關系結構創建地理位置對應的DAG主題結構圖;
根據時間軸創建時期對應的DAG主題結構圖
對所述實體對應的DAG主題結構圖、動詞對應的DAG主題結構圖、地理位置對應的DAG主題結構圖以及時期對應的DAG主題結構圖進行融合,得到具有多種維度的DAG主題結構圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710538752.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:字段配置方法及裝置
- 下一篇:一種基于WMD的中文問答匹配方法





