[發明專利]基于多模態自然語言特征的軌道交通行業術語提取方法有效
| 申請號: | 202010734793.5 | 申請日: | 2020-07-28 |
| 公開(公告)號: | CN111897917B | 公開(公告)日: | 2023-06-16 |
| 發明(設計)人: | 劉永浩;曹冪;林海;溫俊;周逸夫;李濤;張帆 | 申請(專利權)人: | 成都靈堯科技有限責任公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/289 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 林菲菲 |
| 地址: | 610000 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多模態 自然語言 特征 軌道交通 行業 術語 提取 方法 | ||
本發明公開了基于多模態自然語言特征的軌道交通行業術語提取方法,涉及自然語言處理、數據挖掘技術領域,解決了目前依賴于詞典的行業術語提取方法無法實現自動、快速、高效的提取軌道交通行業行業術語的問題,其技術方案要點是:結合分詞技術、詞性分析技術、句法分析技術和無監督學習技術從不同的維度得到自然語言的多模態特征;在二元共現分析與三元共現分析的基礎上,又使用基于鄰接字的擴展方法對二元詞對和三元詞進行了擴充,通過對多種技術方法的綜合運用,從自然語言的不同模態得到了不同批次的術語庫,并對各批次的術語庫取并集得到最終的行業術語庫,最后通過行業術語庫的自動抽樣和規則過濾,提高行業術語抽取的覆蓋率和準確度。
技術領域
本發明涉及自然語言處理、數據挖掘技術領域,更具體地說,它涉及基于多模態自然語言特征的軌道交通行業術語提取方法。
背景技術
目前,我國的軌道交通行業在近年來得到了迅猛發展,因此對該行業各崗位、各工種相關工作人員的技術能力和服務水平提出了更高的要求,加之該行業涉及領域廣泛、涉及學科眾多、知識體系復雜,從而對軌道交通行業的教育培訓系統也提出了更高的要求。因此,傳統的教育理念和技術手段已經無法滿足學員對相關教育培訓系統的在線化、個性化和智能化需求。
基于此,以知識圖譜為核心的軌道交通智慧教育培訓系統便應運而生。然而,在知識圖譜的構建過程,首先需要從該行業知識庫、教材和工程資料中對知識實體的名稱進行抽取,常見的專業術語的提取方法主要包括分詞技術、行業詞典匹配和命名實體識別等方法,無論那種方法都對行業詞典或標注語料庫有著極強的依賴。現有的術語詞匯抽取技術都需要使用已有的標注數據集對模型進行訓練,其中標注數據集的構建需要花費大量的人力和物力,并且若構建的詞典內容不夠準確、詞條數量不足時,都會影響對專業術語的提取效果,很難完全抽取出所有的術語詞匯。
然而,對于軌道交通行業而言,到目前為止,尚未有一套充足、完備的行業詞典,所以依賴于詞典的方法都無法實現自動、快速、高效的提取行業術語的需求。因此,如何研究設計一種基于多模態自然語言特征的軌道交通行業術語提取方法是我們目前急需解決的問題。
發明內容
本發明的目的是提供基于多模態自然語言特征的軌道交通行業術語提取方法,結合分詞技術、詞性分析技術、句法分析技術和無監督學習技術從不同的維度得到自然語言的多模態特征,并對多模態特征進行綜合分析,能夠快速高效的從非結構化文本中提取出軌道交通行業的專業詞匯,提高行業術語抽取的覆蓋率和準確度。
本發明的上述技術目的是通過以下技術方案得以實現的:
第一方面,提供了基于多模態自然語言特征的軌道交通行業術語提取方法,包括以下步驟:
S1:對行業語料庫中的文檔標題進行識別和提取,并根據過濾詞詞庫對識別和提取的行業術語進行過濾,得到第一批候選詞詞庫;
S2:根據過濾詞詞庫對行業語料庫進行文本切分、篩選后得到由文本單元構成的預選詞列表,并對預選詞列表循環迭代過濾后得到第二批候選詞詞庫;
S3:通過分詞模型和詞性標注模型對語料進行分詞和詞性標注,將連續相鄰的類名詞合并成名詞性短語,抽取名詞性短語后得到第三批候選詞詞庫;
S4:對分詞列表去除處理后得到預選分詞列表、詞頻統計列表,根據預選分詞列表、詞頻統計列表進行二元共現分析后得到由二元詞對構成的第四批候選詞詞庫;
S5:根據預選分詞列表、詞頻統計列表進行三元共現分析得到由三元詞對構成的第五批候選詞詞庫;
S6:根據鄰接字對二元詞對和/或三元詞對進行擴展,得到第六批候選詞詞庫;
S7:對所有批次的候選詞詞庫求解并集后得到最終行業術語庫。
優選的,在步驟S1中,所述過濾詞詞庫具體為:根據開源漢語詞典建立的由介詞、連詞、助詞、副詞等常用虛詞構成的詞庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都靈堯科技有限責任公司,未經成都靈堯科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010734793.5/2.html,轉載請聲明來源鉆瓜專利網。





