[發明專利]基于多模態自然語言特征的軌道交通行業術語提取方法有效
| 申請號: | 202010734793.5 | 申請日: | 2020-07-28 |
| 公開(公告)號: | CN111897917B | 公開(公告)日: | 2023-06-16 |
| 發明(設計)人: | 劉永浩;曹冪;林海;溫俊;周逸夫;李濤;張帆 | 申請(專利權)人: | 成都靈堯科技有限責任公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/289 |
| 代理公司: | 成都行之專利代理事務所(普通合伙) 51220 | 代理人: | 林菲菲 |
| 地址: | 610000 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多模態 自然語言 特征 軌道交通 行業 術語 提取 方法 | ||
1.基于多模態自然語言特征的軌道交通行業術語提取方法,其特征是,包括以下步驟:
S1:對行業語料庫中的文檔標題進行識別和提取,并根據過濾詞詞庫對識別和提取的行業術語進行過濾,得到第一批候選詞詞庫;
S2:根據過濾詞詞庫對行業語料庫進行文本切分、篩選后得到由文本單元構成的預選詞列表,并對預選詞列表循環迭代過濾后得到第二批候選詞詞庫;
S3:通過分詞模型和詞性標注模型對語料進行分詞和詞性標注,將連續相鄰的類名詞合并成名詞性短語,抽取名詞性短語后得到第三批候選詞詞庫;
S4:對分詞列表去除處理后得到預選分詞列表、詞頻統計列表,根據預選分詞列表、詞頻統計列表進行二元共現分析后得到由二元詞對構成的第四批候選詞詞庫;
S5:根據預選分詞列表、詞頻統計列表進行三元共現分析得到由三元詞對構成的第五批候選詞詞庫;
S6:根據鄰接字對二元詞對和/或三元詞對進行擴展,得到第六批候選詞詞庫;
S7:對所有批次的候選詞詞庫求解并集后得到最終行業術語庫。
2.根據權利要求1所述的基于多模態自然語言特征的軌道交通行業術語提取方法,其特征是,在步驟S1中,所述過濾詞詞庫具體為:根據開源漢語詞典建立的由介詞、連詞、助詞、副詞等常用虛詞構成的詞庫。
3.根據權利要求1所述的基于多模態自然語言特征的軌道交通行業術語提取方法,其特征是,在步驟S2中,所述第二批候選詞詞庫具體為:
S201:對行業語料庫進行預處理:
通過標題識別規則將標題編號剔除,并將標題內容作為一個獨立的文本行;
根據標點符號和特殊符號將語料進行切分,并去除掉標點符號和特殊符號后得到文本集;
S202:在文本集中篩選出字符串長度小于指定閾值的文本單元,構成預選詞列表;
S203:循環迭代預選詞列表,通過過濾詞詞庫將預選詞的前置過濾詞和后置過濾詞全部刪除,得到第二批候選詞詞庫。
4.根據權利要求1所述的基于多模態自然語言特征的軌道交通行業術語提取方法,其特征是,在步驟S4、S5中,所述分詞列表去除停用詞和過濾詞具體為:
S401:根據加載的停用詞詞庫和過濾詞詞庫去除分詞列表中的停用詞和過濾詞,得到預選分詞列表;
S402:對預選分詞列表進行一元共現分析后得到預選分詞列表中所有詞語的詞頻統計列表,一元共現分析的計算公式為:
其中,Wi表示預選分詞列表中的某詞語,C(Wi)表示某詞語在預選分詞列表中出現的次數,T表示預選分詞列表中分詞的總數,P(Wi)表示某詞語在預選分詞列表中出現的概率。
5.根據權利要求4所述的基于多模態自然語言特征的軌道交通行業術語提取方法,其特征是,所述二元共現分析具體為:
S403:按預定順序遍歷語料庫的預選分詞列表,以當前詞為中心,分別取左鄰接詞和右鄰接詞形成二元詞對形成二元詞對列表;
S404:計算二元詞對列表中每個二元詞對的左鄰接熵、右鄰接熵和互信息,并計算總評分值;
S405:根據總評分值對二元詞對列表進行排序,獲取前序N個二元詞對構成第四批候選詞詞庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都靈堯科技有限責任公司,未經成都靈堯科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010734793.5/1.html,轉載請聲明來源鉆瓜專利網。





