[發明專利]基于大數據的英文語義識別分析方法在審
| 申請號: | 202310256415.4 | 申請日: | 2023-03-16 |
| 公開(公告)號: | CN116386617A | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 譚芳敏 | 申請(專利權)人: | 淮南職業技術學院 |
| 主分類號: | G10L15/18 | 分類號: | G10L15/18;G10L15/08 |
| 代理公司: | 合肥正則元起專利代理事務所(普通合伙) 34160 | 代理人: | 楊凱 |
| 地址: | 2320*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 數據 英文 語義 識別 分析 方法 | ||
1.基于大數據的英文語義識別分析方法,其特征在于,包括如下步驟:
步驟一:建立語料知識庫;運用網絡爬蟲技術,通過配置采集規則和采集模板,從互聯網中獲取語料相關數據信息;
將采集到的語料相關數據信息標記為語料元數據,針對語料元數據進行預處理操作,通過配置預處理規則,將語料元數據按照處理規則整合成語料數據,形成語料知識庫;
步驟二:獲取用戶語料,結合用戶語料中每個元音的采集時間和強度對用戶語料進行清晰度偏離值QL評估;
若清晰度偏離值QL大于預設偏離閾值,則判定對應語料無效,提示用戶重新采集語料;否則判定對應語料有效;
步驟三:調用語義識別終端對判定有效的用戶語料進行語義識別;具體為:
結合語料知識庫對用戶語料進行英文分詞;針對兩段英文語義進行英文分詞,將完整的英文語義分解為一個個單一的詞語;
根據配置的語義匹配規則對英文分詞進行替換操作,計算詞語出現的頻率;
針對兩段英文語義分別構建兩個詞頻向量,根據余弦相似度算法得出英文語義匹配率的數值;
步驟四:對語義識別終端進行語義識別監測,對語義識別過程中語義識別終端的狀態偏離值進行評估;若狀態偏離值ZP大于預設偏離閾值,則生成偏離預警信號,以提醒管理人員對語義識別終端進行檢修或更換。
2.根據權利要求1所述的基于大數據的英文語義識別分析方法,其特征在于,其中,清晰度偏離值QL的具體評估步驟為:
獲取用戶語料中每個元音的采集時間,將相鄰兩個元音的時間差標記為采集間隔Ci,i=1,…,n;將采集間隔Ci與間隔閾值相比較;若Ci小于間隔閾值,則生成偏離信號;
當監測到偏離信號,自動倒計數,倒計數為D1,D1為預設值;每采集一個間隔閾值或元音強度,則倒計數減一;
在倒計數階段繼續對偏離信號進行監測,若監測到新的偏離信號,則倒計數自動歸為原值,重新按照D1進行倒計數;否則,倒計數歸零,停止計數;
統計倒計數階段偏離信號的出現次數為K1,統計倒計數階段的長度為Zc;利用公式計算得到用戶語料的清晰度偏離值QL,其中g1、g2為系數因子。
3.根據權利要求2所述的基于大數據的英文語義識別分析方法,其特征在于,步驟二還包括:
獲取用戶語料中每個元音的強度并標記為Qi;當Qi處于預設標準強度范圍外,則生成偏離信號。
4.根據權利要求1所述的基于大數據的英文語義識別分析方法,其特征在于,所述預處理依次包括:提取英文單詞、消除雜音、索引處理;其中,語料知識庫根據每天的定時爬蟲獲取到大量數據,不斷填充豐富語料知識庫,以數據為基礎,服務于英文語義匹配。
5.根據權利要求1所述的基于大數據的英文語義識別分析方法,其特征在于,其中,根據余弦相似度算法得出英文語義匹配率的數值;具體為:
將構建好的詞頻向量想象成空間中的兩條線段,都是從原點出發,指向不同的方向,根據向量夾角得出匹配率;通過夾角的大小,來判斷向量的相似程度,夾角越小,就代表越匹配。
6.根據權利要求1所述的基于大數據的英文語義識別分析方法,其特征在于,其中,狀態偏離值ZP的具體評估步驟為:
當監測到語義識別終端進行語義識別時,每間隔R2時間采集語義識別終端的狀態參數,狀態參數包括訪問節點連接數、CPU負載率、帶寬負載率和實時網絡速率;其中R2為預設值;
將訪問節點連接數、CPU負載率、帶寬負載率和實時網絡速率依次標記為Q1、Q2、Q3、Q4;利用公式ZX=(Q1×b1+Q4×b4)/(Q2×b2+Q3×b3)計算得到語義識別終端的狀態系數ZX,其中b1、b2、b3、b4為系數因子;
將狀態系數ZX與設定閾值相比較,若狀態系數ZX小于設定閾值,則生成偏離信號;根據偏離信號的時空變化趨勢,計算得到狀態偏離值ZP。
7.根據權利要求6所述的基于大數據的英文語義識別分析方法,其特征在于,根據偏離信號的時空變化趨勢,計算得到狀態偏離值ZP,具體為:
當監測到偏離信號時,自動倒計時,倒計時時長為Td時間,Td為預設值;在倒計時階段繼續對偏離信號進行監測,若再次監測到偏離信號,則倒計時自動歸為原值,重新按照Td進行倒計時;
統計倒計時階段偏離信號的出現次數為C1;當監測到偏離信號時,將對應的狀態系數ZX與設定閾值進行差值計算,并將所有的差值進行求和得到偏離總值CT,統計倒計時階段的持續時長為Tc;
利用公式ZP=(C1×a1+CT×a2)/(Tc×a3)計算得到狀態偏離值ZP,其中a1、a2、a3為系數因子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淮南職業技術學院,未經淮南職業技術學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310256415.4/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





