[發(fā)明專利]基于狀態(tài)空間投票法的地址單元解析方法及裝置在審
| 申請?zhí)枺?/td> | 202210506857.5 | 申請日: | 2022-05-11 |
| 公開(公告)號: | CN115186043A | 公開(公告)日: | 2022-10-14 |
| 發(fā)明(設(shè)計)人: | 王功明;魏金雷;潘心冰;李明明 | 申請(專利權(quán))人: | 浪潮云信息技術(shù)股份公司 |
| 主分類號: | G06F16/29 | 分類號: | G06F16/29;G06F40/295;G06K9/62 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 潘悅梅 |
| 地址: | 250100 山東省濟南市高*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 狀態(tài) 空間 投票 地址 單元 解析 方法 裝置 | ||
1.基于狀態(tài)空間投票法的地址單元解析方法,其特征在于:包括如下步驟:
S1、構(gòu)建相鄰單字標注結(jié)果的狀態(tài)轉(zhuǎn)移映射表,所述相鄰單字標注結(jié)果的狀態(tài)轉(zhuǎn)移映射表用于表示相鄰單字標注結(jié)果的約束關(guān)系;
S2、選取多個已訓練的地址單元標注模型,對于每條待處理文本,每個已訓練的地址單元標注模型分別進行數(shù)據(jù)處理、并輸出地址單元標注序列;
S3、對于所述多個已訓練的地址單元標注模型輸出的地址單元標注序列,根據(jù)所述相鄰單字標注結(jié)果的狀態(tài)轉(zhuǎn)移映射表、通過投票法進行融合,得到符合規(guī)范的標注結(jié)果;
S4、從所述標注結(jié)果中提取地址單元。
2.根據(jù)權(quán)利要求1所述的基于狀態(tài)空間投票法的地址單元解析方法,其特征在于:在標注過程中,所述前驅(qū)單字標注結(jié)果決定當前單字進行投票融合時的候選結(jié)果;步驟S1將基于BIEOS法的單字標注結(jié)果視為狀態(tài),定義單字標注結(jié)果狀態(tài)空間{Null、B-X、I-X、E-X、O、S},其中,Null表示當前單字位于句子開頭,X表示實體類型,根據(jù)相鄰單字標注結(jié)果之間的狀態(tài)轉(zhuǎn)移關(guān)系構(gòu)建相鄰單字標注結(jié)果的狀態(tài)轉(zhuǎn)移映射表。
3.根據(jù)權(quán)利要求1所述的基于狀態(tài)空間投票法的地址單元解析方法,其特征在于:對于文本長度為m的待處理文本Sent,所述待處理文本Sent中第i個單字表示為Sent[i],1≤i≤m;
通過n個已訓練的地址單元標注模型對所述待處理文本Sent進行處理,第j個已訓練的地址單元標注模型Modelj對所述待處理文本Sent進行處理,輸出的地址單元標注序列表示為Tagj,1≤j≤n;
第j個已訓練的地址單元標注模型Modelj對單字Sent[i]的標注結(jié)果表示為Tagj[i];
步驟S3包括如下分步驟:
S31、初始化i=j=1,前驅(qū)單字標注結(jié)果的狀態(tài)Statuspre=Nul,融合后的地址單元標注序列Tagvote=[];
S32、計算單字Sent[i]的已標注結(jié)果集合
Tagj[i]表示已訓練地址單元標注模型Modelj對單字Sent[i]的標注結(jié)果;
S33、根據(jù)前驅(qū)單字標注結(jié)果狀態(tài)Statuspre以及相鄰單字標注結(jié)果的狀態(tài)轉(zhuǎn)移關(guān)系,從已標注結(jié)果集合中篩選出符合規(guī)范的標注結(jié)果,得到候選標注結(jié)果集合
S34、從候選標注結(jié)果集合中選擇出現(xiàn)次數(shù)最多的標注結(jié)果,得到最多次數(shù)標注結(jié)果集合
S35、從最多次數(shù)標注結(jié)果集合中隨機選擇一個標注結(jié)果
S36、設(shè)置融合后單字Sent[i]的標注結(jié)果
S37、更新前驅(qū)單字標注結(jié)果狀態(tài)Statuspre=Tagvote[i];
S38、更新待處理單字編號i=i+1;
S39、如果i≤m,執(zhí)行步驟S32,否則執(zhí)行步驟S3A;
S3A:返回融合后的地址單元標注序列Tagvote。
4.根據(jù)權(quán)利要求3所述的基于狀態(tài)空間投票法的地址單元解析方法,其特征在于:所述步驟S33包括如下分步驟:
S331、初始化
S332、如果Statuspre∈{Null,E-X,O,S},執(zhí)行步驟S332,否則執(zhí)行步驟S336;
S333、將已標注結(jié)果集合中所有表示實體開始位置的標注結(jié)果添加到候選標注結(jié)果集合
S334、將已標注結(jié)果集合中所有表示非實體的標注結(jié)果添加到候選標注結(jié)果集合
S335、將已標注結(jié)果集合中所有表示單字實體的標注結(jié)果添加到候選標注結(jié)果集合執(zhí)行步驟S338;
S336、將已標注結(jié)果集合中所有表示實體X中間位置的標注結(jié)果添加到候選標注結(jié)果集合
S337、將已標注結(jié)果集合中所有表示實體X結(jié)束位置的標注結(jié)果添加到候選標注結(jié)果集合
S338、返回所生成的候選標注結(jié)果集合
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浪潮云信息技術(shù)股份公司,未經(jīng)浪潮云信息技術(shù)股份公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210506857.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





