[發明專利]別名生成方法、裝置和設備在審
| 申請號: | 202010059841.5 | 申請日: | 2020-01-19 |
| 公開(公告)號: | CN111310472A | 公開(公告)日: | 2020-06-19 |
| 發明(設計)人: | 張浩宇;吳飛;方四安;徐承 | 申請(專利權)人: | 合肥訊飛數碼科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/247 |
| 代理公司: | 北京維澳專利代理有限公司 11252 | 代理人: | 王立民;金海 |
| 地址: | 230088 安徽省合肥市高新區*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 別名 生成 方法 裝置 設備 | ||
1.一種別名生成方法,其特征在于,包括:
利用預設的序列標注策略對命名實體的原始名稱進行解析,得到所述原始名稱的構詞成分;
將所述構詞成分與所述原始名稱融合,并作為預先構建的具有編解碼結構的別名生成模型的輸入;
對所述別名生成模型的解碼結果進行擴展,生成所述命名實體的多個別名。
2.根據權利要求1所述的別名生成方法,其特征在于,所述別名生成模型的解碼結果包括:
基于預設的先驗字符集解碼得到的簡稱類別名和/或自定義類別名;其中所述自定義類別名含有所述原始名稱之外的字符。
3.根據權利要求2所述的別名生成方法,其特征在于,所述先驗字符集用于在所述別名生成模型的解碼過程中,提升所述先驗字符集內所含字符的輸出概率。
4.根據權利要求1所述的別名生成方法,其特征在于,所述對所述別名生成模型的解碼結果進行擴展包括:在所述別名生成模型的測試階段,利用集束搜索擴展解碼結果的數量。
5.根據權利要求1所述的別名生成方法,其特征在于,所述方法還包括:
利用所述序列標注策略對生成的多個別名進行合理性校驗;
校驗后篩選出最終的別名結果。
6.根據權利要求1~5任一項所述的別名生成方法,其特征在于,所述序列標注策略包括:
基于對實體名稱構成要素分析所訓練出的用于解析所述構詞成分的序列標注模型。
7.一種別名生成裝置,其特征在于,包括:
構詞成分解析模塊,用于利用預設的序列標注策略對命名實體的原始名稱進行解析,得到所述原始名稱的構詞成分;
模型輸入處理模塊,用于將所述構詞成分與所述原始名稱融合,并作為預先構建的具有編解碼結構的別名生成模型的輸入;
模型輸出處理模塊,用于對所述別名生成模型的解碼結果進行擴展,生成所述命名實體的多個別名。
8.根據權利要求7所述的別名生成裝置,其特征在于,所述構詞成分解析模塊具體包括基于對實體名稱構成要素分析所訓練出的用于解析所述構詞成分的序列標注模型。
9.一種別名生成設備,其特征在于,包括:
一個或多個處理器、存儲器以及一個或多個計算機程序,其中所述一個或多個計算機程序被存儲在所述存儲器中,所述一個或多個計算機程序包括指令,當所述指令被所述設備執行時,使得所述設備執行如權利要求1~6任一項所述的別名生成方法。
10.一種計算機程序產品,其特征在于,所述計算機程序產品在終端設備上運行時,使所述終端設備執行權利要求1~6任一項所述的別名生成方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥訊飛數碼科技有限公司,未經合肥訊飛數碼科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010059841.5/1.html,轉載請聲明來源鉆瓜專利網。





