[發(fā)明專利]一種電子裝置、多標簽分類方法及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201811529912.2 | 申請日: | 2018-12-14 |
| 公開(公告)號: | CN109783801B | 公開(公告)日: | 2023-08-25 |
| 發(fā)明(設計)人: | 劉俊;肖龍源;蔡振華;李稀敏;劉曉葳;譚玉坤 | 申請(專利權(quán))人: | 廈門快商通信息技術(shù)有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F16/33;G06F16/35 |
| 代理公司: | 廈門仕誠聯(lián)合知識產(chǎn)權(quán)代理事務所(普通合伙) 35227 | 代理人: | 樂珠秀 |
| 地址: | 361007 福建省廈門*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 電子 裝置 標簽 分類 方法 存儲 介質(zhì) | ||
1.一種電子裝置,其特征在于,
所述電子裝置包括存儲器及與所述存儲器連接的處理器,所述存儲器中存儲有可在所述處理器上運行的處理系統(tǒng),所述處理系統(tǒng)被所述處理器執(zhí)行時實現(xiàn)如下步驟:
零代詞的識別與消解步驟:
將待分類語句進行零代詞的識別與消解以獲得擴充語句,所述零代詞是待分類語句中可識別的短語或詞的空位,所述零代詞指代名詞短語以及其他各種詞性的字詞或者短語;
所述零代詞的識別與消解步驟,具體包括:
采用全模式的結(jié)巴分詞將待分類語句切分獲得候選先行語集合;
利用第一循環(huán)神經(jīng)網(wǎng)絡,根據(jù)零代詞的上文進行特征學習,得到零代詞上文向量表示,同時利用通用的注意力模型計算其對每個候選先行語中的每個字進行注意力計算,根據(jù)注意力將每個字的向量加權(quán)平均得到候選先行語的表示,將候選先行語的表示與零代詞的上文向量表示拼接在一起,通過第一前饋神經(jīng)網(wǎng)絡來計算該候選先行語是否是該零代詞先行語的概率;
利用第二循環(huán)神經(jīng)網(wǎng)絡,根據(jù)零代詞的下文進行特征學習,得到零代詞下文向量表示,同時利用通用的注意力模型計算其對每個候選先行語中的每個字進行注意力計算,根據(jù)注意力將每個字的向量加權(quán)平均得到候選先行語的表示,將候選先行語的表示與零代詞的下文向量表示拼接在一起,通過第二前饋神經(jīng)網(wǎng)絡來計算該候選先行語是否是該零代詞先行語的概率;
語句拆分步驟:
將所述擴充語句進行句法分析,提取所述擴充語句中的并列關系項;通過替換或者標記訓練將所述擴充語句進行拆分形成若干個拆句;
或者針對性地設計語料標注,人工標記指代消解后的擴充語句中的并列關系項以及其他項,訓練一個句子拆分的Bi-LSTM-CRF模型,使用訓練后的拆分Bi-LSTM-CRF模型對所述擴充語句進行分類拆分形成若干個拆句;所述其他項包含共享項與刪除項;
所述處理系統(tǒng)被所述處理器執(zhí)行時還實現(xiàn)意圖識別步驟,
所述意圖識別步驟:將語句拆分步驟獲得的若干個拆句分別作為單意圖識別的模型輸入,獲得多個意圖。
2.根據(jù)權(quán)利要求1所述的電子裝置,其特征在于,
所述擴充語句進行句法分析是采用Stanford?NLP?工具中的句法分析功能,對零代詞消解后得到的擴充語句進行句法分析得到句法結(jié)構(gòu)樹,提取所述擴充語句中的并列關系項。
3.一種多標簽分類方法,其特征在于,所述多標簽分類方法包括:
零代詞的識別與消解步驟:
將待分類語句進行零代詞的識別與消解以獲得擴充語句,所述零代詞是待分類語句中可識別的短語或詞的空位,所述零代詞指代名詞短語以及其他各種詞性的字詞或者短語;
所述零代詞的識別與消解步驟,具體包括:
采用全模式的結(jié)巴分詞將待分類語句切分獲得候選先行語集合;
利用第一循環(huán)神經(jīng)網(wǎng)絡,根據(jù)零代詞的上文進行特征學習,得到零代詞上文向量表示,同時利用通用的注意力模型計算其對每個候選先行語中的每個字進行注意力計算,根據(jù)注意力將每個字的向量加權(quán)平均得到候選先行語的表示,將候選先行語的表示與零代詞的上文向量表示拼接在一起,通過第一前饋神經(jīng)網(wǎng)絡來計算該候選先行語是否是該零代詞先行語的概率;
利用第二循環(huán)神經(jīng)網(wǎng)絡,根據(jù)零代詞的下文進行特征學習,得到零代詞下文向量表示,同時利用通用的注意力模型計算其對每個候選先行語中的每個字進行注意力計算,根據(jù)注意力將每個字的向量加權(quán)平均得到候選先行語的表示,將候選先行語的表示與零代詞的下文向量表示拼接在一起,通過第二前饋神經(jīng)網(wǎng)絡來計算該候選先行語是否是該零代詞先行語的概率;
語句拆分步驟:
將所述擴充語句進行句法分析,提取所述擴充語句中的并列關系項;通過替換或者標記訓練將所述擴充語句進行拆分形成若干個拆句;
或者針對性地設計語料標注,人工標記指代消解后的擴充語句中的并列關系項以及其他項,訓練一個句子拆分的Bi-LSTM-CRF模型,使用訓練后的拆分Bi-LSTM-CRF模型對所述擴充語句進行分類拆分形成若干個拆句;所述其他項包含共享項與刪除項;
所述多標簽分類方法還包括,
意圖識別步驟:將語句拆分步驟獲得的若干個拆句分別作為單意圖識別的模型輸入,獲得多個意圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門快商通信息技術(shù)有限公司,未經(jīng)廈門快商通信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811529912.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





