[發明專利]文本斷句位置的識別方法及系統、電子設備及存儲介質在審
| 申請號: | 202010628393.6 | 申請日: | 2020-07-01 |
| 公開(公告)號: | CN111737991A | 公開(公告)日: | 2020-10-02 |
| 發明(設計)人: | 楊赫;羅超;胡泓 | 申請(專利權)人: | 攜程計算機技術(上海)有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/216;G06F40/211;G06F40/126;G06N3/04 |
| 代理公司: | 上海弼興律師事務所 31283 | 代理人: | 薛琦;張冉 |
| 地址: | 200335 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 斷句 位置 識別 方法 系統 電子設備 存儲 介質 | ||
本發明公開了文本斷句位置的識別方法及系統、電子設備及存儲介質,其中,文本斷句位置的識別方法包括以下步驟:接收語音識別后的文本數據,并將所述文本數據中的每個字符映射為字符向量;利用Bi?LSTM模型提取每個字符向量的語義特征,得到隱向量;對所述隱向量進行處理,并將處理后的隱向量輸入至CRF模型;使用維特比算法對CRF模型的輸出結果進行解碼,根據全局最優序列預測輸出所述字符向量的標簽;根據每個字符對應的標簽識別所述文本數據的所有斷句位置。本發明通過Bi?LSTM模型提取語義特征,利用CRF模型作為輸出層,實現了文本斷句位置的識別,進而提高了后續意圖識別、命名實體識別、分類任務等下游任務的準確率。
技術領域
本發明涉及信息技術領域,特別涉及一種文本斷句位置的識別方法及系統、電子設備及存儲介質。
背景技術
隨著人工智能技術的發展,很多重復性的工作將交由機器完成,客服機器人就是一種實例。要使客服機器人更好的服務于客戶和下游任務,比如客戶說的話的意圖識別、命名實體識別等的準確率是至關重要的。斷句功能在上述過程中起到一個橋梁作用。當客戶說的話因為長度過長,無法進行正確的意圖識別或者分類時,將長句截斷,即將長句變成短句,以提升后續意圖識別、命名實體識別、分類任務等的準確率。
當前,深度學習在人工智能領域應用廣泛,基于深度學習的模型,隨著層數的加寬和加深,能夠很好地實現特征提取的作用,相較于傳統的機器學習方法,利用深度學習做工程應用時,省去了人工提取特征的步驟,往往還能取得更好的效果。因此,深度學習在文本、圖像、音頻等領域都被廣泛地使用。
發明內容
本發明要解決的技術問題是為了克服現有技術中語音識別得到的文本數據由于未斷句導致后續意圖識別、命名實體識別、分類任務等下游任務準確率低下的缺陷,提供一種文本斷句位置的識別方法及系統、電子設備及存儲介質。
本發明是通過下述技術方案來解決上述技術問題:
本發明提供一種文本斷句位置的識別方法,包括以下步驟:
接收語音識別后的文本數據,并將所述文本數據中的每個字符映射為字符向量;
利用Bi-LSTM(Bidirectional Long Short-Term Memory,雙向長短期記憶網絡)模型提取每個字符向量的語義特征,得到隱向量;
對所述隱向量進行處理,并將處理后的隱向量輸入至CRF(conditional randomfield,條件隨機場)模型;
使用維特比算法對CRF模型的輸出結果進行解碼,根據全局最優序列預測輸出所述字符向量的標簽,其中,所述標簽用于表征所述字符后面是否為斷句位置;
根據每個字符對應的標簽識別所述文本數據的所有斷句位置。
較佳地,所述根據每個字符對應的標簽識別所述文本數據的所有斷句位置,具體包括以下步驟:
若目標字符對應的標簽表征所述目標字符后面為斷句位置,則判斷所述目標字符與下一個位置的字符組成的字符串是否為單詞;
若否,則識別所述目標字符后面為斷句位置。
較佳地,所述根據每個字符對應的標簽識別所述文本數據的所有斷句位置,具體包括以下步驟:
若目標字符對應的標簽表征所述目標字符后面為斷句位置,且所述目標字符為英文字符,則判斷所述目標字符的下一個位置是否為英文字符;
若否,則識別所述目標字符后面為斷句位置。
較佳地,基于以下步驟訓練所述Bi-LSTM模型和所述CRF模型:
對人工標記的目標文本數據添加用于表征是否為斷句位置的標簽;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于攜程計算機技術(上海)有限公司,未經攜程計算機技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010628393.6/2.html,轉載請聲明來源鉆瓜專利網。





