[發(fā)明專利]一種文本表示的生成方法及裝置有效
| 申請?zhí)枺?/td> | 201810032221.5 | 申請日: | 2018-01-12 |
| 公開(公告)號: | CN108287820B | 公開(公告)日: | 2021-06-11 |
| 發(fā)明(設計)人: | 蔣宏飛;趙紅紅;晉耀紅;楊凱程 | 申請(專利權)人: | 鼎富智能科技有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/242;G06F40/30 |
| 代理公司: | 北京弘權知識產(chǎn)權代理有限公司 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 230000 安徽省合肥市*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 表示 生成 方法 裝置 | ||
本申請?zhí)峁┮环N文本表示生成方法,所述方法使用前一個待處理字符的隱向量和當前待處理字符的字向量、句法結構向量、詞性標記向量、位置標記向量生成所述當前待處理字符的隱向量,并按照此方法逐字地生成所述待處理文本中所有待處理字符的隱向量,并將最后一個待處理字符的隱向量作為所述待處理文本的文本表示,能夠較為全面的包括所述待處理文本的特征信息,并且,本申請?zhí)峁┑姆椒▋H需要對待處理文本進行分字處理,而不需要進行分詞處理,由于分字處理出錯的可能極小,漢字的個數(shù)有限,因此,本申請?zhí)峁┑姆椒ū苊饬艘蚍衷~錯誤和低頻詞詞向量缺失而帶來的根源性錯誤,而且減少了存儲資源的占用。
技術領域
本申請涉及自然語言處理領域,特別涉及一種文本表示的方法及裝置。
背景技術
文本表示,也可以稱為語言表示,是對人類語言的一種描述或約定。在人工智能里,文本表示主要是指用對人類語言進行形式化或者數(shù)學化的描述,以便在計算機中表示人類語言,并能讓計算機程序自動處理人類語言。例如,詞向量就是一種文本表示,具體是用向量的形式來表示一個詞。
在人工智能領域,Encoder-Decoder模型(編碼-解碼模型)越來越被廣泛使用,比如被用于翻譯系統(tǒng)或者問答系統(tǒng)。圖1為一種使用序列到序列的自然語言對話系統(tǒng)的架構示意圖,如圖1所示,Encoder-Decoder模型包括編碼器和解碼器,它的作業(yè)流程通常包括編碼器獲取輸入信息,根據(jù)獲得的輸入信息生成隱狀態(tài)向量,并將隱狀態(tài)向量發(fā)送給解碼器,解碼器將接收到的隱狀態(tài)向量轉(zhuǎn)化成輸出信息,其中,編碼器在獲取客戶端輸入的文本內(nèi)容后,首先將客戶端輸入文本內(nèi)容轉(zhuǎn)化成對應的文本表示,再使用所述文本表示進行后續(xù)處理。
傳統(tǒng)的文本表示生成方法包括將待處理文本內(nèi)容進行分詞處理,得到多個字段,所述字段可以是單獨的一個字,也可以是由多個字組成的詞,再根據(jù)分詞處理得到的字段生成的詞向量,生成的詞向量就是所述分詞處理得到的字段的文本表示。
傳統(tǒng)的文本表示生成方法中通常只標記字段的詞向量,因此,傳統(tǒng)的文本表示生成方法無法包含該字段的其它屬性信息。此外,由于現(xiàn)有分詞處理的技術尚不成熟,分詞處理結果的正確率難以保證,導致傳統(tǒng)的文本表示生成方法可能在輸入文本信息時就發(fā)生根源性的錯誤。而且,由于用多個字組成的詞的數(shù)量龐大,難以形成全覆蓋的數(shù)據(jù)庫,不常用詞經(jīng)常被遺漏,因此,一旦待處理文本內(nèi)容中出現(xiàn)不常用詞就會導致文本表示中有信息丟失。
發(fā)明內(nèi)容
本申請?zhí)峁┮环N文本表示的生成方法,以解決由于分詞不當造成的文本表示根源性錯誤,以及傳統(tǒng)文本表示方法得到的文本表示存在特征信息缺失和特征信息遺漏的問題。
所述文本表示的生成方法包括:
獲取待處理文本,所述待處理文本包括至少兩個待處理字符;生成第i個待處理字符對應的第i總向量,所述第i總向量由第i個待處理字符的字向量、句法結構向量、詞性標記向量和位置標記向量拼接而成,其中,i=1,2,……,n,n為所述待處理文本中待處理字符的個數(shù);使用所述第i總向量和第(i-1)隱向量生成所述第i個待處理字符對應的第i隱向量,其中,第0隱向量為預設隱向量;如果i=n,則生成待處理文本的文本表示,所述待處理文本的文本表示為第n個待處理字符對應的第n隱向量。
本申請?zhí)峁┑姆椒ㄊ腔谏疃壬窠?jīng)網(wǎng)絡模型的自然語言對話系統(tǒng)的文本表示生成方法,該方法不使用詞向量,而是使用字向量,不僅避免了由于分詞錯誤導致的文本表示根源性錯誤,而且由于漢字的個數(shù)遠小于詞的個數(shù),所以字向量占用的數(shù)據(jù)庫資源少,不會遺漏用戶輸入待處理文本的特征信息,而且,該方法不僅考慮了字向量還考慮了句法結構向量、詞性結構向量和位置向量,因此用本申請?zhí)峁┑姆椒ㄉ傻奈谋颈硎灸軌蚍从吵鲇脩糨斎氪幚砦谋镜娜刻卣餍畔ⅰ?/p>
在一種可實現(xiàn)的方式中,在所述生成第i個待處理字符對應的第i總向量之前,所述方法還包括:
獲取第i個待處理字符的字向量、句法結構向量、詞性標記向量和位置標記向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鼎富智能科技有限公司,未經(jīng)鼎富智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810032221.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





