[發(fā)明專利]基于源問題生成相似問題的方法和裝置在審
| 申請?zhí)枺?/td> | 202010410003.8 | 申請日: | 2020-05-15 |
| 公開(公告)號: | CN111309893A | 公開(公告)日: | 2020-06-19 |
| 發(fā)明(設計)人: | 彭爽;崔恒斌 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33 |
| 代理公司: | 北京億騰知識產權代理事務所(普通合伙) 11309 | 代理人: | 孫欣欣;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 問題 生成 相似 方法 裝置 | ||
本說明書實施例提供一種基于源問題生成相似問題的方法和裝置,方法包括:獲取源問題;對所述源問題進行分詞處理,得到多個分詞;從所述多個分詞中提取至少一個關鍵詞,并獲取所述至少一個關鍵詞的同義詞和/或近義詞,作為輔助信息;將所述輔助信息和所述源問題輸入文本生成模型,通過所述文本生成模型輸出所述源問題的相似問題。能夠提升知識庫中的標準問題對用戶問題的覆蓋率。
技術領域
本說明書一個或多個實施例涉及計算機領域,尤其涉及基于源問題生成相似問題的方法和裝置。
背景技術
由于語言表達的多樣性,常常存在表達形式不同但語義相同的多個問題,在多種場景中,例如智能客服場景,由于用戶表達的多樣性,常常會出現不同的用戶表達實質上想問的問題是相同的,因此需要預先確定標準問題,以便于與多種用戶表達相匹配。
現有技術中,人工確定的標準問題常常無法覆蓋多種用戶表達的用戶問題。
因此,希望能有改進的方案,能夠提升知識庫中的標準問題對用戶問題的覆蓋率。
發(fā)明內容
本說明書一個或多個實施例描述了一種基于源問題生成相似問題的方法和裝置,能夠提升知識庫中的標準問題對用戶問題的覆蓋率。
第一方面,提供了一種基于源問題生成相似問題的方法,方法包括:
獲取源問題;
對所述源問題進行分詞處理,得到多個分詞;
從所述多個分詞中提取至少一個關鍵詞,并獲取所述至少一個關鍵詞的同義詞和/或近義詞,作為輔助信息;
將所述輔助信息和所述源問題輸入文本生成模型,通過所述文本生成模型輸出所述源問題的相似問題。
在一種可能的實施方式中,所述文本生成模型包括編碼器和解碼器;
所述將所述輔助信息和所述源問題輸入文本生成模型,通過所述文本生成模型輸出所述源問題的相似問題,包括:
將所述輔助信息和所述源問題輸入所述編碼器,得到語義向量;
將所述語義向量輸入所述解碼器,得到所述源問題的相似問題。
在一種可能的實施方式中,所述文本生成模型包括第一編碼器、第二編碼器、解碼器、第一交互層和第二交互層;
所述將所述輔助信息和所述源問題輸入文本生成模型,通過所述文本生成模型輸出所述源問題的相似問題,包括:
將所述輔助信息輸入所述第一編碼器,得到所述輔助信息包括的各字符分別對應的第一字符編碼向量;
將所述源問題輸入所述第二編碼器,得到所述源問題包括的各字符分別對應的第二字符編碼向量;
將所述第一字符編碼向量和所述第二字符編碼向量輸入所述第一交互層,以使所述第一交互層得到所述第二字符編碼向量的注意力權重,并基于該注意力權重對所述第二字符編碼向量進行加權求和,得到所述源問題對應的第一語義向量;
將所述第一字符編碼向量和所述第二字符編碼向量輸入所述第二交互層,以使所述第二交互層得到所述第一字符編碼向量的注意力權重,并基于該注意力權重對所述第一字符編碼向量進行加權求和,得到所述輔助信息對應的第二語義向量;
將所述第一語義向量和所述第二語義向量輸入所述解碼器,得到所述源問題的相似問題。
在一種可能的實施方式中,所述文本生成模型為強化學習模型;所述將所述輔助信息和所述源問題輸入文本生成模型,通過所述文本生成模型輸出所述源問題的相似問題,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010410003.8/2.html,轉載請聲明來源鉆瓜專利網。





