[發明專利]樣本確定方法及裝置在審
| 申請號: | 201710986853.0 | 申請日: | 2017-10-20 |
| 公開(公告)號: | CN107918640A | 公開(公告)日: | 2018-04-17 |
| 發明(設計)人: | 毛德峰;胡翔;王雅芳 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京眾達德權知識產權代理有限公司11570 | 代理人: | 劉杰 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 確定 方法 裝置 | ||
技術領域
本說明書實施例涉及互聯網技術領域,尤其涉及一種樣本確定方法及裝置。
背景技術
在各類應用程序(Application,APP)或網站使用過程中,用戶往往因為各類原因進行操作方式或業務方面的詢問。例如,用戶在使用一款金融類APP時,可能會提出“如何查看額度”等類似問題,APP或網站需要對用戶輸入的各類問題進行句意識別,才能給出對應的答案。
發明內容
本說明書實施例提供及一種樣本確定方法及裝置,用于確定句意相似度識別中的訓練樣本。
第一方面,本說明書實施例提供一種樣本確定方法,用于確定句意相似度識別中的訓練樣本,包括:獲取多條原始問句;對所述原始問句進行句法分析,得到主謂賓三元組;根據所述主謂賓三元組對原始問句進行聚類,得到至少一個問句簇;基于所述問句簇對應的標準問句,對所述問句簇中的各個原始問句進行標注,得到正樣本和負樣本。
第二方面,本說明書實施例提供一種句意相似度識別方法,包括:獲取用戶輸入的待識別問句;將所述待識別問句與各個標準問句輸入到句意相似度識別模型,得到所述待識別問句與各標準問句的相似度;其中,所述句意相似度識別模型是利用至少一個問句簇中標注的正樣本和負樣本作為訓練數據訓練得到,所述問句簇是根據原始問句的主謂賓三元組對多條原始問句進行聚類得到的。
第三方面,本說明書實施例提供一種樣本確定裝置,用于確定句意相似度識別中的訓練樣本,包括:問句獲取單元,用于獲取多條原始問句;句法分析單元,用于對所述原始問句進行句法分析,得到主謂賓三元組;聚類單元,用于根據所述主謂賓三元組對原始問句進行聚類,得到至少一個問句簇;標注單元,用于基于所述問句簇對應的標準問句,對所述問句簇中的各個原始問句進行標注,得到正樣本和負樣本。
第四方面,本說明書實施例提供一種句意相似度識別設備,包括:模型訓練裝置:用于利用上述任一項樣本確定裝置確定的正樣本和負樣本作為訓練數據,訓練得到句意相似度識別模型;相似度識別裝置,用于將獲取的待識別問句輸入各個標準問句對應的句意相似度識別模型,得到所述待識別問句與各標準問句的相似度。
本說明書實施例有益效果如下:
可見,本說明書實施例基于業務問答領域,雖然用戶問句描述方式多樣,但問句中核心主要信息相對固定,因此提出一種通過主謂賓(SVO)三元組方式刻畫并理解用戶意圖方式,通過對問句中SVO進行抽取識別后進行聚類,由每個問句簇進行標注,可提升對標準問句及長尾問題的覆蓋,同時提升識別準確率,提升問答系統對用戶問題的識別能力。
附圖說明
圖1為本說明書實施例句意識別應用場景示意圖;
圖2本說明書實施例第一方面提供的樣本確定方法流程圖;
圖3本說明書實施例第一方面提供的樣本確定方法示意圖;
圖4本說明書實施例第一方面提供的樣本確定方法中主謂賓三元組示意圖;
圖5本說明書實施例第一方面提供的樣本確定方法中問句簇示意圖;
圖6本說明書實施例提供的句意相似度識別模型訓練的方法流程圖;
圖7本說明書實施例第二方面提供的句意相似度識別方法流程圖;
圖8本說明書實施例第三方面提供的樣本確定裝置結構示意圖;
圖9本說明書實施例第四方面提供的句意相似度識別裝置結構示意圖。
具體實施方式
為了更好的理解上述技術方案,下面通過附圖以及具體實施例對本說明書實施例的技術方案做詳細的說明,應當理解本說明書實施例以及實施例中的具體特征是對本說明書實施例技術方案的詳細的說明,而不是對本說明書技術方案的限定,在不沖突的情況下,本說明書實施例以及實施例中的技術特征可以相互組合。
本說明書實施例可應用在各類網站或APP中對用戶問句進行解答的場景下。為了準確的為用戶提供問句答案,需要對用戶問句進行句意識別。參見圖1,為句意識別場景示意圖。客戶端10是指用戶終端,例如包括個人電腦、pad、手機等;服務器20是指網站或APP的網絡側服務器。客戶端10向服務器20發起問句;服務器20向客戶端10返回問句答案。其中,服務器20中設置用于實現句意識別的句意相似度識別模型,該句意相似度識別模型對問句進行識別,從而可對應確定該問句對應的答案。
為了實現準確的句意識別,如何高效、準確的訓練句意相似度識別模型是一個需要考慮的問題。這其中,確定訓練樣本是準確進行模型訓練的前提。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710986853.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:微流體裝置及其用途與使用方法
- 下一篇:將物質遞送至無核細胞





