[發(fā)明專利]用于問題回答(QA)的對(duì)仗學(xué)習(xí)在審
| 申請(qǐng)?zhí)枺?/td> | 202010064971.8 | 申請(qǐng)日: | 2020-01-20 |
| 公開(公告)號(hào): | CN113139119A | 公開(公告)日: | 2021-07-20 |
| 發(fā)明(設(shè)計(jì))人: | 公明;楊澤;壽林鈞;姜大昕 | 申請(qǐng)(專利權(quán))人: | 微軟技術(shù)許可有限責(zé)任公司 |
| 主分類號(hào): | G06F16/9535 | 分類號(hào): | G06F16/9535;G06F16/332 |
| 代理公司: | 永新專利商標(biāo)代理有限公司 72002 | 代理人: | 張立達(dá) |
| 地址: | 美國(guó)華*** | 國(guó)省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 問題 回答 qa 對(duì)仗 學(xué)習(xí) | ||
1.一種用于提供對(duì)仗訓(xùn)練數(shù)據(jù)的方法,包括:
從訓(xùn)練數(shù)據(jù)集中獲得一個(gè)正例,所述正例包括被標(biāo)記為相關(guān)的第一文本和第二文本;
從搜索日志中提取對(duì)仗信息;
至少基于所述對(duì)仗信息來修改所述第一文本;以及
將經(jīng)修改的第一文本和所述第二文本組合成與所述正例對(duì)仗的反例,所述經(jīng)修改的第一文本和所述第二文本在所述反例中被標(biāo)記為不相關(guān)。
2.如權(quán)利要求1所述的方法,其中,所述從搜索日志中提取對(duì)仗信息包括:
從所述搜索日志中提取至少一個(gè)多輪搜索會(huì)話;以及
利用所述至少一個(gè)多輪搜索會(huì)話中的查詢,生成對(duì)仗詞對(duì)集合。
3.如權(quán)利要求2所述的方法,其中,
所述至少一個(gè)多輪搜索會(huì)話具有相同的第一輪查詢。
4.如權(quán)利要求2所述的方法,其中,所述生成對(duì)仗詞對(duì)集合包括:
從所述至少一個(gè)多輪搜索會(huì)話中的所述查詢中提取候選項(xiàng);
利用半結(jié)構(gòu)化數(shù)據(jù)語料庫(kù),將所述候選項(xiàng)聚類成一個(gè)或多個(gè)組;以及
將每個(gè)組中的任意兩個(gè)候選項(xiàng)組合成一個(gè)對(duì)仗詞對(duì)。
5.如權(quán)利要求4所述的方法,其中,所述提取候選項(xiàng)包括:
對(duì)于每個(gè)多輪搜索會(huì)話,將每?jī)蓚€(gè)相鄰查詢中的未共享的詞語提取作為候選項(xiàng)。
6.如權(quán)利要求4所述的方法,其中,所述聚類包括:
對(duì)于所述候選項(xiàng)中的兩個(gè)目標(biāo)候選項(xiàng),至少基于所述兩個(gè)目標(biāo)候選項(xiàng)在所述半結(jié)構(gòu)化數(shù)據(jù)語料庫(kù)中的出現(xiàn)信息,計(jì)算所述兩個(gè)目標(biāo)候選項(xiàng)之間的相似性。
7.如權(quán)利要求4所述的方法,其中,所述聚類包括:
通過貪婪聚類方式,確定所述候選項(xiàng)中的每個(gè)候選項(xiàng)所對(duì)應(yīng)的組。
8.如權(quán)利要求4所述的方法,其中,
所述半結(jié)構(gòu)化數(shù)據(jù)語料庫(kù)中的半結(jié)構(gòu)化數(shù)據(jù)屬于以下類型中的至少一種:web表格、web列表、以及web菜單。
9.如權(quán)利要求4所述的方法,還包括:
識(shí)別包括兩個(gè)或更多同義候選項(xiàng)的組;以及
僅在所述組中保留所述兩個(gè)或更多同義候選項(xiàng)中的一個(gè)候選項(xiàng)。
10.如權(quán)利要求2所述的方法,其中,所述修改所述第一文本包括:
識(shí)別被包括在所述第一文本中、并且被包括在所述對(duì)仗詞對(duì)集合里的一個(gè)對(duì)仗詞對(duì)中的目標(biāo)詞語;以及
在所述第一文本中,將所述目標(biāo)詞語替換成所述對(duì)仗詞對(duì)中的另一詞語。
11.如權(quán)利要求1所述的方法,其中,所述從搜索日志中提取對(duì)仗信息包括:
從所述搜索日志中確定與所述第一文本對(duì)應(yīng)的對(duì)仗查詢。
12.如權(quán)利要求11所述的方法,其中,所述確定對(duì)仗查詢包括:
從所述搜索日志中確定與所述第一文本相關(guān)的至少一個(gè)相關(guān)查詢;
對(duì)于每個(gè)相關(guān)查詢,至少基于所述搜索日志中與所述正例對(duì)應(yīng)的搜索記錄和與所述相關(guān)查詢對(duì)應(yīng)的搜索記錄,計(jì)算所述第一文本與所述相關(guān)查詢之間的對(duì)仗參數(shù)值;以及
從所述至少一個(gè)相關(guān)查詢中選擇具有符合預(yù)定標(biāo)準(zhǔn)的對(duì)仗參數(shù)值的相關(guān)查詢作為所述對(duì)仗查詢。
13.如權(quán)利要求12所述的方法,其中,所述計(jì)算對(duì)仗參數(shù)值包括:
基于與所述正例對(duì)應(yīng)的搜索記錄和與所述相關(guān)查詢對(duì)應(yīng)的搜索記錄,確定所述第一文本與所述相關(guān)查詢之間共同顯示的鏈接數(shù)量和共同點(diǎn)擊的鏈接數(shù)量;以及
至少基于所述共同顯示的鏈接數(shù)量和所述共同點(diǎn)擊的鏈接數(shù)量,計(jì)算所述第一文本與所述相關(guān)查詢之間的所述對(duì)仗參數(shù)值。
14.如權(quán)利要求11所述的方法,其中,所述修改所述第一文本包括:
將所述第一文本替換為所述對(duì)仗查詢。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于微軟技術(shù)許可有限責(zé)任公司,未經(jīng)微軟技術(shù)許可有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010064971.8/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





