[發(fā)明專利]問答對的生成方法和裝置在審
| 申請?zhí)枺?/td> | 201910420007.1 | 申請日: | 2019-05-20 |
| 公開(公告)號: | CN110196929A | 公開(公告)日: | 2019-09-03 |
| 發(fā)明(設計)人: | 崔建青;劉璟 | 申請(專利權)人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F16/9032 | 分類號: | G06F16/9032 |
| 代理公司: | 北京清亦華知識產(chǎn)權代理事務所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 子標題 拼接 預設 方法和裝置 文本標題 文本信息 文本信息內(nèi)容 策略確定 問答服務 用戶提供 用戶問題 構建 解析 篩選 應用 | ||
1.一種問答對的生成方法,其特征在于,包括以下步驟:
獲取待解析的文本信息,并提取所述文本信息中的文本標題和多級子標題;
獲取與所述多級子標題中的預設級別的第一子標題,并確定與所述第一子標題對應的擴展標題;
在所述多級子標題中,確定與所述第一子標題對應的第二子標題,其中,所述第二子標題的等級高于所述預設級別;
將所述文本標題和所述第二子標題與所述第一子標題及其對應的擴展標題中的每個標題拼接,獲取多個拼接候選問題;
根據(jù)所述多個拼接候選問題確定目標拼接問題;
根據(jù)所述目標拼接問題和所述第一子標題包括的段落內(nèi)容構建問答對。
2.如權利要求1所述的方法,其特征在于,所述并確定與所述第一子標題對應的擴展標題,包括:
獲取針對所述文本信息的點擊日志信息,以及與所述日志信息對應的搜索詞集合;
提取所述搜索詞集合中的實體詞,并對包含同樣實體詞的搜索詞泛化處理獲取共現(xiàn)短語;
根據(jù)所述共現(xiàn)短語生成所述擴展標題。
3.如權利要求2所述的方法,其特征在于,所述根據(jù)所述多個拼接候選問題確定目標拼接問題,包括:
獲取所述多個拼接候選問題中的每個拼接候選問題和所述搜索詞集合中每個搜索詞的相似度;
確定所述相似度大于預設閾值的候選搜索詞;
計算所述候選搜索詞和對應的拼接候選問題中的第一子標題的段落內(nèi)容的相關度;
根據(jù)所述相似度和所述相關度在所述候選搜索詞中確定目標搜索詞,并根據(jù)所述目標搜索詞生成所述目標拼接問題。
4.如權利要求1所述的方法,其特征在于,所述根據(jù)所述多個拼接候選問題確定目標拼接問題,包括:
獲取針對所述文本信息的點擊日志信息,以及與所述日志信息對應的搜索詞集合;
獲取所述多個拼接候選問題中的每個拼接候選問題和所述搜索詞集合中搜索詞的第一相似度;
獲取所述第一子標題的段落內(nèi)容,并計算所述段落內(nèi)容和所述搜索詞集合中搜索詞的第二相似度;
根據(jù)所述第一相似度和所述第二相似度計算得到所述每個拼接候選問題的相似度得分;
根據(jù)所述相似度得分篩選出所述多個拼接候選問題中的目標拼接問題。
5.如權利要求1所述的方法,其特征在于,所述根據(jù)所述多個拼接候選問題確定目標拼接問題,包括:
將所述多個拼接候選問題輸入預先訓練的深度模型;
獲取所述深度模型輸出的所述目標拼接問題。
6.如權利要求1所述的方法,其特征在于,在所述并確定與所述第一子標題對應的擴展標題之前,還包括:
識別所述預設級別的第一子標題和所述第二子標題中的主體內(nèi)容;
去除所述第一子標題和所述第二子標題中的非主體內(nèi)容。
7.一種問答對的生成裝置,其特征在于,包括:
提取模塊,用于獲取待解析的文本信息,并提取所述文本信息中的文本標題和多級子標題;
第一獲取模塊,用于獲取與所述多級子標題中的預設級別的第一子標題,并確定與所述第一子標題對應的擴展標題;
第一確定模塊,用于在所述多級子標題中,確定與所述第一子標題對應的第二子標題,其中,所述第二子標題的等級高于所述預設級別;
第二獲取模塊,用于將所述文本標題和所述第二子標題與所述第一子標題及其對應的擴展標題中的每個標題拼接,獲取多個拼接候選問題;
第二確定模塊,用于根據(jù)所述多個拼接候選問題確定目標拼接問題;
構建模塊,用于根據(jù)所述目標拼接問題和所述第一子標題包括的段落內(nèi)容構建問答對。
8.如權利要求7所述的裝置,其特征在于,所述第一獲取模塊,包括:
第一獲取單元,用于獲取針對所述文本信息的點擊日志信息,以及與所述日志信息對應的搜索詞集合;
第二獲取單元,用于提取所述搜索詞集合中的實體詞,并對包含同樣實體詞的搜索詞泛化處理獲取共現(xiàn)短語;
生成單元,用于根據(jù)所述共現(xiàn)短語生成所述擴展標題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910420007.1/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





