[發明專利]短文本的生成方法、裝置、存儲介質和終端設備有效
| 申請號: | 201810712807.6 | 申請日: | 2018-06-29 |
| 公開(公告)號: | CN108959256B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 王臻;劉家辰;肖欣延;呂雅娟 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/30;G06F40/186 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 生成 方法 裝置 存儲 介質 終端設備 | ||
1.一種短文本的生成方法,其特征在于,包括:
獲取用于生成短文本的槽位詞;
根據所述槽位詞,提取與所述槽位詞關聯的短文本模板;其中,所述短文本模板預先與所述槽位詞關聯存儲;所述短文本模板包括內嵌有槽位的短文本;
將所述槽位詞填入所述短文本模板中與所述槽位詞匹配的槽位,生成短文本;
根據變分自編碼器模型的編碼器,對所述槽位詞進行編碼,獲得與所述槽位詞對應的短文本的隱向量,對所述隱向量進行調整,獲得泛化隱向量,根據所述變分自編碼器模型的解碼器,對所述隱向量和所述泛化隱向量進行解碼,獲得短文本;
根據待生成的短文本模板的文本領域和文本屬性,確定所述短文本模板包含的關鍵詞;其中,所述文本領域包括類目名稱,所述文本屬性包括十大、排列、榜單、榜首、熱搜或排名;
根據所述短文本模板包含的關鍵詞,從搜索日志的查詢標題中檢索候選標題;其中,所述搜索日志用于記載搜索引擎所執行的搜索和包含所述查詢標題的搜索結果;所述查詢標題包含關鍵詞;
根據實體詞類型,確定所述候選標題中的實體詞;其中,所述實體詞類型包括地點和時間;以及
以所述實體詞作為槽位詞,將所述槽位詞從所述候選標題中去除,得到新的短文本模板,并將所述槽位詞與所述新的短文本模板關聯存儲;其中,所述新的短文本模板為榜單標題模板。
2.如權利要求1所述的短文本的生成方法,其特征在于,所述方法還包括:
根據預設的短文本模板的過濾詞,從所述候選標題中排除包含所述過濾詞的候選標題。
3.如權利要求2所述的短文本的生成方法,其特征在于,所述方法還包括:
對檢索到的候選標題進行去重;以及
將生成的短文本模板進行去重,并將去重的短文本模板關聯的槽位詞進行合并。
4.如權利要求1至3中任一項所述的短文本的生成方法,其特征在于,包括:
將用于生成短文本的槽位詞和根據所述槽位詞生成的短文本組成訓練數據;
利用所述訓練數據訓練得到序列生成模型,所述序列生成模型用于利用輸入的槽位詞輸出對應的短文本。
5.如權利要求4所述的短文本的生成方法,其特征在于,所述序列生成模型包括基于注意力機制的序列生成模型,所述訓練數據還包括根據所述槽位詞生成的短文本時所利用到的短文本模板所包括的關鍵詞。
6.如權利要求4所述的短文本的生成方法,其特征在于,所述序列生成模型包括所述變分自編碼器模型。
7.如權利要求4所述的短文本的生成方法,其特征在于,所述方法還包括:
將所述訓練數據中的槽位詞輸入所述序列生成模型進行計算;
將計算結果與所述訓練數據中的短文本進行比對,以調整所述序列生成模型;其中,所述計算的方式包括網絡集束搜索的優化方式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810712807.6/1.html,轉載請聲明來源鉆瓜專利網。





