[發明專利]短文本的生成方法、裝置、存儲介質和終端設備有效
| 申請號: | 201810712807.6 | 申請日: | 2018-06-29 |
| 公開(公告)號: | CN108959256B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 王臻;劉家辰;肖欣延;呂雅娟 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/30;G06F40/186 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 生成 方法 裝置 存儲 介質 終端設備 | ||
本發明提出一種短文本的生成方法、裝置、存儲介質和終端設備,其中,所述方法包括:獲取用于生成短文本的槽位詞;根據所述槽位詞,提取與所述槽位詞關聯的短文本模板;其中,所述短文本模板預先與所述槽位詞關聯存儲;所述短文本模板包括內嵌有槽位的短文本;以及將所述槽位詞填入所述短文本模板中與所述槽位詞匹配的槽位,生成短文本。采用本發明,可以實現生成過程的語義可控。
技術領域
本發明涉及計算機技術領域,尤其涉及一種短文本的生成方法、裝置、存儲介質和終端設備。
背景技術
隨著互聯網的發展,網上信息也隨之膨脹。在信息量不斷拓展的情況下,如果需要保證人工編緝的的深度和廣度,則人工編緝的效率低?;诖?,利用機器來實現文本自動生成的技術隨之應運而生,很大程度上可以節省人工編輯的時間和精力,提高編緝的效率。但是,機器生成的內容難以控制,容易出現與預先設定的語義不匹配的情況。因而,如何在文本生成的過程中保證語義的可控性是目前亟需解決的問題之一。
發明內容
本發明實施例提供一種短文本的生成方法、裝置、存儲介質和終端設備,以解決或緩解現有技術中的以上一個或多個技術問題。
第一方面,本發明實施例提供了一種短文本的生成方法,包括:
獲取用于生成短文本的槽位詞;
根據所述槽位詞,提取與所述槽位詞關聯的短文本模板;其中,所述短文本模板預先與所述槽位詞關聯存儲;所述短文本模板包括內嵌有槽位的短文本;以及
將所述槽位詞填入所述短文本模板中與所述槽位詞匹配的槽位,生成短文本。
結合第一方面,在第一方面的第一種實施方式中,所述方法還包括:
根據待生成的短文本模板的文本領域和文本屬性,確定所述短文本模板包含的關鍵詞;
根據所述短文本模板包含的關鍵詞,從搜索日志的查詢標題中檢索候選標題;其中,所述搜索日志用于記載搜索引擎所執行的搜索和包含所述查詢標題的搜索結果;所述查詢標題包含關鍵詞;
根據實體詞類型,確定所述候選標題的實體詞;以及
以所述實體詞作為槽位詞,將所述槽位詞從所述候選標題中去除,生成所述短文本模板,并將所述槽位詞與所述短文本模板關聯存儲。
結合第一方面的第一種實施方式,在第一方面的第二種實施方式中,所述方法還包括:
根據預設的短文本模板的過濾詞,從所述候選標題中排除包含所述過濾詞的候選標題。
結合第一方面的第一種實施方式,在第一方面的第三種實施方式中,所述方法還包括:
對檢索到的候選標題進行去重;以及
將生成的短文本模板進行去重,并將去重的短文本模板關聯的槽位詞進行合并。
結合第一方面或其任一種實施方式,在第一方面的第四種實施方式中,包括:
將用于生成短文本的槽位詞和根據所述槽位詞生成的短文本組成訓練數據;
利用所述訓練數據訓練得到序列生成模型,所述序列生成模型用于利用輸入的槽位詞輸出對應的短文本。
結合第一方面的第四種實施方式,在第一方面的第五種實施方式中,所述序列生成模型包括基于注意力機制的序列生成模型,所述訓練數據還包括根據所述槽位詞生成的短文本時所利用到的短文本模板所包括的關鍵詞。
結合第一方面的第四種實施方式,在第一方面的第六種實施方式中,所述序列生成模型包括變分自編碼器模型;以及所述方法還包括:
根據所述變分自編碼器模型的編碼器,對所述槽位詞進編碼,獲得與所述槽位詞對應的短文本的隱向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810712807.6/2.html,轉載請聲明來源鉆瓜專利網。





