[發明專利]基于復雜數據類型的FAQ知識庫自動生成方法和裝置有效
| 申請號: | 202011637578.X | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112800177B | 公開(公告)日: | 2021-09-07 |
| 發明(設計)人: | 郭司緒;錢泓錦;楊玉樹;劉占亮;竇志成;曹崗;文繼榮 | 申請(專利權)人: | 北京智源人工智能研究院 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F16/951;G06K9/62 |
| 代理公司: | 北京動力號知識產權代理有限公司 11775 | 代理人: | 梁艷;白婉露 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 復雜 數據類型 faq 知識庫 自動 生成 方法 裝置 | ||
1.一種基于復雜數據類型的FAQ知識庫自動生成方法,其特征在于,包括:
識別文檔中不同格式的數據,所述不同格式的數據包括段落型文本數據、普通文本數據和非文本數據;
對所述段落型文本數據進行模式識別,生成標題字段和內容字段;
對所述非文本數據進行自然語言生成處理,得到自然語言文本;
根據所述標題字段和內容字段生成第一問答對集合,根據所述自然語言文本和普通文本數據生成第二問答對集合;
將所述第一問答對集合和第二問答對集合加入所述FAQ知識庫;
所述非文本數據包括表格數據、圖像數據和/或視頻數據;
所述對所述非文本數據進行自然語言生成處理,得到自然語言文本包括:
對于表格數據,使用預先訓練的表格模型生成所述自然語言文本;
對于圖像數據,識別所述圖像數據中的文字,并基于圖像識別生成自然語言描述,組合上述文字和自然語言描述生成所述自然語言文本;
對于視頻數據,根據預先訓練的視頻模型生成所述自然語言文本;
所述根據所述自然語言文本和普通文本數據生成第二問答對集合包括:
將所述自然語言文本和普通文本數據按照所述文檔中的位置關系進行拼接得到拼接文本;
通過詞嵌入獲取所述拼接文本的向量表示;
將所述拼接文本的向量表示輸入預先訓練的問題生成模型,得到第二問答對集合。
2.根據權利要求1所述的方法,其特征在于,在生成第一問答對集合和第二問答對集合之前,還包括:對所述模式識別的結果和自然語言生成處理的結果進行評測和篩選。
3.根據權利要求1所述的方法,其特征在于,所述根據所述標題字段和內容字段生成第一問答對集合包括:
根據標題字段生成問題,根據內容字段生成答案;
組合所述問題和答案,生成第一問答對集合。
4.根據權利要求1所述的方法,其特征在于,所述將所述第一問答對集合和第二問答對集合加入所述FAQ知識庫包括:
評測所述第一問答對集合和第二問答對集合中的問答對的質量;
將通過評測的問答對加入所述FAQ知識庫。
5.一種基于復雜數據類型的FAQ知識庫自動生成裝置,其特征在于,包括:
數據格式識別模塊,用于識別文檔中不同格式的數據,所述不同格式的數據包括段落型文本數據、普通文本數據和非文本數據;
模式識別模塊,用于對所述段落型文本數據進行模式識別,生成標題字段和內容字段;
自然語言文本生成模塊,用于對所述非文本數據進行自然語言生成處理,得到自然語言文本;
問答對生成模塊,用于根據所述標題字段和內容字段生成第一問答對集合,根據所述自然語言文本和普通文本數據生成第二問答對集合;
FAQ知識庫生成模塊,用于將所述第一問答對集合和第二問答對集合加入所述FAQ知識庫;
其中,所述非文本數據包括表格數據、圖像數據和/或視頻數據;
所述自然語言文本生成模塊具體的用于:
對于表格數據,使用預先訓練的表格模型生成所述自然語言文本;
對于圖像數據,識別所述圖像數據中的文字,并基于圖像識別生成自然語言描述,組合上述文字和自然語言描述生成所述自然語言文本;
對于視頻數據,根據預先訓練的視頻模型生成所述自然語言文本;
所述問答對生成模塊具體包括:
第二問答對生成器,用于將所述自然語言文本和普通文本數據按照所述文檔中的位置關系進行拼接得到拼接文本;
通過詞嵌入獲取所述拼接文本的向量表示;
將所述拼接文本的向量表示輸入預先訓練的問題生成模型,得到第二問答對集合。
6.一種存儲器,其特征在于,存儲有多條指令,所述指令用于實現如權利要求1-4任一項所述的方法。
7.一種電子設備,其特征在于,包括處理器和與所述處理器連接的存儲器,所述存儲器存儲有多條指令,所述指令可被所述處理器加載并執行,以使所述處理器能夠執行如權利要求1-4任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京智源人工智能研究院,未經北京智源人工智能研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011637578.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:飼料防霉劑天然組合物及在魚飼料中的應用
- 下一篇:一種黃鱔飼料及其制備方法





