[發(fā)明專利]經(jīng)由主題稀疏自編碼器和實(shí)體嵌入的用于輸入分類的表示學(xué)習(xí)有效
| 申請(qǐng)?zhí)枺?/td> | 201911261729.3 | 申請(qǐng)日: | 2019-12-10 |
| 公開(公告)號(hào): | CN111291181B | 公開(公告)日: | 2023-09-26 |
| 發(fā)明(設(shè)計(jì))人: | 李定成;張婧媛;李平 | 申請(qǐng)(專利權(quán))人: | 百度(美國(guó))有限責(zé)任公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F18/241;G06N3/0455;G06N3/0464;G06N3/08;G06F18/2132;G06F17/18 |
| 代理公司: | 北京清亦華知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 宋圓圓 |
| 地址: | 美國(guó)加利*** | 國(guó)省代碼: | 暫無(wú)信息 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 經(jīng)由 主題 稀疏 編碼器 實(shí)體 嵌入 用于 輸入 分類 表示 學(xué)習(xí) | ||
本文公開了一種將主題建模、詞嵌入和實(shí)體嵌入(TWEE)集成以用于輸入的表示學(xué)習(xí)的統(tǒng)一神經(jīng)網(wǎng)絡(luò)框架的實(shí)施例。在一個(gè)或多個(gè)實(shí)施例中,新型主題稀疏自編碼器被引入以將區(qū)別性主題結(jié)合到輸入的表示學(xué)習(xí)中。輸入的主題分布是從全局視點(diǎn)生成的,并且用于使自編碼器能夠?qū)W習(xí)主題表示。可以添加稀疏性約束以確保大部分區(qū)別性表示與主題相關(guān)。此外,詞相關(guān)信息和實(shí)體相關(guān)信息都被嵌入到網(wǎng)絡(luò)中以幫助學(xué)習(xí)更全面的輸入表示。大量的經(jīng)驗(yàn)實(shí)驗(yàn)表明,在不同的數(shù)據(jù)集上,TWEE框架的實(shí)施例優(yōu)于現(xiàn)有的方法。
相關(guān)申請(qǐng)的交叉引用
本申請(qǐng)根據(jù)35?USC§119(e)的規(guī)定要求于2018年12月10日提交的標(biāo)題為“Representation?Learning?for?Question?Classification?via?Topic?SparseAutoencoder?and?Entity?Embedding”、發(fā)明人為Dingcheng?Li,?Jingyuan?Zhang和PingLi的美國(guó)臨時(shí)專利申請(qǐng)序列號(hào)62/777,551(代理人案號(hào)28888-2278P)的優(yōu)先權(quán)。上述專利文獻(xiàn)通過(guò)引用整體并入本文。
背景技術(shù)
A.
本公開總體上涉及用于文本分類的系統(tǒng)和方法。更具體地,本公開涉及用于使用主題相關(guān)嵌入和實(shí)體相關(guān)嵌入進(jìn)行文本分類的系統(tǒng)和方法。
B.
問(wèn)答(QA)是日常人際交往的基本活動(dòng)。在過(guò)去幾年中,在線問(wèn)答網(wǎng)站已經(jīng)變得越來(lái)越流行,用于共享題材廣泛的知識(shí)。人們可以通過(guò)這些平臺(tái)對(duì)不同類別的問(wèn)題提問(wèn)。由于每一秒鐘都在產(chǎn)生大量的問(wèn)題,所以首先并且關(guān)鍵的一步是有效地理解問(wèn)題。更好的問(wèn)題理解將有助于構(gòu)建更有效的在線交流系統(tǒng)。在近幾年中,問(wèn)題理解和問(wèn)題分類的問(wèn)題受到了相當(dāng)多的關(guān)注。
傳統(tǒng)方法關(guān)注用于問(wèn)題分類的表示學(xué)習(xí)。學(xué)習(xí)問(wèn)題表示的一個(gè)固有挑戰(zhàn)是問(wèn)題通常是短文本。現(xiàn)有方法通常不能有效地從有限數(shù)量的詞中提取問(wèn)題的區(qū)別性表示。
因此,需要用于文本分類的系統(tǒng)和方法以改進(jìn)問(wèn)題的表示學(xué)習(xí)。
附圖說(shuō)明
下面將參考本發(fā)明的實(shí)施例,其示例可以在附圖中示出。這些附圖旨在說(shuō)明而非限制。盡管在這些實(shí)施例的上下文中一般性地描述了本發(fā)明,但是應(yīng)當(dāng)理解,本發(fā)明的范圍不限于這些特定實(shí)施例。圖中的項(xiàng)目未按比例繪制。
圖1描繪了使用傳統(tǒng)方法的問(wèn)題理解和問(wèn)題分類的場(chǎng)景。
圖2圖示了根據(jù)本公開的實(shí)施例的主題建模、詞嵌入和實(shí)體嵌入(TWEE)框架的示例性網(wǎng)絡(luò)結(jié)構(gòu)。
圖3圖示了根據(jù)本公開的實(shí)施例的可選TWEE框架的網(wǎng)絡(luò)結(jié)構(gòu)。
圖4圖示了根據(jù)本公開的實(shí)施例的主題稀疏自編碼器(TSAE)的結(jié)構(gòu)。
圖5描繪了根據(jù)本公開的實(shí)施例的使用TSAE進(jìn)行主題相關(guān)表示學(xué)習(xí)的過(guò)程。
圖6圖示了根據(jù)本公開的實(shí)施例的用于詞嵌入學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)。
圖7描繪了根據(jù)本公開的實(shí)施例的使用TWEE框架進(jìn)行問(wèn)題分類的過(guò)程。
圖8A描繪了根據(jù)本公開的實(shí)施例的對(duì)于英文數(shù)據(jù)集具有不同主題數(shù)量的TWEE框架實(shí)施例的性能。
圖8B描繪了根據(jù)本公開的實(shí)施例的對(duì)于中文醫(yī)學(xué)QA數(shù)據(jù)集具有不同主題數(shù)量的TWEE框架實(shí)施例的性能。
圖9描繪了根據(jù)本文獻(xiàn)的實(shí)施例的計(jì)算設(shè)備/信息處理系統(tǒng)的簡(jiǎn)化框圖。
具體實(shí)施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于百度(美國(guó))有限責(zé)任公司,未經(jīng)百度(美國(guó))有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911261729.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 經(jīng)由SDMA的視頻發(fā)射
- 經(jīng)由云的身份管理
- 經(jīng)由功率波形的通信
- 經(jīng)由分段列表瀏覽視頻
- 經(jīng)由產(chǎn)品的動(dòng)態(tài)通知系統(tǒng)
- 經(jīng)由SDMA的視頻發(fā)射
- 經(jīng)由網(wǎng)絡(luò)進(jìn)行的會(huì)議
- 經(jīng)由設(shè)備進(jìn)行投影
- 經(jīng)由參數(shù)傳遞帳號(hào)認(rèn)證信息的方法、系統(tǒng)和計(jì)算機(jī)可讀介質(zhì)
- 經(jīng)由電視系統(tǒng)訪問(wèn)因特網(wǎng)數(shù)據(jù)





