[發(fā)明專(zhuān)利]基于人工智能的語(yǔ)義相似度獲取方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201611042515.3 | 申請(qǐng)日: | 2016-11-21 |
| 公開(kāi)(公告)號(hào): | CN106776782B | 公開(kāi)(公告)日: | 2020-05-22 |
| 發(fā)明(設(shè)計(jì))人: | 周坤勝;何徑舟;石磊;馮仕堃;朱志凡 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類(lèi)號(hào): | G06F16/9532 | 分類(lèi)號(hào): | G06F16/9532;G06F16/9535;G06F40/30 |
| 代理公司: | 北京清亦華知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 人工智能 語(yǔ)義 相似 獲取 方法 裝置 | ||
本發(fā)明提出一種基于人工智能的語(yǔ)義相似度獲取方法及裝置,其中,方法包括:通過(guò)在得到query和title的多粒度特征后,獲取每個(gè)粒度特征的權(quán)重,通過(guò)該權(quán)重可以體現(xiàn)出不同粒度的特征所具有的重要程度,然后在對(duì)query和title進(jìn)行多粒度表示時(shí),加入了每個(gè)粒度特征的權(quán)重這一因數(shù),從而在計(jì)算query和title相似度時(shí),不同粒度特征根據(jù)自己的重要性發(fā)揮不同的作用,使得相似度計(jì)算精度更高,實(shí)現(xiàn)對(duì)現(xiàn)有語(yǔ)音相似度模型的優(yōu)化,并且可以使得搜索結(jié)果精準(zhǔn),能夠更符合用戶(hù)的需求。
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種基于人工智能的語(yǔ)義相似度獲取方法及裝置。
背景技術(shù)
人工智能(Artificial Intelligence),英文縮寫(xiě)為AI。它是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門(mén)新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類(lèi)智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語(yǔ)音識(shí)別、圖像識(shí)別、自然語(yǔ)言處理和專(zhuān)家系統(tǒng)等。
基于人工智能對(duì)用戶(hù)的搜索行為進(jìn)行分析,可以得知用戶(hù)在搜索時(shí)目的是通過(guò)搜索結(jié)果能夠盡快獲取到與用戶(hù)所輸入的搜索詞相關(guān)的內(nèi)容。
根據(jù)搜索詞的語(yǔ)義進(jìn)行檢索是實(shí)現(xiàn)知識(shí)檢索的關(guān)鍵之一,而相似度計(jì)算則是語(yǔ)義檢索的基礎(chǔ)。目前語(yǔ)義相似度模型可以計(jì)算用戶(hù)搜索時(shí)所輸入的搜索詞(query)與候選搜索條目(title)之間的相似度,在獲取query與title之間的相似度之后,搜索引擎可以對(duì)獲取到的相似度進(jìn)行排序,按照排序結(jié)果返回搜索結(jié)果。圖1為現(xiàn)有的語(yǔ)義相似度模型的結(jié)構(gòu)示意圖。該語(yǔ)義相似度模型包括:底層為嵌入(embedding)層、變換(BOW)層、對(duì)比(FC)層以及頂層打分(Score)層。其中,embedding層由所有字典詞的向量化表示組成,當(dāng)用戶(hù)在搜索時(shí)輸入的一個(gè)句子后,embedding層可以將該句子映射成一個(gè)二維向量,每一個(gè)子向量為其術(shù)語(yǔ)(term)對(duì)應(yīng)的term-embedding;BOW層表示對(duì)二維向量所作的變換,將二維向量變換成一個(gè)一維向量,該層也可以被替換成卷積與pooling;FC層為全聯(lián)通層,該FC層對(duì)一維向量做線性變換,可選的可以在線性變換后增加一個(gè)激活函數(shù),通過(guò)該激活函數(shù)加上非線性轉(zhuǎn)換;Score層用于對(duì)得到的query和title之間的相似度做度量。例如,query為“百度巴西葡語(yǔ)”,而title“巴西葡語(yǔ)”,在對(duì)query和title切詞后,可得到query和title離散的詞序列,query的離散詞序列包括:百度、巴西、葡語(yǔ),而title離散的詞序列包括:巴西、葡語(yǔ)。通過(guò)圖1所示的語(yǔ)義相似度計(jì)模型計(jì)算query和title之前的相似度時(shí),將query切詞后的每個(gè)單詞作為一個(gè)粒度,然后利用query所有的單詞對(duì)query做一個(gè)單粒度向量表示,相應(yīng)地,將title切詞后的每個(gè)單詞作為一個(gè)粒度,然后利用title所有的單詞對(duì)title做一個(gè)單粒度向量表示。這種單粒度的語(yǔ)義相似度計(jì)算,獲取到相似度精度較差,導(dǎo)致搜索結(jié)果不夠理想。
為了提高搜索精度,如圖2所示,對(duì)語(yǔ)義相似模型進(jìn)行了改進(jìn),在相似度計(jì)算的過(guò)程中,對(duì)query和title進(jìn)行切詞后,利用分詞語(yǔ)料進(jìn)行特征提取,獲取到query和title的多個(gè)粒度特征,如query的基礎(chǔ)粒度特征(query-basic)query的二元特征(query-basic-bigram),title的基礎(chǔ)粒度特征(title-basic)、title的二元特征(title-basic-bigram)。如圖2所示雖然引入了多粒度來(lái)表示query和title,但是在計(jì)算query和title之間的相似度之前,語(yǔ)義相似度模型中并不對(duì)query和title的多粒度特征不進(jìn)行區(qū)分,在變換BOW層直接將query的多粒度特征相加,得到query的多粒度表示,將title的多粒度特征相加,得到title的多粒度表示。
現(xiàn)有的語(yǔ)音相似度模型由于不對(duì)多粒度特征進(jìn)行區(qū)別直接將多粒度相加,得到query和title的多粒度表示,使得搜索引擎得到的搜索結(jié)果精確性較差。
發(fā)明內(nèi)容
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611042515.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 使用基于云端的度量迭代訓(xùn)練人工智能的系統(tǒng)
- 一種人工智能轉(zhuǎn)人工智能再轉(zhuǎn)人工方案
- O-RAN系統(tǒng)中的人工智能模型處理方法和裝置
- 人工智能傷口評(píng)估方法及智能終端
- 人工智能倫理風(fēng)險(xiǎn)與防范虛擬仿真方法、系統(tǒng)和機(jī)器人
- 一種基于人工智能基礎(chǔ)資源與技術(shù)調(diào)控系統(tǒng)及方法
- 基于人工智能倫理備選規(guī)則的人工智能倫理風(fēng)險(xiǎn)防范方法
- 人工智能倫理風(fēng)險(xiǎn)辨識(shí)防范虛擬仿真實(shí)驗(yàn)方法和機(jī)器人
- 基于人工智能體決策的人工智能倫理風(fēng)險(xiǎn)辨識(shí)和防范方法
- 基于算法選擇的人工智能倫理風(fēng)險(xiǎn)辨識(shí)防范方法和機(jī)器人
- 面向語(yǔ)義Web服務(wù)程序設(shè)計(jì)的語(yǔ)義數(shù)據(jù)表示和處理方法
- 一種基于語(yǔ)義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語(yǔ)義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語(yǔ)義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語(yǔ)義匹配方法和系統(tǒng)
- 遠(yuǎn)程語(yǔ)義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語(yǔ)義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語(yǔ)義表征和語(yǔ)義計(jì)算的信號(hào)語(yǔ)義識(shí)別方法
- 語(yǔ)義分類(lèi)方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 相似圖像提取裝置、相似圖像提取方法以及相似圖像提取程序
- 一種鋼結(jié)構(gòu)火災(zāi)反應(yīng)分析方法
- 相似度計(jì)算裝置、相似度計(jì)算方法以及相似度計(jì)算程序
- 一種蛋白質(zhì)相似度及相似蛋白質(zhì)的確定方法和系統(tǒng)
- 一種獲取相似語(yǔ)句的方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種圖像搜索方法、裝置和存儲(chǔ)介質(zhì)
- 基于相似壽命模型和相似壽命的復(fù)雜產(chǎn)品可靠性評(píng)定方法
- 獲取機(jī)構(gòu)技術(shù)相似性的方法及裝置
- 口罩(相似)
- 臺(tái)燈(相似)





