[發(fā)明專利]用于提及檢測中的消歧的方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201410601824.4 | 申請日: | 2014-10-31 |
| 公開(公告)號: | CN105630763B | 公開(公告)日: | 2019-08-02 |
| 發(fā)明(設(shè)計)人: | 祝慧佳;倪淵;許瓊愷;曹鋒;N·斯洛寧 | 申請(專利權(quán))人: | 國際商業(yè)機(jī)器公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京市金杜律師事務(wù)所 11256 | 代理人: | 王茂華 |
| 地址: | 美國紐*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 提及 檢測 中的 方法 系統(tǒng) | ||
1.一種用于提及檢測中的消歧的方法,所述方法包括:
確定文本中的目標(biāo)詞形在所述文本中出現(xiàn)的至少一個位置;
基于所述目標(biāo)詞形在每個所述位置處的詞袋上下文,獲取所述目標(biāo)詞形在所述文本中的總體詞袋上下文,每個所述位置處的所述詞袋上下文包含所述位置的預(yù)定鄰域內(nèi)的詞;
基于所述目標(biāo)詞形在每個所述位置處的資源上下文,獲取所述目標(biāo)詞形在所述文本中的總體資源上下文,每個所述位置處的所述資源上下文包含所述位置的預(yù)定鄰域內(nèi)的其他詞形所對應(yīng)的網(wǎng)絡(luò)詞典中詞條的資源;以及
基于所述總體詞袋上下文和所述總體資源上下文來確定所述目標(biāo)詞形與用于所述目標(biāo)詞形的候選資源之間的相似度,包括:
基于所述總體詞袋上下文和所述總體資源上下文,構(gòu)建所述目標(biāo)詞形的詞形上下文向量;
獲取所述候選資源的候選資源上下文向量,所述候選資源上下文向量包括所述候選資源的總體詞袋上下文和總體資源上下文;以及
基于所述詞形上下文向量和所述候選資源上下文向量來確定所述目標(biāo)詞形與所述候選資源之間的所述相似度。
2.根據(jù)權(quán)利要求1所述的方法,其中獲取所述目標(biāo)詞形在所述文本中的總體詞袋上下文包括合并所述目標(biāo)詞形在所述至少一個位置處的所述詞袋上下文,
并且其中獲取所述目標(biāo)詞形在所述文本中的總體資源上下文包括合并所述目標(biāo)詞形在所述至少一個位置處的所述資源上下文。
3.根據(jù)權(quán)利要求1所述的方法,其中基于所述詞形上下文向量和所述候選資源上下文向量來確定所述目標(biāo)詞形與所述候選資源之間的所述相似度包括:
獲取所述詞形上下文向量中的元素的第一組權(quán)重,所述第一組權(quán)重指示所述詞形上下文向量中的所述元素的重要性;
獲取所述候選資源上下文向量中的元素的第二組權(quán)重,所述第二組權(quán)重指示所述候選資源上下文向量中的所述元素的重要性;以及
基于所述第一組權(quán)重與所述第二組權(quán)重來計算所述詞形上下文向量與所述候選資源上下文向量的內(nèi)積,以確定所述目標(biāo)詞形與所述候選資源之間的所述相似度。
4.根據(jù)權(quán)利要求3所述的方法,其中獲取所述詞形上下文向量中的元素的第一組權(quán)重包括:
基于所述詞形上下文向量中的所述元素的詞頻TF和逆文檔頻率IDF中的至少一個來計算所述權(quán)重。
5.根據(jù)權(quán)利要求1所述的方法,其中獲取所述候選資源的候選資源上下文向量包括:
從與所述目標(biāo)詞形相關(guān)聯(lián)的索引中獲取所述候選資源上下文向量。
6.根據(jù)權(quán)利要求1所述的方法,其中確定文本中的目標(biāo)詞形在所述文本中出現(xiàn)的至少一個位置包括確定所述目標(biāo)詞形,確定所述目標(biāo)詞形包括:
獲取所述文本中的多個詞形中的每個詞形的總體詞袋上下文;
基于所述多個詞形中的每個詞形的所述總體詞袋上下文,確定所述多個詞形中的每個詞形與相應(yīng)候選資源之間的粗略相似度;以及
從所述多個詞形中選擇所述目標(biāo)詞形,使得所述目標(biāo)詞形的所述粗略相似度低于第一閾值,并且所述目標(biāo)詞形的預(yù)定鄰域內(nèi)的其他詞形的所述粗略相似度高于第二閾值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國際商業(yè)機(jī)器公司,未經(jīng)國際商業(yè)機(jī)器公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410601824.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:多新聞之間相關(guān)性計算方法和裝置
- 下一篇:特征向量計算方法及裝置
- 一種用戶生成內(nèi)容提及的騷擾屏蔽方法和裝置
- 一種提及推薦方法、信息處理方法及系統(tǒng)
- 一種實體鏈接方法與系統(tǒng)
- 連接短文本中實體提及與語義知識庫中實體的方法和設(shè)備
- 一種自動式防蝕動力轉(zhuǎn)換設(shè)備
- 一種提及人推薦方法、裝置、終端設(shè)備及存儲介質(zhì)
- 一種提及人組合顯示方法、裝置、終端設(shè)備及存儲介質(zhì)
- 語料數(shù)據(jù)集的處理方法、裝置、電子設(shè)備及存儲介質(zhì)
- 藥品知識圖譜的構(gòu)建方法、裝置和計算機(jī)設(shè)備
- 實體鏈接的方法、裝置、設(shè)備以及存儲介質(zhì)





