[發(fā)明專利]一種基于框架重要度計(jì)算句子相似度的方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110776700.X | 申請(qǐng)日: | 2021-07-09 |
| 公開(公告)號(hào): | CN113536761A | 公開(公告)日: | 2021-10-22 |
| 發(fā)明(設(shè)計(jì))人: | 王鐵鑫;史薈;劉文靜;嚴(yán)欣華 | 申請(qǐng)(專利權(quán))人: | 南京航空航天大學(xué) |
| 主分類號(hào): | G06F40/194 | 分類號(hào): | G06F40/194;G06F40/211;G06F40/30 |
| 代理公司: | 南京經(jīng)緯專利商標(biāo)代理有限公司 32200 | 代理人: | 陸燁 |
| 地址: | 210016 江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 框架 重要 計(jì)算 句子 相似 方法 | ||
本發(fā)明公開了一種基于框架重要度計(jì)算句子相似度的方法,具體為:步驟1:將英文句子S中所有的框構(gòu)成框架語(yǔ)義信息集合E;步驟2:提取集合E中每個(gè)框架的核心框架元素;步驟3:根據(jù)集合E中每個(gè)框架中核心框架元素的個(gè)數(shù)計(jì)算該框架的重要度;步驟4:將英文句子S’中所有的框架構(gòu)成框架語(yǔ)義信息集合E’,并計(jì)算集合E’中每個(gè)框架的重要度;步驟5:將集合E和集合E’中相同的框架作為一組框架組;在每個(gè)框架組中選擇最小的框架重要度作為該框架組的框架的重要度;將所有框架組的框架重要度進(jìn)行累加計(jì)算,并基于累加計(jì)算的值計(jì)算英文句子S和S’的相似度。本發(fā)明提出的方法可適用于文本蘊(yùn)含識(shí)別、文本摘要等自然語(yǔ)言處理任務(wù)中。
技術(shù)領(lǐng)域
本發(fā)明屬于自然語(yǔ)言處理技術(shù)領(lǐng)域。
背景技術(shù)
框架語(yǔ)義庫(kù)FrameNet是一種基于框架語(yǔ)義學(xué)(Frame Semantics)的語(yǔ)義知識(shí)庫(kù),用于語(yǔ)言學(xué)、計(jì)算語(yǔ)言學(xué)和自然語(yǔ)言處理等語(yǔ)言方面的研究。通過(guò)框架語(yǔ)義可以挖掘到詞語(yǔ)背后隱藏的概念結(jié)構(gòu)和語(yǔ)義場(chǎng)景。
FrameNet中的框架(frame)是指由詞元(lexical units,LUs)和它所聯(lián)系的框架元素(frame elements,FEs)構(gòu)成的表達(dá)特定場(chǎng)景的句子語(yǔ)義結(jié)構(gòu)形式。框架中涉及的各種參與者、外部條件等被稱為框架元素。框架元素按照重要程度分為核心框架元素(CoreFEs)與非框架元素(Peripheral、Extra-thematic),核心框架元素是一個(gè)框架在概念理解上的必要成分,它們?cè)诓煌目蚣苤袛?shù)量和類型不同,顯示框架的個(gè)性;非核心框架元素則表達(dá)時(shí)間、地點(diǎn)等通用語(yǔ)義成分。
當(dāng)句子包含多個(gè)框架時(shí)不同框架的重要性并不一定相同,要準(zhǔn)確度量句子間的相似度,則必須在考慮框架本身的同時(shí)考慮其重要性,然而度量句子中框架的重要度并非易事,因?yàn)橐罁?jù)不同的重要度度量標(biāo)準(zhǔn),度量的結(jié)果并非一成不變。因此框架重要度度量標(biāo)準(zhǔn)選擇是框架重要度度量的關(guān)鍵。目前基于詞層面特征的相似度計(jì)算方法未考慮句子的結(jié)構(gòu)信息;基于句子結(jié)構(gòu)特征的相似度計(jì)算方法未能全面考慮句子語(yǔ)義。以往的句子相似度計(jì)算方法主要針對(duì)句子關(guān)鍵詞和結(jié)構(gòu)的問(wèn)題,由于考慮句子的語(yǔ)義不全面,缺乏解釋性,使得相似性計(jì)算結(jié)果不夠準(zhǔn)確。
發(fā)明內(nèi)容
發(fā)明目的:為了解決上述現(xiàn)有技術(shù)存在的問(wèn)題本發(fā)明提供了一種基于框架重要度計(jì)算句子相似度的方法。
技術(shù)方案:本發(fā)明提供了一種基于框架重要度計(jì)算句子相似度的方法,具體包括如下步驟:
步驟1:提取英文句子S中所有的框架,并將該所有的框架構(gòu)成框架語(yǔ)義信息集合E;
步驟2:構(gòu)建框架語(yǔ)義庫(kù)FrameNet可視化工具GIFN,通過(guò)GIFN提取框架語(yǔ)義信息集合E中每個(gè)框架的核心框架元素;
步驟3:基于每個(gè)框架中核心框架元素的個(gè)數(shù)計(jì)算每個(gè)框架的框架影響因子;根據(jù)框架影響因子建立框架重要度函數(shù),得到框架語(yǔ)義信息集合E中第i個(gè)框架的重要度w(fE,i),fE,i表示框架語(yǔ)義信息集合E中第i個(gè)框架,i=1,2,...,frame_S,frame_S為框架語(yǔ)義信息集合E中框架的總個(gè)數(shù);
步驟4:根據(jù)步驟1~3將英文句子S’中所有的框架構(gòu)成框架語(yǔ)義信息集合E’,并計(jì)算框架語(yǔ)義信息集合E’中每個(gè)框架的重要度;
步驟5:將E和E’中相同的框架作為一組框架組,得到frame_same個(gè)框架組;比較第j個(gè)框架組中兩個(gè)框架的重要度,選擇最小的框架重要度作為第j個(gè)框架組的框架重要度minj,J=1,2,...,frame_same;將frame_same個(gè)框架組的框架重要度進(jìn)行累加計(jì)算,并基于累加計(jì)算的值計(jì)算英文句子S和S’的相似度。
進(jìn)一步的,所述步驟1中將英文句子S輸入至開源語(yǔ)義框架抽取工具SEMAFOR中,所述SEMAFOR根據(jù)框架語(yǔ)義庫(kù)FrameNet的結(jié)構(gòu)解析輸入的英文句子S,從而提取英文句子S中的框架。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京航空航天大學(xué),未經(jīng)南京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110776700.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。





