[發(fā)明專利]一種基于滑動(dòng)語義串匹配的句法分析方法有效
| 申請(qǐng)?zhí)枺?/td> | 201310492589.7 | 申請(qǐng)日: | 2013-10-18 |
| 公開(公告)號(hào): | CN103500160A | 公開(公告)日: | 2014-01-08 |
| 發(fā)明(設(shè)計(jì))人: | 王偉;黃德根 | 申請(qǐng)(專利權(quán))人: | 大連理工大學(xué) |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 大連理工大學(xué)專利中心 21200 | 代理人: | 李寶元;梅洪玉 |
| 地址: | 116024*** | 國(guó)省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 滑動(dòng) 語義 匹配 句法 分析 方法 | ||
1.一種基于滑動(dòng)語義串匹配的句法分析方法,其特征在于以下步驟:?
一、扁平分層的短語結(jié)構(gòu)句法樹表示?
采用層疊組塊分析方法,句法分析的結(jié)果采用短語結(jié)構(gòu)二叉樹表示,在表示時(shí),對(duì)通常的短語句法樹進(jìn)行了層次的扁平化轉(zhuǎn)換;?
二、N元上下文有關(guān)文法的規(guī)則提取?
第一,按照語義詞典,對(duì)用于訓(xùn)練的句法樹庫(kù)中句子的詞標(biāo)注對(duì)應(yīng)的語義碼;對(duì)于單義詞,由機(jī)器按照語義詞典中詞的語義碼一一對(duì)應(yīng)實(shí)現(xiàn)自動(dòng)標(biāo)注;對(duì)于多義詞,根據(jù)詞所在上下文中的信息,由人從語義詞典中選定最適合的語義碼進(jìn)行標(biāo)注,由n個(gè)詞構(gòu)成的句子的語義碼的標(biāo)注為S1,S2,S3,…,Sn;?
第二,按照扁平層次化的短語結(jié)構(gòu)句法樹的層次,對(duì)每層兩兩組合成的一個(gè)組塊Chunk進(jìn)行語義標(biāo)注;該組塊的語義碼按照組塊的中心詞位置,從前一層的詞或組塊的語義碼繼承下來,作為當(dāng)前新組塊的語義碼;組塊的語義標(biāo)注從第0層開始,自底向上逐層進(jìn)行,直到完成最后層的根組塊的語義標(biāo)注,即完成對(duì)整個(gè)句法樹的語義標(biāo)注;組塊語義碼的格式為:“組塊名XPx:語義碼Sx”;?
第三,對(duì)每一層所有基元,按每移動(dòng)一個(gè)基元位置,以N個(gè)基元長(zhǎng)度進(jìn)行切分分組,一個(gè)基元是指一個(gè)詞的語義碼或者一個(gè)組塊的語義碼;即以“長(zhǎng)度為N的窗口”從每一層的前端開始滑動(dòng),每滑過一個(gè)基元位置,就從該窗口中抽取構(gòu)成組塊的規(guī)則;該規(guī)則是指,當(dāng)前窗口中的N元基元信息,如何進(jìn)行組塊而成為下一層中的信息;把所有層的所有的每N長(zhǎng)度的模板及其對(duì)應(yīng)的組塊信息都提取出來;對(duì)于每層的結(jié)尾部分不足N長(zhǎng)度劃分的,則采用實(shí)際長(zhǎng)度進(jìn)行提取,直到模板長(zhǎng)度為1為止;?
對(duì)用于訓(xùn)練的句法樹庫(kù)以外的句子的組塊規(guī)則,采用機(jī)器即時(shí)學(xué)習(xí)的方法獲得;?
三、基于滑動(dòng)語義串匹配的句法分析模型?
采用滑動(dòng)語義串匹配方法,即SMOSS模型,進(jìn)行句法分析,工作過程參見表1;?
表1:基于SMOSS模型的句法分析的基本過程表?
(一)N元語義碼串與模板庫(kù)模板的匹配操作?
a.首先將待匹配的N元長(zhǎng)度的語義碼串與模板庫(kù)中N元長(zhǎng)度的語義模板,從開始基元到結(jié)尾基元逐個(gè)進(jìn)行對(duì)應(yīng)匹配;?
b.每個(gè)N元待匹配語義碼串上的語義碼與模板對(duì)應(yīng)位置的語義碼的匹配,是按照語義詞典的編碼格式由大類到小類順序逐次進(jìn)行匹配,若某類匹配失敗則不進(jìn)行余下類別的匹配;在匹配過程中,每個(gè)類級(jí)匹配成功一次,就得到該語義碼在該類級(jí)的得分,將語義碼在各個(gè)匹配類級(jí)上的得分進(jìn)行累計(jì),就是該語義碼的匹配得分;?
c.當(dāng)對(duì)N元語義碼串中的N個(gè)語義碼都匹配成功后,將這N個(gè)語義碼的各個(gè)匹配得分按照權(quán)重進(jìn)行匯總,就是該N元語義碼串匹配到的模板的得分;同時(shí)將該模板的匹配得分直接傳遞到模板所對(duì)應(yīng)的組塊信息上,用于后續(xù)操作;?
(二)一個(gè)N元語義碼串匹配出0個(gè)模板的處理?
如果一個(gè)N元語義串匹配模板的結(jié)果是0,即沒有相匹配的模板,則采用降元的方式處理;?當(dāng)在N元長(zhǎng)度上的語義碼串匹配結(jié)果是0,則降元到N-1元的語義碼串長(zhǎng)度上進(jìn)行匹配,如果匹配結(jié)果還是0,則再降元到N-2元的語義碼串長(zhǎng)度上進(jìn)行匹配;以此類推,直到語義碼串長(zhǎng)度降元到2為止;每降元一次,語義碼串匹配的模板的權(quán)重也相應(yīng)降低;?
(三)一個(gè)N元語義碼串匹配出多個(gè)不同模板的處理?
對(duì)于一個(gè)語義碼串匹配出多個(gè)模板的結(jié)果;則將該語義碼串所對(duì)應(yīng)的多個(gè)不同的模板都取出來,供隨后的對(duì)這些模板分別取對(duì)應(yīng)組塊信息的操作;?
(四)一個(gè)N元模板對(duì)應(yīng)到多個(gè)不同組塊信息的處理?
對(duì)于一個(gè)模板對(duì)應(yīng)多種不同的組塊結(jié)果,則將同一模板所對(duì)應(yīng)的多個(gè)不同組塊的信息都取出來,供隨后的對(duì)組塊信息進(jìn)行匯總的操作;?
(五)一個(gè)N元語義串中未知語義碼的處理?
一個(gè)句子中如果有些未知詞并不在語義詞典中,那么這些未知詞對(duì)應(yīng)的就是未知語義碼;對(duì)于未知語義碼采用通配符“?????”方式進(jìn)行模板匹配;未知語義碼的匹配得分按語義碼匹配計(jì)算時(shí)全匹配的滿分來計(jì)算;整個(gè)匹配模板的得分是模板中各個(gè)已知語義碼的匹配得分之和,加上模板中各個(gè)未知語義碼的匹配滿分之和。?
(六)組塊信息統(tǒng)計(jì)匯總的操作?
當(dāng)在某一層所有的通過滑動(dòng)移位獲取的N元語義碼串都匹配完后,對(duì)這些模板所對(duì)應(yīng)的組塊信息進(jìn)行匯總;在匯總時(shí),首先在每一個(gè)基元位置上,統(tǒng)計(jì)與其相關(guān)的N元模板對(duì)應(yīng)的組塊信息對(duì)該位置上的各種信息的投票,然后根據(jù)該位置上這些相關(guān)的組塊信息的匹配得分,這個(gè)得分是在模板匹配時(shí)傳遞過來的,將投票結(jié)果和組塊信息的匹配得分按照匯總算法得到匯總得分;選擇匯總得分最大的前p個(gè)作為候選的組塊信息;然后從中選擇第一最大得分的組塊信息,作為組塊成下一層的信息;?
若匯總結(jié)果中有并列最大得分的,先順序選擇第一個(gè)作為選定,并暫假定這種選定的結(jié)果是對(duì)的,接著向下執(zhí)行;若執(zhí)行到下一層或下幾層發(fā)現(xiàn)錯(cuò)了,則通過回溯處理,啟發(fā)式地指定候選中的某一個(gè),直到或者能有正確結(jié)果,或者全部候選都試完為止。?
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連理工大學(xué),未經(jīng)大連理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310492589.7/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 面向語義Web服務(wù)程序設(shè)計(jì)的語義數(shù)據(jù)表示和處理方法
- 一種基于語義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語義匹配方法和系統(tǒng)
- 遠(yuǎn)程語義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語義表征和語義計(jì)算的信號(hào)語義識(shí)別方法
- 語義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





