[發(fā)明專利]一種基于滑動(dòng)語義串匹配的句法分析方法有效

申請(qǐng)?zhí)枺?/td>	201310492589.7	申請(qǐng)日：	2013-10-18
公開（公告）號(hào)：	CN103500160A	公開（公告）日：	2014-01-08
發(fā)明（設(shè)計(jì)）人：	王偉;黃德根	申請(qǐng)（專利權(quán)）人：	大連理工大學(xué)
主分類號(hào)：	G06F17/27	分類號(hào)：	G06F17/27
代理公司：	大連理工大學(xué)專利中心 21200	代理人：	李寶元;梅洪玉
地址：	116024***	國(guó)省代碼：	遼寧;21
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于滑動(dòng) 語義匹配句法分析方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種基于滑動(dòng)語義串匹配的句法分析方法，其特征在于以下步驟：?

一、扁平分層的短語結(jié)構(gòu)句法樹表示?

采用層疊組塊分析方法，句法分析的結(jié)果采用短語結(jié)構(gòu)二叉樹表示，在表示時(shí)，對(duì)通常的短語句法樹進(jìn)行了層次的扁平化轉(zhuǎn)換；?

二、N元上下文有關(guān)文法的規(guī)則提取?

第一，按照語義詞典，對(duì)用于訓(xùn)練的句法樹庫(kù)中句子的詞標(biāo)注對(duì)應(yīng)的語義碼；對(duì)于單義詞，由機(jī)器按照語義詞典中詞的語義碼一一對(duì)應(yīng)實(shí)現(xiàn)自動(dòng)標(biāo)注；對(duì)于多義詞，根據(jù)詞所在上下文中的信息，由人從語義詞典中選定最適合的語義碼進(jìn)行標(biāo)注，由n個(gè)詞構(gòu)成的句子的語義碼的標(biāo)注為S1,S2,S3,…,Sn；?

第二，按照扁平層次化的短語結(jié)構(gòu)句法樹的層次，對(duì)每層兩兩組合成的一個(gè)組塊Chunk進(jìn)行語義標(biāo)注；該組塊的語義碼按照組塊的中心詞位置，從前一層的詞或組塊的語義碼繼承下來，作為當(dāng)前新組塊的語義碼；組塊的語義標(biāo)注從第0層開始，自底向上逐層進(jìn)行，直到完成最后層的根組塊的語義標(biāo)注，即完成對(duì)整個(gè)句法樹的語義標(biāo)注；組塊語義碼的格式為：“組塊名XPx：語義碼Sx”；?

第三，對(duì)每一層所有基元，按每移動(dòng)一個(gè)基元位置，以N個(gè)基元長(zhǎng)度進(jìn)行切分分組,一個(gè)基元是指一個(gè)詞的語義碼或者一個(gè)組塊的語義碼；即以“長(zhǎng)度為N的窗口”從每一層的前端開始滑動(dòng)，每滑過一個(gè)基元位置，就從該窗口中抽取構(gòu)成組塊的規(guī)則；該規(guī)則是指，當(dāng)前窗口中的N元基元信息，如何進(jìn)行組塊而成為下一層中的信息；把所有層的所有的每N長(zhǎng)度的模板及其對(duì)應(yīng)的組塊信息都提取出來；對(duì)于每層的結(jié)尾部分不足N長(zhǎng)度劃分的，則采用實(shí)際長(zhǎng)度進(jìn)行提取，直到模板長(zhǎng)度為1為止；?

對(duì)用于訓(xùn)練的句法樹庫(kù)以外的句子的組塊規(guī)則，采用機(jī)器即時(shí)學(xué)習(xí)的方法獲得；?

三、基于滑動(dòng)語義串匹配的句法分析模型?

采用滑動(dòng)語義串匹配方法，即SMOSS模型，進(jìn)行句法分析，工作過程參見表1；?

表1：基于SMOSS模型的句法分析的基本過程表?

（一）N元語義碼串與模板庫(kù)模板的匹配操作?

a.首先將待匹配的N元長(zhǎng)度的語義碼串與模板庫(kù)中N元長(zhǎng)度的語義模板，從開始基元到結(jié)尾基元逐個(gè)進(jìn)行對(duì)應(yīng)匹配；?

b.每個(gè)N元待匹配語義碼串上的語義碼與模板對(duì)應(yīng)位置的語義碼的匹配，是按照語義詞典的編碼格式由大類到小類順序逐次進(jìn)行匹配，若某類匹配失敗則不進(jìn)行余下類別的匹配；在匹配過程中，每個(gè)類級(jí)匹配成功一次，就得到該語義碼在該類級(jí)的得分，將語義碼在各個(gè)匹配類級(jí)上的得分進(jìn)行累計(jì)，就是該語義碼的匹配得分；?

c.當(dāng)對(duì)N元語義碼串中的N個(gè)語義碼都匹配成功后，將這N個(gè)語義碼的各個(gè)匹配得分按照權(quán)重進(jìn)行匯總，就是該N元語義碼串匹配到的模板的得分；同時(shí)將該模板的匹配得分直接傳遞到模板所對(duì)應(yīng)的組塊信息上，用于后續(xù)操作；?

（二）一個(gè)N元語義碼串匹配出0個(gè)模板的處理?

如果一個(gè)N元語義串匹配模板的結(jié)果是0，即沒有相匹配的模板，則采用降元的方式處理；?當(dāng)在N元長(zhǎng)度上的語義碼串匹配結(jié)果是0，則降元到N-1元的語義碼串長(zhǎng)度上進(jìn)行匹配，如果匹配結(jié)果還是0，則再降元到N-2元的語義碼串長(zhǎng)度上進(jìn)行匹配；以此類推，直到語義碼串長(zhǎng)度降元到2為止；每降元一次，語義碼串匹配的模板的權(quán)重也相應(yīng)降低；?

（三）一個(gè)N元語義碼串匹配出多個(gè)不同模板的處理?

對(duì)于一個(gè)語義碼串匹配出多個(gè)模板的結(jié)果；則將該語義碼串所對(duì)應(yīng)的多個(gè)不同的模板都取出來，供隨后的對(duì)這些模板分別取對(duì)應(yīng)組塊信息的操作；?

（四）一個(gè)N元模板對(duì)應(yīng)到多個(gè)不同組塊信息的處理?

對(duì)于一個(gè)模板對(duì)應(yīng)多種不同的組塊結(jié)果，則將同一模板所對(duì)應(yīng)的多個(gè)不同組塊的信息都取出來，供隨后的對(duì)組塊信息進(jìn)行匯總的操作；?

（五）一個(gè)N元語義串中未知語義碼的處理?

一個(gè)句子中如果有些未知詞并不在語義詞典中，那么這些未知詞對(duì)應(yīng)的就是未知語義碼；對(duì)于未知語義碼采用通配符“？？？？？”方式進(jìn)行模板匹配；未知語義碼的匹配得分按語義碼匹配計(jì)算時(shí)全匹配的滿分來計(jì)算；整個(gè)匹配模板的得分是模板中各個(gè)已知語義碼的匹配得分之和，加上模板中各個(gè)未知語義碼的匹配滿分之和。?

（六）組塊信息統(tǒng)計(jì)匯總的操作?

當(dāng)在某一層所有的通過滑動(dòng)移位獲取的N元語義碼串都匹配完后，對(duì)這些模板所對(duì)應(yīng)的組塊信息進(jìn)行匯總；在匯總時(shí)，首先在每一個(gè)基元位置上，統(tǒng)計(jì)與其相關(guān)的N元模板對(duì)應(yīng)的組塊信息對(duì)該位置上的各種信息的投票，然后根據(jù)該位置上這些相關(guān)的組塊信息的匹配得分，這個(gè)得分是在模板匹配時(shí)傳遞過來的，將投票結(jié)果和組塊信息的匹配得分按照匯總算法得到匯總得分；選擇匯總得分最大的前p個(gè)作為候選的組塊信息；然后從中選擇第一最大得分的組塊信息，作為組塊成下一層的信息；?

若匯總結(jié)果中有并列最大得分的，先順序選擇第一個(gè)作為選定，并暫假定這種選定的結(jié)果是對(duì)的，接著向下執(zhí)行；若執(zhí)行到下一層或下幾層發(fā)現(xiàn)錯(cuò)了，則通過回溯處理，啟發(fā)式地指定候選中的某一個(gè)，直到或者能有正確結(jié)果，或者全部候選都試完為止。?

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連理工大學(xué)，未經(jīng)大連理工大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310492589.7/1.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

上一篇：一種葉面噴施型植物抗寒組合物
下一篇：一種含有啶酰菌胺與苯噻菌胺的殺菌組合物

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】