[發(fā)明專利]一種短文本間語義距離的計算機輔助計算方法有效
| 申請?zhí)枺?/td> | 201210045699.4 | 申請日: | 2012-02-24 |
| 公開(公告)號: | CN102622338A | 公開(公告)日: | 2012-08-01 |
| 發(fā)明(設計)人: | 楊震;王來濤;賴英旭;高凱明;張龍伯;段立娟;范科峰 | 申請(專利權)人: | 北京工業(yè)大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京思海天達知識產(chǎn)權代理有限公司 11203 | 代理人: | 樓艮基 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 語義 距離 計算機輔助 計算方法 | ||
1.一種短文本間語義距離的計算機輔助計算方法,其特征在于,是在計算機中依次按以下步驟實現(xiàn)的:
步驟(1)計算機初始化
設置:ICTCLAS分詞算法模塊和文本距離計算模塊
基于《同義詞詞林擴展版》的漢語語料庫
輸入:以句子形式表述的兩類不同的短文本,所述短文本是指包括短信、微博、論壇評論和新聞評論在內(nèi)的應用文本中以句子形式出現(xiàn)的在線評論文本的原始數(shù)據(jù);
步驟(2)文本預處理
對步驟(1)中的兩類不同的在線評論文本按以下步驟進行預處理,以規(guī)范文本數(shù)據(jù)格式:
步驟(2.1)去除包括<html>、<body>、<div>在內(nèi)的html網(wǎng)頁標記,提取出html頁面中的評論內(nèi)容數(shù)據(jù);
步驟(2.2)對步驟(2.1)得到的評論內(nèi)容數(shù)據(jù)進行變異短文本處理:
所述變異短文本是指用新的符號、口語化詞表達常規(guī)詞義的文本,
所述變異短文本處理是指對所述變異短文本中的詞語的拼音、簡寫體、數(shù)字及標點符號進行統(tǒng)一規(guī)范化處理以及刪除特殊符號,
步驟(2.3)利用所述ICTCLAS分詞算法對經(jīng)過步驟(2.2)得到的文本進行分詞處理,得到一系列的文本的詞串;
步驟(3)利用所述文本距離計算模塊分別計算兩類所述不同短文本間的句法結構距離和單元語義距離,
步驟(3.1)按以下步驟計算所述兩類不同短文本間的句法結構距離,以度量短文本間在句法結構上的差別程度:
步驟(3.1.1)計算位于所述兩類不同短文本中的詞串W1和詞串W2的詞語相似度矩陣:
將兩類所述不同短文本中的較短文本以較長文本為標準進行語義對齊,所述語義對齊是指通過計算兩類所述不同短文本中任意詞語間的相似度:以所述《同義詞詞林擴展版》中各個以五級結構表達的詞語的8位語義代碼為基礎,計算兩類算數(shù)不同短文本中任意兩個詞語的相似度:Sim(A,B),A、B分別表示任意的兩個詞語:
P為A詞語的語義集合,Q為B詞語的語義集合;a為語義集合P中的任意語義,b為語義集合B中的任意語義,a∈P,b∈Q,
Sim(a,b)=n/(N+1)
n為a、b之間的語義代碼開始不同的級數(shù),N為編碼的位數(shù),
從而得到兩類所述不同短文本的詞語相似度矩陣:矩陣的行為所述詞串W1中的每個詞語,?列為所述詞串W2中的每個詞語,矩陣的元素為所得到的詞語相似度Sim(A,B),
步驟(3.1.2)設:所述詞串W1的長度小于所述詞串W2的長度,len(W1)<len(W2),則以所述較長詞串W2為標準,根據(jù)步驟(3.1.1)得到的詞語相似度矩陣,進行語義對齊,其步驟如下:
步驟(3.1.2.1)選擇所述詞語相似度矩陣中詞語相似度最大值,其所對應的兩個詞語作為相似對,
步驟(3.1.2.2)把步驟(3.1.2.1)中所述詞串W1所對應的詞語放在所述詞串W2對應的詞語的位置上,在所述相似度矩陣中的對應詞語的行、列的元素值全部置零,
步驟(3.1.2.3)重復步驟(3.1.2.1)和步驟(3.1.2.2),直到所述詞語相似度矩陣中所有元素為零,所述詞串W1經(jīng)過語義對齊,詞語順序調(diào)整為W1’,比較詞串W1、W1’的詞語,計算所述詞串W1和所述詞串W2的句法結構距離α:
α=t*λ
其中t為所述詞串W1和所述詞串W2語義對齊的次數(shù),λ為語義對齊的權值
步驟(3.2)在步驟(3.1)語義對齊的基礎上,按下式計算兩個所述不同類短文本間的單元語義距離,所述單元語義距離是指對兩個短文本在單元語義上的差別程度,其步驟如下:
步驟(3.2.1)設定以下五種編輯操作的權值:
ω1為插入或刪除關鍵詞的操作權值,
ω2為插入或刪除非關鍵詞的操作權值,
γ1為替換關鍵詞的操作權值,
γ2為替換非關鍵詞的操作權值,
θ為對近義詞的替換代價,
所述關鍵詞是指兩類所述不同短文本中的全部名詞、代詞、動詞和形容詞,
所述非關鍵詞是指除名詞、代詞、動詞和形容詞以外,包括數(shù)詞、量詞、副詞在內(nèi)的其他詞性的詞語,
在λ、ω1、ω2、γ1、γ2、θ間的相互關系中,設定:
語義對齊的代價小于插入或刪除的代價,表示為:ω1>λ
關鍵詞操作的代價大于非關鍵詞操作的代價,表示為:ω1>ω2,γ1>γ2
近義詞的操作代價小于非近義詞的操作代價,表示為:λ>θ,ω1>θ,ω2>θ,γ1>θ,γ2>θ,
所述近義詞是根據(jù)所述《同義詞詞林擴展版》對詞語進行同義詞擴展而得到的詞語,
步驟(4)對步驟(3)得到的句法結構距離和單元語義距離進行歸一化,步驟如下:
步驟(4.1)通過對兩類所述不同的短文本間的任意兩個詞串的句法結構距離、單元語義?距離的操作次數(shù)進行統(tǒng)計,得到了以下不同編輯操作次數(shù)的最大值和最小值:max(t),min(t);max(a1),min(a1);max(a2),min(a2);max(b1),min(b1);max(b2),min(b2);max(c),min(c);
步驟(4.2)按下式對所述t、a1、a2、b1、b2、c各類編輯操作次數(shù)分別進行歸一化操作,得到歸一化以后的所述各類編輯操作次數(shù)t’、a1、a2’、b1’、b2’、c’:
其中對同一類操作而言:t、a1、a2、b1、b2、c∈n,t’、a1、a2’、b1’、b2’、c’∈n’
將句法結構距離、單元語義距離的權值歸一化以后:
λ+ω1+ω2+γ1+γ2+θ=1
步驟(4.3)按下式計算所述兩類不同短文本間的語義距離β:
β=a1*ω1+a2*ω2+b1*γ1+b2*γ2+c*θ
其中,ω1為插入或刪除關鍵詞的操作權值,ω2為插入或刪除非關鍵詞的操作權值,γ1為替換關鍵詞的操作權值,γ2為替換非關鍵詞的操作權值,θ為對近義詞的替換代價。a1、a2、b1、b2、c為經(jīng)過歸一化后的對應編輯操作次數(shù)。
兩類所述不同短文本W(wǎng)1、W2的語義距離可用下式表示:
Dis(W1,W2)=α+β。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業(yè)大學,未經(jīng)北京工業(yè)大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210045699.4/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:導線接頭
- 下一篇:一種太陽能無線充電電路





