[發(fā)明專利]句子語義距離的度量方法有效
| 申請?zhí)枺?/td> | 201910073906.9 | 申請日: | 2019-01-25 |
| 公開(公告)號: | CN110008465B | 公開(公告)日: | 2023-05-12 |
| 發(fā)明(設(shè)計)人: | 孟亞磊;劉繼明;金寧;陳浮;劉松 | 申請(專利權(quán))人: | 網(wǎng)經(jīng)科技(蘇州)有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/33;G06F40/284;G06F40/211 |
| 代理公司: | 江蘇圣典律師事務(wù)所 32237 | 代理人: | 王玉國 |
| 地址: | 215021 江蘇省蘇州市工*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 句子 語義 距離 度量 方法 | ||
1.句子語義距離的度量方法,其特征在于:包括以下步驟:
1)對語句數(shù)據(jù)集做分詞、去停用詞預(yù)處理;
2)選擇詞義相似性方案,設(shè)定閾值執(zhí)行同、近義詞歸一化;
3)計算兩個語句的向量空間距離、度量兩個語句的語序距離以及計算兩個語句的語義依存距離;即:
a、結(jié)合平滑逆頻加權(quán)與常見成分移除計算兩個語句的向量空間距離;
b、以亂序程度來度量兩個語句的語序距離;
c、結(jié)合語義依存五元組特征計算兩個語句的語義依存距離;
對待比較的語句進行語義依存分析,得到依存五元組;按特征重要性對各五元組比較結(jié)果進行數(shù)字化表征,使得五元組之間的距離遠近可以量化;通過依次比較兩個語句的各依存五元組之間的距離得到兩個語句的語義依存距離;
基于語義依存的距離計算,采用語義依存五元組及其特征距離計算方法,通過兩個句子各個語義依存五元組之間的距離求得句子的語義依存距離,包括以下步驟:
S41通過語義依存分析獲取依存五元組:利用句子語義解析工具對句子做語義依存關(guān)系分析,得到一組表征依存關(guān)系的3元組;對于每個依存3元組,結(jié)合當(dāng)前詞與所依賴的詞的詞性,得到一系列五元組(C,P,D,C_pos,P_pos),其中C是一個詞,P是C在語義上依賴的詞,D是C與P之間的語義依賴關(guān)系,C_pos與P_pos則分別是詞語C和P的詞性;
對語義依存解析結(jié)果按照依存關(guān)系的類別進行針對性過濾,只保留對語義影響最大的依存關(guān)系參與計算;
S42按特征重要性對依存五元組進行數(shù)字化表征:依存關(guān)系不僅取決于詞語,還受詞性的影響,重要性在詞與詞性之間;五元組的元素之間重要性從大到小排序為CPDC_posP_pos;
比較兩個語義依存關(guān)系的近似程度,根據(jù)特征重要性的順序,給各元素賦予不同的權(quán)重;
S43計算兩個句子的語義依存距離:對數(shù)據(jù)集中的任一句子,到步驟S41可解析為一個語義依存五元組的集合;假設(shè)兩個句子得到的語義依存關(guān)系集合分別為A={a1,a2,……an}和B={b1,b2,……bm},語義依存距離Dis-dep由公式(7)求得;
4)對向量空間距離、語序距離、語義依存距離做混合加權(quán)計算。
2.根據(jù)權(quán)利要求1所述的句子語義距離的度量方法,其特征在于:步驟1),利用分詞方法或工具對語句數(shù)據(jù)集做分詞預(yù)處理,所述分詞方法是基于詞典的最大匹配方法、全切分路徑選擇方法、基于字序列標注的方法或基于轉(zhuǎn)移的分詞方法,所述分詞工具是開源工具或閉源分詞工具,分詞工具提供多種分詞算法與策略供用戶選擇,支持添加自定義詞典、新詞發(fā)現(xiàn)。
3.根據(jù)權(quán)利要求1所述的句子語義距離的度量方法,其特征在于:步驟1),去停用詞預(yù)處理按照公開的或者自建的停用詞表,去除不含實際意義的虛詞、標點。
4.根據(jù)權(quán)利要求1所述的句子語義距離的度量方法,其特征在于:步驟2),對于詞義特別接近的詞語,可認為語義是一致的,將同義與近義詞進行歸一化;
詞語語義的度量方式是詞向量的余弦值或歐式距離,或在語義知識庫中計算;
閾值根據(jù)詞義度量方法和實際需要設(shè)定。
5.根據(jù)權(quán)利要求1所述的句子語義距離的度量方法,其特征在于:步驟3),根據(jù)詞頻進行差異化加權(quán),利用已訓(xùn)練好的詞向量獲取數(shù)據(jù)集中各句子的初始向量,再以各初始向量構(gòu)成的語義矩陣進行常見成分移除,得到語義表征更準確的各句子向量,通過轉(zhuǎn)換為單位向量的點積運算間接求得向量空間距離。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于網(wǎng)經(jīng)科技(蘇州)有限公司,未經(jīng)網(wǎng)經(jīng)科技(蘇州)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910073906.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





