[發明專利]句子語義距離的度量方法有效
| 申請號: | 201910073906.9 | 申請日: | 2019-01-25 |
| 公開(公告)號: | CN110008465B | 公開(公告)日: | 2023-05-12 |
| 發明(設計)人: | 孟亞磊;劉繼明;金寧;陳浮;劉松 | 申請(專利權)人: | 網經科技(蘇州)有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/33;G06F40/284;G06F40/211 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 王玉國 |
| 地址: | 215021 江蘇省蘇州市工*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 句子 語義 距離 度量 方法 | ||
本發明涉及句子語義距離的度量方法,先對語句數據集做分詞、去停用詞預處理;然后選擇詞義相似性方案,設定閾值執行同、近義詞歸一化;繼而,結合平滑逆頻加權與常見成分移除計算兩個語句的向量空間距離;以亂序程度來度量兩個語句的語序距離;結合語義依存五元組特征計算兩個語句的語義依存距離;最后,對向量空間距離、語序距離、語義依存距離做混合加權計算。從句子向量表征、句子詞語順序、句子成分依存三個維度進行衡量,最后通過加權求和的方式得到最終語義距離;不僅利用了詞級別的計算手段,還吸收了句子級別的運算思想,通過向量空間距離、語序距離和語義依存距離的引入和創造性結合,更全面、合理地衡量句子的語義距離遠近。
技術領域
本發明涉及一種句子語義距離的度量方法,屬于文本信息處理技術領域。
背景技術
語義計算是文本信息處理領域的基礎任務之一,從詞語、句子、段落到篇章各個層級上都有實際使用場景。根據自然語言處理技術的發展現狀,當前在不同層級的語義計算上采取了不同的思路和策略。對于句子之間語義距離的計算,研究工作主要集中在兩個層面,分別是詞級別與句子級別。
詞級別的度量方法,其主要思想是在對待比較的兩個句子做分詞之后,各自篩選出對于語義影響比較大的詞串,也可能進行淺層的依存分析,對于詞串中的各詞可能賦予不同的權重,最后通過各詞之間的相似度,綜合計算得到兩個句子的語義距離。考慮到字符串特征對語義表示的影響,有些方法也加入了句長、公共子串、編輯距離等計算因子。
句子級別的度量方法,主要通過句子建模的方法,核心思想是使用向量空間模型,將句子表示為向量形式,然后通過向量運算來度量句子之間的語義距離。具體來說句子級別又有兩種方式,一種是使用詞嵌入的向量通過某種變換來得到句子向量,另一種是使用大量的語料,參考詞向量訓練的方法直接來學習句子的向量表示。
使用詞嵌入向量來獲取句子向量表征的方法,詞向量獲取非常容易,計算開銷可控,是工業界采納的主流方法。常用的一個基線模型就是詞袋模型,將句子中各詞的向量簡單求和作為句向量,在情感分類、文本主題分類等任務上也有不錯的表現。
直接句子嵌入的方法不僅需要極大規模的訓練語料,而且采用較為復雜的神經網絡訓練模型,雖然在一些評測任務上取得了小幅領先的成績,但在垂直領域由于語料規模與計算資源的限制以及較低的可解釋性,無法普遍運用。
發明內容
本發明的目的是克服現有技術存在的不足,提供一種句子語義距離的度量方法。
本發明的目的通過以下技術方案來實現:
句子語義距離的度量方法,特點是:包括以下步驟:
1)對語句數據集做分詞、去停用詞預處理;
2)選擇詞義相似性方案,設定閾值執行同、近義詞歸一化;
3)計算兩個語句的向量空間距離、度量兩個語句的語序距離以及計算兩個語句的語義依存距離;即:
a、結合平滑逆頻加權與常見成分移除計算兩個語句的向量空間距離;
b、以亂序程度來度量兩個語句的語序距離;
c、結合語義依存五元組特征計算兩個語句的語義依存距離;
4)對向量空間距離、語序距離、語義依存距離做混合加權計算。
進一步地,上述的句子語義距離的度量方法,其中,步驟1),利用分詞方法或工具對語句數據集做分詞預處理,所述分詞方法是基于詞典的最大匹配方法、全切分路徑選擇方法、基于字序列標注的方法或基于轉移的分詞方法,所述分詞工具是開源工具或閉源分詞工具,分詞工具提供多種分詞算法與策略供用戶選擇,支持添加自定義詞典、新詞發現。
進一步地,上述的句子語義距離的度量方法,其中,步驟1),去停用詞預處理按照公開的或者自建的停用詞表,去除不含實際意義的虛詞、標點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網經科技(蘇州)有限公司,未經網經科技(蘇州)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910073906.9/2.html,轉載請聲明來源鉆瓜專利網。





