[發明專利]一種句子相似度計算方法和系統在審
| 申請號: | 201611143723.2 | 申請日: | 2016-12-13 |
| 公開(公告)號: | CN106844331A | 公開(公告)日: | 2017-06-13 |
| 發明(設計)人: | 楊萌;李培峰;朱巧明;周國棟;朱曉旭 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙)32257 | 代理人: | 李陽 |
| 地址: | 215000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 句子 相似 計算方法 系統 | ||
1.一種句子相似度計算方法,其特征在于,包括步驟:
S10、對句子對訓練文本和句子對測試文本中所有句子調用詞性標注、句法分析、命名實體識別、WordNet識別工具分別進行詞性標注、句法分析、命名實體識別、WordNet識別獲得詞性標注訓練文本、短語訓練文本、命名實體訓練文本、WordNet訓練文本和詞性標注測試文本、短語測試文本、命名實體測試文本、WordNet測試文本,
其中,所述句子對訓練文本和句子對測試文本為每行含有兩句需要計算相似度的句子的文本;
S20、基于詞性標注訓練文本、短語訓練文本、命名實體訓練文本、WordNet訓練文本獲得淺層句法樹訓練文本,
基于詞性標注測試文本、短語測試文本、命名實體測試文本、WordNet測試文本獲得淺層句法樹測試文本;
S30、基于句子對訓練文本對每行一對句子獲得多個平面特征,得到平面特征訓練文本,將平面特征訓練文本,淺層句法樹訓練文本與句子對人工評分訓練文本結合得到淺層句法樹特征訓練文本,
基于句子對測試文本對每行一對句子獲得多個平面特征,得到平面特征測試文本,將平面特征測試文本與淺層句法樹測試文本結合得到淺層句法樹特征測試文本;
S40、使用SVR模型基于淺層句法樹特征訓練文本進行訓練,得到訓練模型,由訓練模型和淺層句法樹特征測試文本獲得相似度計算結果文本。
2.根據權利要求1所述的句子相似度計算方法,其特征在于:所述步驟S10的具體過程如下:
S101、對句子對訓練文本中所有句子使用詞性標注工具獲得句子中每個單詞的詞性,獲得對應的詞性標注訓練文本;
對句子對測試文本進行相同處理獲得詞性標注測試文本;
S102、對句子對訓練文本中所有句子使用句法分析工具獲得每個單詞所屬的短語,獲得短語訓練文本;
對句子對測試文本進行相同處理獲得短語測試文本;
S103、基于句子對訓練文本使用命名實體識別工具得到單詞所屬的命名實體識別結果,獲得命名實體訓練文本;
對句子對測試文本進行相同處理獲得命名實體測試文本;
S104、基于句子對訓練文本使用WordNet識別工具獲得單詞所屬的WordNet上義,如果沒有WordNet上義用空格表示,得到WordNet訓練文本;
對句子對測試文本進行相同處理獲得WordNet測試文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611143723.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種頭部按摩裝置
- 下一篇:一種自動化艾條成型設備





