[發明專利]句型識別方法有效
| 申請號: | 201911165208.8 | 申請日: | 2019-11-25 |
| 公開(公告)號: | CN111507085B | 公開(公告)日: | 2023-07-07 |
| 發明(設計)人: | 王沖;崇傳兵 | 申請(專利權)人: | 江蘇艾佳家居用品有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/279;G06F40/289;G06F16/332 |
| 代理公司: | 南京新慧恒誠知識產權代理有限公司 32424 | 代理人: | 鄧唯 |
| 地址: | 211100 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 句型 識別 方法 | ||
1.一種句型識別方法,其特征在于,包括如下步驟:
S10,獲取訓練數據集;所述訓練數據集包括多個標注句型的問句以及多個標注句型的非問句;
S30,在對訓練數據集進行預處理后,根據預處理后的訓練數據集確定問句對應的第一詞向量序列以及非問句對應的第二詞向量序列;所述第一詞向量序列用于計算各個詞語的第一詞向量,第一詞向量表征相應詞語屬于問句的概率,所述第二詞向量序列用于計算各個詞語的第二詞向量,第二詞向量表征相應詞語屬于非問句的概率;
S40,獲取待識別語句中的各個詞,得到多個目標詞,在第一詞向量序列中查找各個目標詞的第一詞向量,依據各個第一詞向量確定問句詞向量QV1,在第二詞向量序列中查找各個目標詞的第二詞向量,依據各個第二詞向量確定非問句詞向量QV2;
S50,計算問句詞向量QV1和非問句詞向量QV2之間的余弦相似度,根據所述余弦相似度確定待識別語句的類型;
所述計算問句詞向量QV1和非問句詞向量QV2之間的余弦相似度,根據所述余弦相似度確定待識別語句的類型包括:
分別將問句詞向量QV1和非問句詞向量QV2轉換為設定長度的向量,計算轉換后的兩個向量的余弦相似度;
當余弦相似度大于設定閾值時,判定待識別語句為非問句,當余弦相似度小于設定閾值時,判定待識別語句為問句。
2.根據權利要求1所述的句型識別方法,其特征在于,在對訓練數據集進行預處理后,根據預處理后的訓練數據集確定問句對應的第一詞向量序列以及非問句對應的第二詞向量序列之前,還包括:
S20,對所述訓練數據集進行預處理,以去除所述訓練數據集中各個語句中的噪聲詞。
3.根據權利要求2所述的句型識別方法,其特征在于,所述對所述訓練數據集進行預處理包括:
獲取訓練數據集中語句集合C={C1,C2,C3,…,Cn}和標簽集合L={L1,L2,L3,…,Ln};Ci表示第i個語句,i=1,2,……,n,n表示訓練數據集中的語句個數;
將每個語句進行分詞,去除各個語句中的停用詞;
對去除停用詞后的各個語句進行詞過濾,得到過濾結果;
去除過濾結果所包括的各個語句中的重復詞,根據標簽集合L={L1,L2,L3,...,Ln}將語句集合C={C1,C2,C3,...,Cn}劃分為問句集Q1和非問句集Q2。
4.根據權利要求3所述的句型識別方法,其特征在于,所述對去除停用詞后的各個語句進行詞過濾包括:
獲取各個詞語在各個語句中的出現次數,定義最小出現次數為min和最大出現次數為max;
剔除出現次數在區間(min,max)以外的詞語。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇艾佳家居用品有限公司,未經江蘇艾佳家居用品有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911165208.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種乳清酸的合成方法
- 下一篇:一種含碳硼烷的耐高低溫膠粘劑樹脂及其制備方法





