[發明專利]一種基于tf-idf和倒排索引的眾測助理實現方法在審
| 申請號: | 202110634912.4 | 申請日: | 2021-06-08 |
| 公開(公告)號: | CN113360596A | 公開(公告)日: | 2021-09-07 |
| 發明(設計)人: | 王崇駿;何強強;徐鳴;羅翀;謝俊元 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/332;G06F16/33;G06F16/335;G06F16/951;G06F40/194;G06F40/279 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 孫建朋 |
| 地址: | 210023 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 tf idf 索引 助理 實現 方法 | ||
1.一種基于tf-idf和倒排索引的眾測助理實現方法,其特征在于,包括以下步驟:
步驟1、數據采集,從互動平臺爬取問答對,在爬取的過程中進行篩選;
步驟2、數據預處理,分詞后去除停用詞,構建每個詞的倒排索引表,計算出每個詞的頻率,將每個問題表示為tf-idf向量,并用三元組存儲向量;
步驟3、輸入預處理,將輸入分詞后,在沒有敏感詞的情況下,計算得到輸入的tf-idf向量表示;
步驟4、答案返回,利用倒排索引表獲得與輸入相關的候選問題,利用余弦定理計算候選問題與輸入的相似度,返回相似度最高的k個問題的答案。
2.根據權利要求1所述的基于tf-idf和倒排索引的眾測助理實現方法,其特征在于,步驟1中爬取的過程中進行篩選的方法包括以下步驟:
步驟1.1、去掉與測試無關的問答對,僅保留與測試相關的問答對;相關性的度量通過是否包含測試領域關鍵詞來判斷,若包含測試領域關鍵詞則具有相關性;測試領域關鍵詞通過從測試能力答題網站,測試書籍,百科類知識中人工獲取;
步驟1.2、去掉涉及敏感詞的問答對。
3.根據權利要求2所述的基于tf-idf和倒排索引的眾測助理實現方法,其特征在于,所述步驟2具體包括以下步驟:
步驟2.1、分詞,去除停用詞;
步驟2.2、構建倒排索引表,以每個詞作為鍵,涉及到該詞的問題作為值構建表,通過詞索引到與該詞相關的所有問題;
步驟2.3、計算出每一個詞的出現頻率和每一個詞在問題中的逆文本頻率指數;
步驟2.4、用詞頻乘詞的逆文本頻率指數,得到每一個問題的tf-idf向量表示;
步驟2.5、每一個問題的響亮表示稀疏,利用三元組的方式保存向量中的非零元素;
步驟2.6定義三元組向量存儲的余弦計算公式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110634912.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:直播頁面顯示方法及裝置
- 下一篇:一種帶有標識的地膜及生產工藝





