[發(fā)明專利]一種基于tf-idf和倒排索引的眾測助理實現(xiàn)方法在審
| 申請?zhí)枺?/td> | 202110634912.4 | 申請日: | 2021-06-08 |
| 公開(公告)號: | CN113360596A | 公開(公告)日: | 2021-09-07 |
| 發(fā)明(設(shè)計)人: | 王崇駿;何強強;徐鳴;羅翀;謝俊元 | 申請(專利權(quán))人: | 南京大學(xué) |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/332;G06F16/33;G06F16/335;G06F16/951;G06F40/194;G06F40/279 |
| 代理公司: | 南京瑞弘專利商標事務(wù)所(普通合伙) 32249 | 代理人: | 孫建朋 |
| 地址: | 210023 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 tf idf 索引 助理 實現(xiàn) 方法 | ||
本發(fā)明提出了一種基于tf?idf和倒排索引的眾測助理實現(xiàn)方法。數(shù)據(jù)采集階段,從百度問答中爬取問答數(shù)據(jù)集,在爬取過程中進行篩選;數(shù)據(jù)預(yù)處理階段,對每一個問題進行分詞,并計算每一個詞的頻率,獲得每個句子的tf?idf向量表示;輸入預(yù)處理階段,對用戶的輸入進行分詞,若涉及到不合適的詞,如敏感詞,政治詞,則不予返回,將用戶的輸入去除停用詞后轉(zhuǎn)化為tf?idf向量表示;答案返回階段,利用倒排索引獲得與輸入相關(guān)的候選問題,計算輸入與候選問題的相似度,并將相似度最高的k個問題的答案返回給用戶作為結(jié)果。本發(fā)明利用倒排索引的思想加快了查找相似問題的效率,能應(yīng)對問答對增加帶來的內(nèi)存爆炸問題。
技術(shù)領(lǐng)域
本發(fā)明屬于眾包測試領(lǐng)域,尤其涉及一種基于tf-idf和倒排索引的眾測助理實現(xiàn)方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,使得雇傭不同平臺,不同位置的測試人員成為可能。眾包測試作為測試領(lǐng)域的新興趨勢,充分利用了眾包和云平臺的優(yōu)勢。它可以擴展測試池,避免了內(nèi)部測試人員的偏見性,且產(chǎn)品公司只為報告的有效漏洞付費,降低了測試的成本。
在傳統(tǒng)的測試領(lǐng)域,要求測試人員具有較為專業(yè)的能力素質(zhì),包括測試技術(shù),領(lǐng)域知識,甚至是相關(guān)經(jīng)驗等。眾測平臺降低了測試準入門檻,卻帶來了更大的不確定性,由于眾測成員能力參差不齊,這給眾測任務(wù)的高質(zhì)量完成帶來了挑戰(zhàn)。如何平衡測試人員的測試技能,發(fā)現(xiàn)更多有效的漏洞,提高軟件的質(zhì)量,面臨著巨大的挑戰(zhàn)。
當前的解決方法集中于為測試人員進行評分,繪制測試人員的能力記錄,信用記錄。根據(jù)用戶歷史完成情況判斷其測試技術(shù);同時,對每一個測試任務(wù)劃分其測試難度,選擇特定的調(diào)度算法,將合適的任務(wù)分配給合適的測試對象。然而這不能解決非專業(yè)測試人員經(jīng)常提交無效、重復(fù)的漏洞。通過構(gòu)建測試領(lǐng)域的問答機器人,實現(xiàn)人機協(xié)同-反饋機制,形成兼具機器高效性和人工領(lǐng)域特性的人工協(xié)同測試技術(shù),深層次泛化和延伸眾包測試的內(nèi)涵,從而為獲得高質(zhì)量測試結(jié)果提供全面支持。
發(fā)明內(nèi)容
本發(fā)明目的在于提供一種基于tf-idf和倒排索引的眾測助理實現(xiàn)方法,以解決眾測成員能力參差不齊,軟件質(zhì)量低的技術(shù)問題。
為解決上述技術(shù)問題,本發(fā)明的具體技術(shù)方案如下:
一種基于tf-idf和倒排索引的眾測助理實現(xiàn)方法,其特征在于,包括以下步驟:
步驟1、數(shù)據(jù)采集,從互動平臺爬取問答對,在爬取的過程中進行篩選;
步驟2、數(shù)據(jù)預(yù)處理,分詞后去除停用詞,構(gòu)建每個詞的倒排索引表,計算出每個詞的頻率,將每個問題表示為tf-idf向量,并用三元組存儲向量;
步驟3、輸入預(yù)處理,將輸入分詞后,在沒有敏感詞的情況下,計算得到輸入的tf-idf向量表示;
步驟4、答案返回,利用倒排索引表獲得與輸入相關(guān)的候選問題,利用余弦定理計算候選問題與輸入的相似度,返回相似度最高的k個問題的答案。
進一步的,步驟1中爬取的過程中進行篩選的方法包括以下步驟:
步驟1.1、去掉與測試無關(guān)的問答對,僅保留與測試相關(guān)的問答對;相關(guān)性的度量通過是否包含測試領(lǐng)域關(guān)鍵詞來判斷,若包含測試領(lǐng)域關(guān)鍵詞則具有相關(guān)性;測試領(lǐng)域關(guān)鍵詞通過從測試能力答題網(wǎng)站,測試書籍,百科類知識中人工獲取;
步驟1.2、去掉涉及敏感詞的問答對。
進一步的,步驟2具體包括以下步驟:
步驟2.1、分詞,去除停用詞;
步驟2.2、構(gòu)建倒排索引表,以每個詞作為鍵,涉及到該詞的問題作為值構(gòu)建表,通過詞索引到與該詞相關(guān)的所有問題;
步驟2.3、計算出每一個詞的出現(xiàn)頻率和每一個詞在問題中的逆文本頻率指數(shù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京大學(xué),未經(jīng)南京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110634912.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:直播頁面顯示方法及裝置
- 下一篇:一種帶有標識的地膜及生產(chǎn)工藝





