[發(fā)明專利]一種施工案例知識重用查詢方法及其裝置在審
| 申請?zhí)枺?/td> | 202110313320.2 | 申請日: | 2021-03-24 |
| 公開(公告)號: | CN112949304A | 公開(公告)日: | 2021-06-11 |
| 發(fā)明(設(shè)計)人: | 鄧逸川;鄧暉;蘇成;王煜;宋建煒 | 申請(專利權(quán))人: | 中新國際聯(lián)合研究院 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06K9/62;G06N3/04;G06N3/08;G06Q10/10 |
| 代理公司: | 廣州市華學(xué)知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 李盛洪 |
| 地址: | 510000 廣東省廣州市廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 施工 案例 知識 重用 查詢 方法 及其 裝置 | ||
1.一種施工案例知識重用查詢方法,其特征在于,包括以下步驟:
步驟S1,收集施工安全規(guī)范文檔以及施工安全事故報告,并將這些資料電子化,建立施工安全領(lǐng)域案例庫;
步驟S2,基于自然語言處理技術(shù)對施工安全規(guī)范文檔以及施工安全事故報告進(jìn)行文本分詞及去停用詞的處理,再通過詞頻逆文本算法計算特征詞;
步驟S3,通過自建的建筑行業(yè)常用術(shù)語詞庫及連續(xù)詞袋模型,進(jìn)行特征詞的同義詞擴(kuò)展查詢;
步驟S4,基于向量空間模型及余弦函數(shù)改進(jìn)方法進(jìn)行相似施工安全案例的相似度計算;
步驟S5,將整個數(shù)據(jù)庫及查詢系統(tǒng)集成到本地服務(wù)器或者智能設(shè)備中。
2.根據(jù)權(quán)利要求1所述的一種施工案例知識重用查詢方法,其特征在于,所述步驟S2中包括以下步驟:
步驟S21,通過jieba將施工安全事故案例進(jìn)行分詞處理,所述jieba分詞使用前綴樹對詞語進(jìn)行分類,用于提高檢索的效率;
步驟S22,通過自建停用詞庫去掉施工安全事故案例文本中存在的虛詞,所述停用詞為極其常見詞,對幫助計算文本的相似度沒有什么價值,刪除那些無意義的字詞可以大大減少庫的大小并提高檢索效率;
步驟S23,通過算法比選,選取詞頻逆文本算法進(jìn)行特征詞的提取,并進(jìn)行特征詞的權(quán)重計算,提取施工安全事故案例中的特征詞。
4.根據(jù)權(quán)利要求3所述的一種施工案例知識重用查詢方法,其特征在于,所述詞頻、逆文本頻率和詞頻—逆文本頻率的計算方法如下:
詞頻TF:特征值在文本中出現(xiàn)的次數(shù),即如果ti,k在文本di中出現(xiàn)ni,k次,則
TFi,k=ni,k
在實際應(yīng)用中,為了避免文本太長引起的統(tǒng)計偏差,一般需要進(jìn)行標(biāo)準(zhǔn)化處理,∑mnm,k即該文本總詞數(shù):
逆文本頻率IDF:特征項在總文本集D中出現(xiàn)的頻率,如果總文本集共有M個文本,特征項ti,k出現(xiàn)在mi,k個文本中,則
其中α為經(jīng)驗常數(shù),一般取0.01;越常見的詞語分母越大,逆文本頻率越小;分母加α的原因是為了避免為0,即所有文本都不包含該詞;
詞頻—逆文本頻率IF-IDF:IF-IDF計算方法為詞頻與逆文本頻率相乘
wi,k=TFi,k*IDFi,k
詞頻—逆文本頻率與一個詞在整個總文本庫中的出現(xiàn)次數(shù)成反比,與該詞在特定文本中的出現(xiàn)次數(shù)成正比,因此,計算詞語的詞頻—逆文本頻率,降序排列提取特征值。
5.根據(jù)權(quán)利要求1所述的一種施工案例知識重用查詢方法,其特征在于,所述步驟S3中包括以下步驟:
步驟S31,給定訓(xùn)練文本——施工安全事故案例庫及中文維基百科,將one-hot編碼作為CBOW模型的輸入,自設(shè)定詞向量維度設(shè)為100,窗口設(shè)為5,最小出現(xiàn)次數(shù)為5,訓(xùn)練詞向量使用的線程數(shù)設(shè)為9,通過CBOW模型進(jìn)行詞嵌入,輸入的詞向量累加,最后通過二分類器完成詞的向量化表示;
步驟S32,讀取步驟S2中所提取的特征詞,利用訓(xùn)練好的詞向量獲取特征詞的詞向量,利用余弦距離計算與特征詞最相似的前5個詞,進(jìn)行同義詞擴(kuò)展。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中新國際聯(lián)合研究院,未經(jīng)中新國際聯(lián)合研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110313320.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





