[發明專利]基于近似詞的模糊匹配媒資內容庫檢索方法在審
| 申請號: | 202110445489.3 | 申請日: | 2021-04-25 |
| 公開(公告)號: | CN112988977A | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 楊瀚;朱婷婷;溫序銘;李忠瑋;嚴照宇 | 申請(專利權)人: | 成都索貝數碼科技股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/338;G06F40/289;G06F40/30;G06F16/951 |
| 代理公司: | 成都九鼎天元知識產權代理有限公司 51214 | 代理人: | 賈年龍 |
| 地址: | 610041 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 近似 模糊 匹配 內容 檢索 方法 | ||
1.一種基于近似詞的模糊匹配媒資內容庫檢索方法,其特征在于,包括步驟:
S1,獲取新聞文本語料,構建用于訓練FastText詞向量模型的學習樣本;
S2,基于步驟S1所構建的學習樣本進行FastText詞向量模型的訓練,獲得詞向量模型;
S3,利用步驟S2中訓練好的詞向量模型和近似最近鄰方法Hnswlib構建近似詞檢索模型,利用所述近似詞檢索模型獲取輸入的檢索詞的相似詞作為擴展目標檢索詞組,基于該擴展目標檢索詞組在內容庫中進行相關素材檢索,然后將檢索結果返回給用戶。
2.根據權利要求1所述的基于近似詞的模糊匹配媒資內容庫檢索方法,其特征在于,在步驟S1中,包括步驟:
S11,對獲取的新聞文本語料進行清洗和分句;
S12,基于LTP工具以及詞庫對步驟S11中清洗和分句后獲得的文本句進行分詞和去停用詞處理;
S13,按FastText詞向量模型輸入要求,整理經過步驟S12處理后的文本數據,構成最終的學習樣本。
3.根據權利要求1所述的基于近似詞的模糊匹配媒資內容庫檢索方法,其特征在于,在步驟S2中,進行FastText詞向量模型的訓練時,詞向量維度設置為300。
4.根據權利要求2所述的基于近似詞的模糊匹配媒資內容庫檢索方法,其特征在于,在步驟S11中,還對獲取的新聞文本語料進行去同期聲、去導語、去正文處理。
5.根據權利要求1~4任一所述的基于近似詞的模糊匹配媒資內容庫檢索方法,其特征在于,在步驟S3中,包括如下步驟:
S31,加載基礎詞庫,將加載的基礎詞庫作為近似詞檢索候選詞庫;
S32,加載訓練好的FastText詞向量模型,對步驟S31中的近似詞檢索候選詞庫中每個詞進行向量化,便于后續相似度計算;
S33,根據步驟S31中的近似詞檢索候選詞庫構建Hnswlib索引,設置相似度計算方法,并將步驟S32中獲得的近似詞檢索候選詞庫中每個詞的向量加入Hnswlib索引當中;
S34,獲取用戶在內容庫中的檢索文本,對其進行分詞處理,將獲得的分詞結果和原始檢索文本合并作為目標檢索詞組;
S35,對步驟S34中目標檢索詞組中的每一個詞,首先利用FastText詞向量模型獲得其向量,然后利用Hnswlib索引在近似詞檢索候選詞庫中召回與之最相似的個近似詞以及這個近似詞與的距離,過濾距離大于設定閾值的詞后最終構成擴展目標檢索詞組;
S36,基于步驟S35中獲得的擴展目標檢索詞組在內容庫中進行擴展檢索。
6.根據權利要求5所述的基于近似詞的模糊匹配媒資內容庫檢索方法,其特征在于,在步驟S33中,所述相似度計算方法包括夾角余弦函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都索貝數碼科技股份有限公司,未經成都索貝數碼科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110445489.3/1.html,轉載請聲明來源鉆瓜專利網。





