[發明專利]基于近似詞的模糊匹配媒資內容庫檢索方法在審

申請號：	202110445489.3	申請日：	2021-04-25
公開（公告）號：	CN112988977A	公開（公告）日：	2021-06-18
發明（設計）人：	楊瀚;朱婷婷;溫序銘;李忠瑋;嚴照宇	申請（專利權）人：	成都索貝數碼科技股份有限公司
主分類號：	G06F16/33	分類號：	G06F16/33;G06F16/338;G06F40/289;G06F40/30;G06F16/951
代理公司：	成都九鼎天元知識產權代理有限公司 51214	代理人：	賈年龍
地址：	610041 四***	國省代碼：	四川;51
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于近似模糊匹配內容檢索方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了基于近似詞的模糊匹配媒資內容庫檢索方法，包括步驟：S1，獲取新聞文本語料，構建用于訓練FastText模型的學習樣本；S2，基于所構建的學習樣本進行FastText模型的訓練，獲得詞向量模型；S3，利用訓練好的詞向量模型和近似最近鄰方法Hnswlib構建近似詞檢索模型，利用近似詞檢索模型獲取輸入的檢索詞的相似詞作為擴展目標檢索詞組，基于該擴展目標檢索詞組在內容庫中進行相關素材檢索，然后將檢索結果返回給用戶等；本發明基于召回的所有近似詞進行擴展檢索的方式將完全匹配檢索轉換成模糊匹配檢索，能夠在更好地覆蓋用戶的檢索意圖的情況下獲得更廣泛且與用戶想要的結果相關的素材檢索結果。

技術領域

本發明涉及新聞媒資檢索領域，更為具體的，涉及基于近似詞的模糊匹配媒資內容庫檢索方法。

背景技術

廣播電視行業擁有非常豐富的數據資源。據相關調查數據顯示，在美國17個行業所擁有的數據總量排名中，傳媒業占據第三位。近年來，隨著我國廣播電視行業的快速發展，媒體內容數據更是呈爆炸式增長，與此同時也給媒體資源的再利用帶來了挑戰。在匯聚了臺內、外媒、用戶生產數據等的內容庫中，高效地完成檢索對于有效獲取相關素材，再推送到節目生產環節、提高節目生產率，豐富節目生產資源等具有非常重要的意義。

另一方面，為了提升編目質量和工作效率，媒體數據資料管理從傳統的人工編目逐步轉換到依托智能化管理平臺的自動編目。通過實體識別、人臉識別、場景分類、關鍵詞識別等相關AI技術，媒體內容素材實現了智能化標引。用戶可以在內容庫中檢索需要的標簽，如人名、場景、地點、分類類別、關鍵詞等搜索相關媒體素材然后打點出庫。但是同多數搜索工具一樣，檢索結果依賴于用戶輸入內容的準確性。完全匹配檢索方式下，用戶可能無法獲得想要的素材，也可能錯過其他相關素材。

為了解決上述問題，本發明提出一種基于近似詞的模糊匹配媒資內容庫檢索方法。

發明內容

本發明的目的在于克服現有技術的不足，提供基于近似詞的模糊匹配媒資內容庫檢索方法，將完全匹配檢索轉換成模糊匹配檢索，能夠在更好地覆蓋用戶的檢索意圖的情況下獲得更廣泛且與用戶想要的結果相關的素材檢索結果等。

本發明的目的是通過以下方案實現的：

一種基于近似詞的模糊匹配媒資內容庫檢索方法，包括步驟：

S1，獲取新聞文本語料，構建用于訓練FastText詞向量模型的學習樣本；

S2，基于步驟S1所構建的學習樣本進行FastText詞向量模型的訓練，獲得詞向量模型；

S3，利用步驟S2中訓練好的詞向量模型和近似最近鄰方法Hnswlib構建近似詞檢索模型，利用所述近似詞檢索模型獲取輸入的檢索詞的相似詞作為擴展目標檢索詞組，基于該擴展目標檢索詞組在內容庫中進行相關素材檢索，然后將檢索結果返回給用戶。

在獲取新聞文本語料時，可以利用爬蟲等工具。

進一步地，在步驟S1中，包括步驟：

在步驟S1中，包括步驟：

S11，對獲取的新聞文本語料進行清洗和分句；