[發明專利]核心詞識別方法及裝置有效
| 申請號: | 201610182170.5 | 申請日: | 2016-03-28 |
| 公開(公告)號: | CN107239455B | 公開(公告)日: | 2021-06-11 |
| 發明(設計)人: | 吳振元;廖劍 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/95 | 分類號: | G06F16/95;G06F40/30;G06F40/211;G06F40/242 |
| 代理公司: | 北京鴻德海業知識產權代理有限公司 11412 | 代理人: | 孟繁琦 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 核心 識別 方法 裝置 | ||
本申請提供一種核心詞識別方法及裝置。核心詞識別方法包括:對待處理文本進行分詞處理,以獲得所述待處理文本包含的分詞片段;查詢預先建立的分詞修飾詞典,以確定所述待處理文本包含的分詞片段之間的修飾關系;根據所述待處理文本包含的分詞片段之間的修飾關系,確定所述待處理文本中的核心詞。本申請可以提高核心詞識別的精準度。
【技術領域】
本申請涉及互聯網技術領域,尤其涉及一種核心詞識別方法及裝置。
【背景技術】
在互聯網搜索領域中,用戶輸入搜索詞(Query),搜索引擎根據用戶輸入的搜索詞進行搜索并向用戶返回搜索結果。在搜索過程中,搜索引擎一般采用核心詞匹配原理進行搜索,即識別查詢詞中的核心詞,以及待搜索內容(例如文檔或產品標題)中的核心詞,然后計算核心詞之間的相關性作為查詢詞與待搜索內容之間的相關性,根據查詢詞與待搜索內容之間的相關性返回搜索結果。
在現有技術中,最常用的核心詞識別方法主要包括以下步驟:以單詞(Word)為粒度,對每個單詞進行詞性標注;利用線下預先生成的核心詞詞性標注規則來匹配查詢詞中的核心詞;統計核心詞的詞頻等特征,并利用機器學習模型(例如svm模型)對核心詞進行優化。
在上述核心詞識別方法中,詞性標注規則是基于正常語言模型順序設置的(例如,正常產品的標題都是“形容詞1+形容詞2+形容詞3…+產品名稱”),但是目前好多文檔或產品的標題并不是按正常語言模型順序,例如“Lunch Box Plastic”,就是把產品名稱(LunchBox)放在前面,而修飾短語(Plastic)放在后面,按照現有詞性標注規則,上述Plastic會被識別為名詞,并最終被識別為核心詞,實際上這是錯誤的,導致核心詞識別不夠精準。
【發明內容】
本申請的多個方面提供一種核心詞識別方法及裝置,用以提高核心詞識別的精準度。
本申請的一方面,提供一種核心詞識別方法,包括:
對待處理文本進行分詞處理,以獲得所述待處理文本包含的分詞片段;
查詢預先建立的分詞修飾詞典,以確定所述待處理文本包含的分詞片段之間的修飾關系;
根據所述待處理文本包含的分詞片段之間的修飾關系,確定所述待處理文本中的核心詞。
本申請的另一方面,提供一種核心詞識別裝置,包括:
分詞處理模塊,用于對待處理文本進行分詞處理,以獲得所述待處理文本包含的分詞片段;
關系確定模塊,用于查詢預先建立的分詞修飾詞典,以確定所述待處理文本包含的分詞片段之間的修飾關系;
短語確定模塊,用于根據所述待處理文本包含的分詞片段之間的修飾關系,確定所述待處理文本中的核心詞。
在本申請中,對待處理文本進行分詞處理,獲得待處理文本包含的分詞片段,之后,查詢預先建立的分詞修飾詞典,確定待處理文本包含的分詞片段之間的修飾關系,根據待處理文本包含的分詞片段之間的修飾關系,確定待處理文本中的核心詞。本申請基于分詞片段之間的修飾關系確定核心詞,由于分詞片段之間的修飾關系并不受文本中詞語之間先后順序的限定,所以能夠解決現有技術方案中詞性標注規則對正常語言模型順序嚴重依賴的問題,有利于提高核心詞識別的精準度。
【附圖說明】
為了更清楚地說明本申請實施例中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本申請的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本申請一實施例提供的核心詞識別方法的流程示意圖;
圖2為本申請另一實施例提供的建立分詞詞庫的方法的流程示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610182170.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于文本數據庫的檢索方法及系統
- 下一篇:年齡段識別方法及裝置





