[發明專利]標記搜索語義角色的結構化查詢信息表達方法有效
| 申請號: | 202011640600.6 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112685440B | 公開(公告)日: | 2022-03-22 |
| 發明(設計)人: | 王程 | 申請(專利權)人: | 上海欣兆陽信息科技有限公司 |
| 主分類號: | G06F16/242 | 分類號: | G06F16/242;G06F40/30;G06N20/00 |
| 代理公司: | 合肥市科融知識產權代理事務所(普通合伙) 34126 | 代理人: | 劉冉 |
| 地址: | 200030 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標記 搜索 語義 角色 結構 查詢 信息 表達 方法 | ||
1.標記搜索語義角色的結構化查詢信息表達方法,其特征在于,從用戶輸入的搜索查詢中提取結構化查詢信息,將自然語言文本表示成結構化數據,準確解析用戶的搜索意圖,提升用戶的搜索滿意度;基于查詢的潛在語義結構并對搜索結構化查詢信息提取進行形式化的表示,提出標記搜索語義角色的概念并給出其完整定義:將用戶輸入的搜索查詢表示為受核心詞支配的結構化數據格式,標記出搜索查詢中的核心詞和受其支配的語義論元;
標記搜索語義角色從語句的結構特征上對用戶輸入的搜索查詢進行解析,理解把握用戶的搜索意圖,主要包括標記搜索語義角色的架構、基于半監督條件隨機域的查詢核心詞識別、基于半監督條件隨機域的結構化查詢信息提取,具體為:
第一,標記搜索語義角色的架構,對用戶輸入的搜索查詢進行深層次的解析,把用戶輸入的搜索查詢切分成若干個獨立的語義單元并將其分配到預先設定的語義類別,采取一種遞進的方式實現標記搜索語義角色的方法,包括兩部分:首先識別出用戶輸入查詢的關鍵成分,即核心詞,關鍵成分直接表示用戶真正的搜索查詢意圖,當無法對搜索查詢進行深層次的結構化解析時,核心詞保證相關性在可控范圍內;其次對用戶輸入的搜索查詢進行深層次解析,從用戶輸入的搜索查詢中提取結構化的信息,識別用戶真正的搜索意圖和潛在需求;
第二,基于半監督條件隨機域的查詢核心詞識別,對用戶輸入的搜索查詢建立模型,識別出搜索查詢中的核心詞并將其分類,從概率角度推導查詢語句的生成過程,采用一種三層貝葉斯半監督概率模型建立模型,將搜索查詢中的核心詞視為文本,將核心詞的上下文信息作為組成文本的詞匯,核心詞的類別作為主題,采用一種半監督條件隨機域模型進行核心詞的挖掘和分類;
第三,基于半監督條件隨機域的結構化查詢信息提取,采用一種半監督條件隨機域模型來提取結構化查詢信息,將用戶輸入的自然語言文本表示成結構化查詢數據,首先提出一種半自動標記方法對大量的查詢進行前置標記,然后綜合采用少量的人工標記數據和大量的半自動標記數據來訓練模型并對未標記數據進行標記,采用半監督條件隨機域的方法訓練模型對未標記數據進行結構化查詢信息提取。
2.根據權利要求1所述的標記搜索語義角色的結構化查詢信息表達方法,其特征在于,語義角色標記是標記一個語句中的謂語和受其支配的其它成分,是對語句的結構進行深入剖析從而進行語義層面解析的一種方法,語義角色標記識別出一個語句中的謂語和受其支配的其它語義論元,標記搜索語義角色對搜索查詢中各個語義角色進行自動標記,分析查詢的結構從而深層次解析用戶的搜索意圖,查詢語句受核心詞支配,查詢中的其它成分從屬于核心詞;
標記搜索語義角色的定義為:將用戶輸入的搜索查詢表示為受核心詞支配的結構化的數據格式,標記出搜索查詢中的核心詞和受其支配的其它語義論元,其形式化定義為:
p→{ProWord;SeUnit1,SeUnit2,…,SeUnitn}
其中p表示用戶輸入的搜索查詢,ProWord表示查詢中的核心詞,SeUniti表示需要標記的語義單元,n表示定義的語義單元的個數。
3.根據權利要求1所述的標記搜索語義角色的結構化查詢信息表達方法,其特征在于,引入主題模型:在判斷文本相關性時不僅考慮詞語共現的情況,而且考慮文本所表達的深層次語義,引入主題模型進行語義分析,主題模型中的主題表示為一組相同概念的泛化表述形式,用生成模型來闡述文本的生成過程:一篇文本包含若干的主題,每個主題以概率選擇若干詞匯,一篇文本的生成過程表示為:
q(詞匯|文本)=∑主題q(詞語|主題)*q(主題|文本)
主題模型的矩陣形式:其中等式左邊的矩陣表示每個文本中每個詞語的詞頻,即詞語出現的概率;等式右邊第一個矩陣表示每個主題中每個詞語的出現概率;等式右邊第二個矩陣表示每個文本中不同主題出現的概率,給定一系列文本,預先對文本進行前置處理,然后統計每個文本中單詞出現的頻率得到左邊的“文本-詞語”矩陣,主題模型是對左邊這個矩陣進行分解,學習出右邊兩個矩陣;
條件隨機域主題模型對文字隱含的主題建立模型,并從海量的文本中把表述同一語義主題的文本聚在一起,采用一種三層貝葉斯半監督概率模型識別查詢核心詞,核心詞對應于文本,核心詞的上下文信息對應文本中的詞匯,核心詞的類別對應主題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海欣兆陽信息科技有限公司,未經上海欣兆陽信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011640600.6/1.html,轉載請聲明來源鉆瓜專利網。





