[發明專利]文本跨度的智能選擇有效
| 申請號: | 201480055252.2 | 申請日: | 2014-10-01 |
| 公開(公告)號: | CN105637507B | 公開(公告)日: | 2019-03-08 |
| 發明(設計)人: | P·潘特爾;M·蓋蒙;A·D·富克斯曼;B·科爾邁爾;P·基拉卡馬里 | 申請(專利權)人: | 微軟技術許可有限責任公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 永新專利商標代理有限公司 72002 | 代理人: | 劉瑜;王英 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 跨度 智能 選擇 | ||
1.一種用于預測形成用戶想要選擇的單個詞或一系列兩個或更多個詞的文本跨度的計算機實現方法,包括:
使用計算機來執行以下處理動作:
接收包含字符串的文檔;
接收指示所述文檔中的用戶選定的文本的字符的特定位置的位置指針;
將所述文檔和所述位置指針輸入到多個不同的候選文本跨度生成方法;
接收從所述不同的候選文本跨度生成方法中的每一個輸出的關于一個或多個記分候選文本跨度的排名列表;
使用機器學習總體模型來對從所述不同的候選文本跨度生成方法中的每一個接收到的每個所述記分候選文本跨度進行重新記分,所述總體模型是利用機器學習方法和來自真實意圖用戶文本跨度選擇的數據集的特征來訓練的;
從所述總體模型接收重新記分候選文本跨度排名列表;
識別所述重新記分候選文本跨度排名列表中的具有最高得分的候選文本跨度;以及
向所述用戶顯示所述識別的候選文本跨度,以作為對用戶想要選擇的文本跨度的預測。
2.如權利要求1所述的方法,其中所述不同的候選文本跨度生成方法包括以下任一:
多個不同的語言單元檢測器方法;或者
多個不同的試探方法;或者
一個或多個不同的語言單元檢測器方法和一個或多個不同的試探方法的組合。
3.如權利要求2所述的方法,其中所述位置指針識別用戶在所述文檔中選定的詞,并且所述不同的語言單元檢測器方法包括超鏈接意圖模型方法,所述超鏈接意圖模型方法使用機器學習超鏈接意圖模型來識別納入了所識別的詞的候選文本跨度。
4.如權利要求2所述的方法,其中所述位置指針識別用戶在所述文檔中選定的詞,并且所述不同的語言單元檢測器方法包括一個或多個不同命名的實體辨識器方法,其中每個所述實體辨識器方法識別包含納入了所識別的詞的命名實體的候選文本跨度。
5.如權利要求2所述的方法,其中所述位置指針識別用戶在所述文檔中選定的詞,并且所述不同的語言單元檢測器方法包括一個或多個不同名詞短語檢測器方法,其中每個所述名詞短語檢測器方法識別包含納入了所識別的詞的名詞短語的候選文本跨度。
6.如權利要求2所述的方法,其中所述位置指針識別用戶在所述文檔中選定的詞,并且所述不同的語言單元檢測器方法包括知識庫查找方法,所述知識庫查找方法使用Web圖形來識別將納入了所識別的詞的命名實體、或納入了所識別的詞的名詞短語、或納入了所識別的詞的概念包括在內的候選文本跨度,所述Web圖形包括來自一個或多個不同的知識庫的信息。
7.如權利要求2所述的方法,其中所述位置指針識別用戶在所述文檔中選定的詞,并且所述不同的試探方法包括以下中的一個或多個:
假設所識別的詞為用戶想要選擇的文本跨度的試探;或者
基于大寫的試探,每當所識別的詞是大寫的時,所述基于大寫的試探評估所識別的詞的左側的字符串和所識別的詞的右側的字符串,并且將所識別的詞擴展到大寫詞的最長可能不中斷序列。
8.一種用于預測形成用戶想要選擇的單個詞或一系列兩個或更多個詞的文本跨度的計算機實現方法,包括:
使用計算機來執行以下處理動作:
接收包含字符串的文檔;
接收指示所述文檔中的用戶選定的文本的字符的特定位置的位置指針;
將所述文檔和所述位置指針輸入到機器學習超鏈接意圖模型;
接收從所述超鏈接意圖模型輸出的記分候選文本跨度排名列表;
使用機器學習總體模型來對從所述超鏈接意圖模型接收到的每個所述記分候選文本跨度進行重新記分,所述總體模型是利用機器學習方法和來自真實意圖用戶文本跨度選擇的數據集的特征來訓練的;
從所述總體模型接收重新記分候選文本跨度排名列表;
識別所述重新記分候選文本跨度排名列表中的具有最高得分的候選文本跨度;以及
向所述用戶顯示所述識別的候選文本跨度,以作為對用戶想要選擇的文本跨度的預測。
9.如權利要求8所述的方法,其中所述位置指針識別用戶在所述文檔中選定的詞,并且從所述超鏈接意圖模型接收記分候選文本跨度排名列表的動作包括以下動作:
(a)將所識別的詞指派為當前候選文本跨度;
(b)評估所述當前候選文本跨度的向其左側一個詞的擴展,所述評估包括使用所述超鏈接意圖模型和左向二元分類器來對左向擴展記分以及將所述左向擴展及其得分存儲在所述記分候選文本跨度排名列表中的動作;
(c)評估所述當前候選文本跨度的向其右側一個詞的擴展,所述評估包括使用所述超鏈接意圖模型和右向二元分類器來對右向擴展記分以及將所述右向擴展及其得分存儲在所述記分候選文本跨度排名列表中的動作;
(d)選擇對于將所述當前候選文本跨度向其左側擴展一個詞的得分和對于將所述當前候選文本跨度向其右側擴展一個詞的得分中的較大者;
(e)每當選定的得分大于規定閾值時,將對應于所述選定的得分的擴展指派為所述當前候選文本跨度,以及重復動作(b)-(e)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟技術許可有限責任公司,未經微軟技術許可有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201480055252.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:在圖像內搜索和注釋
- 下一篇:用于優化數據存儲上的查詢執行的方法





