[發明專利]文本實體提取方法及裝置有效

申請號：	201710107546.0	申請日：	2017-02-27
公開（公告）號：	CN106910501B	公開（公告）日：	2019-03-01
發明（設計）人：	包恒耀;蘇可;陳益;饒孟良	申請（專利權）人：	騰訊科技（深圳）有限公司
主分類號：	G06F17/27	分類號：	G06F17/27
代理公司：	北京三高永信知識產權代理有限責任公司 11138	代理人：	朱雅男
地址：	518057 廣東省深圳***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本實體提取方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種文本實體提取方法及裝置，屬于文本提取領域。該方法包括：確定目標文本中包含的候選文本實體；對候選文本實體進行組合，生成目標文本對應的候選分詞組合，各個候選分詞組合中包含的候選文本實體不同；計算各個候選分詞組合對應的組合概率，組合概率指目標文本采用所述候選分詞組合時語法成立的概率；根據組合概率確定目標文本對應的目標分詞組合；根據目標分詞組合從目標文本中提取文本實體。本發明實施例中文本實體的提取不依賴預設模板，縮短了前期配置所耗費時間；同時，相較于模板匹配，采用概率計算的方式確定目標分詞組合的速度更快，能夠避免因未查找到匹配的模板而導致文本實體提取失敗的問題。

技術領域

本發明實施例涉及文本提取領域，特別涉及一種文本實體提取方法及裝置。

背景技術

隨著人機交互技術的不斷發展，越來越多的智能設備開始具備自然語言認知功能。在使用這類智能設備時，用戶只需要發起自然語言指令，智能設備即能夠對自然語言指令進行認知分析，并根據分析結果執行相應操作，其中，認知分析技術的核心在于如何從自然語言指令中提取特定的文本實體。比如，當接收到的自然語言指令指示播放歌曲時，智能設備需要通過認知分析技術從該自然語言指令中提取出諸如歌手名和/或歌曲名的文本實體。

在文本提取領域，從自然語言指令中提取出文本實體通常基于模板匹配實現。采用模板匹配的方式提取自然語言指令中的文本實體時，智能設備將獲取到的自然語言指令與大量預設模板進行匹配，并根據匹配到的預設模板從自然語言指令中提取相應的文本實體。比如，智能設備獲取到的自然語言指令為“我想聽歌手A的歌曲B”，并查找到匹配的預設模板“我想聽[歌手]的[歌曲]”，從而根據該模板提取到文本實體“歌手A”和“歌曲B”。

然而，由于自然語言指令的不確定性，為了達到較好的認知效果，開發人員需要預先設置大量的模板，導致在進行模板匹配時需要花費大量時間；并且，在未查找到完全匹配的模板時，智能設備將無法從自然語言指令中提取到相應文本實體。

發明內容

為了解決開發人員需要預先設置大量的模板，導致在進行模板匹配時需要花費大量時間；且在未查找到完全匹配的模板時，智能設備將無法從自然語言指令中提取到相應文本實體的問題，本發明實施例提供了一種文本實體提取方法及裝置。所述技術方案如下：

根據本發明實施例的第一方面，提供了一種文本實體提取方法，該方法包括：

確定目標文本中包含的候選文本實體；

對候選文本實體進行組合，生成目標文本對應的候選分詞組合，各個候選分詞組合中包含的候選文本實體不同；

計算各個候選分詞組合對應的組合概率，組合概率指目標文本采用候選分詞組合時語法成立的概率；

根據組合概率確定目標文本對應的目標分詞組合；

根據目標分詞組合從目標文本中提取文本實體。

根據本發明實施例的第二方面，提供了一種文本實體提取裝置，該裝置包括：

第一確定模塊，用于確定目標文本中包含的候選文本實體；

生成模塊，用于對候選文本實體進行組合，生成目標文本對應的候選分詞組合，各個候選分詞組合中包含的候選文本實體不同；