[發明專利]一種基于知識圖譜的語義識別方法及系統有效
| 申請號: | 201611192705.3 | 申請日: | 2016-12-21 |
| 公開(公告)號: | CN106776564B | 公開(公告)日: | 2020-04-24 |
| 發明(設計)人: | 張永成;尹弘 | 申請(專利權)人: | 張永成;尹弘 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 610041 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 圖譜 語義 識別 方法 系統 | ||
本發明公開了一種基于知識圖譜的語義識別方法及系統,該方法包括:預先構建知識圖譜,該知識圖譜包括語音層、字層、表示層、語義層及意圖層;接收輸入信息,將該輸入信息轉換為語音單元,確定與每個語音單元關聯的字單元及與每個字單元關聯的表示單元;確定與每個表示單元關聯的語義單元,根據每個語義單元與輸入信息中位于其對應表示單元對應位置之前的前驅組及之后的后繼組之間的關聯選取出選定語義單元;確定與每個選定語義單元關聯的意圖單元,并根據每個意圖單元與對應選定語義單元之間的關聯由意圖單元中選取出選定意圖單元,確定該選定意圖單元組成的選定意圖集合為與輸入信息對應的意圖。由此,可以對全部自然語言進行語義識別。
技術領域
本發明涉及自然語言處理技術領域,更具體地說,涉及一種基于知識圖譜的語義識別方法及系統。
背景技術
在自然語言處理中,語義識別是核心問題,只有完成該項工作,才能有效的識別自然語言輸入中的信息,讓計算機真正理解文本。簡單來說,通過這項工作的實現,計算機可以理解用戶通過自然語言形式輸入的信息,獲取用戶輸入的數據。
現有技術用于實現語義識別的技術方案一般基于機器學習,具體來說,將整個語義識別過程分為多個步驟,包括分詞、詞性標注、依存分析、命名實體識別及關鍵詞抽取等,而上述步驟均需使用機器學習的方法,基于標注的上述資料訓練對應的語義識別模型,進而將用戶輸入的信息作為該語義識別模型的輸入,即可得到該語義識別模型輸出的與用戶輸入信息對應的語義識別結果。但是發明人發現,由于語義識別模型與用于訓練該模型的資料關聯,即其僅僅能夠識別出與訓練該模型的資料對應的自然語言的語義,因此,對于其他自然語言而無法實現其語義識別。
綜上所述,現有技術中用于實現語義識別的技術方案存在無法支持與語義識別模型無關聯的自然語言的語義識別的問題。
發明內容
本發明的目的是提供一種基于知識圖譜的語義識別方法及系統,以解決現有技術中用于實現語義識別的技術方案存在的無法支持與語義識別模型無關聯的自然語言的語義識別的問題。
為了實現上述目的,本發明提供如下技術方案:
一種基于知識圖譜的語義識別方法,包括:
預先構建知識圖譜,該知識圖譜包括語音層、字層、表示層、語義層及意圖層,語音層、字層、表示層、語義層及意圖層的全部層或者部分層中的每層均具有對應的單元;
接收用戶輸入的輸入信息,將該輸入信息轉換為語音單元,確定與每個語音單元關聯的字單元,并確定與每個字單元關聯的表示單元;
確定與每個表示單元關聯的語義單元,并根據每個語義單元與所述輸入信息中位于其對應表示單元對應位置之前的語義單元為前驅組、及之后的語義單元為后繼組之間的關聯,由所述語義單元中選取出選定語義單元;
確定與每個選定語義單元關聯的意圖單元,并根據每個意圖單元與對應選定語義單元之間的關聯由所述意圖單元中選取出選定意圖單元,確定該選定意圖單元組成的選定意圖集合為與所述輸入信息對應的意圖。
優選的,確定與每個語音單元關聯的字單元之后及確定與每個字單元關聯的表示單元之后,還包括:
將包含第一單元大于對應閾值,但只關聯到一個輸入信息對應第一單元的第二單元去除,并將關聯到的輸入信息對應第一單元數量與包含的第一單元數量的比值低于對應閾值的第二單元去除;
其中,第二單元為字單元時,第一單元為語音單元;第二單元為表示單元時,第一單元為字單元。
優選的,選取出所述選定語義單元,包括:
將所述語義單元放入候選集合中,將每個表示單元及對應的語義單元組成與每個表示單元對應的單元組,基于每個單元組的最大前驅置信度及最大后繼置信度計算該單元組的語義置信度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于張永成;尹弘,未經張永成;尹弘許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611192705.3/2.html,轉載請聲明來源鉆瓜專利網。





