[發(fā)明專利]語意分析裝置、方法及其電腦存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201710446957.2 | 申請日: | 2017-06-14 |
| 公開(公告)號: | CN109086262A | 公開(公告)日: | 2018-12-25 |
| 發(fā)明(設(shè)計)人: | 許云凱;陳聰杰;火致力;許耕偉 | 申請(專利權(quán))人: | 財團法人資訊工業(yè)策進會 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 上海專利商標事務(wù)所有限公司 31100 | 代理人: | 徐偉 |
| 地址: | 中國臺灣臺北市1*** | 國省代碼: | 中國臺灣;71 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語意分析 中文字符串 電腦存儲 群組 一對一 漢字 標簽 詞匯分析 分布計算 輸出信息 字符串 中文 | ||
一種語意分析裝置、方法及其電腦存儲介質(zhì)。該語意分析裝置對一中文字符串詞匯分析以得多個群組,且對該等群組語意分析以得至少一第一機率分布,各該至少一第一機率分布包含多個第一機率值一對一地對應(yīng)至多個標簽。該語意分析裝置將該中文字符串區(qū)分為多個漢字,對該等漢字語意分析以得至少一第二機率分布,各該至少一第二機率分布包含多個第二機率值一對一地對應(yīng)至該等標簽。該語意分析裝置根據(jù)該至少一第一機率分布及該至少一第二機率分布計算出至少一第三機率分布,且根據(jù)該至少一第三機率分布決定該中文字符串的至少一輸出信息。
技術(shù)領(lǐng)域
本發(fā)明系關(guān)于一種語意分析裝置、方法及其電腦存儲介質(zhì)。更具體而言,本發(fā)明系關(guān)于一種中文語意分析裝置、方法及其電腦存儲介質(zhì)。
背景技術(shù)
隨著科技的快速發(fā)展以及社群平臺的興盛,透過各種輸入接口提供各種信息(例如:文字消息、語音消息)已成為人們?nèi)粘I钪胁豢苫蛉钡脑亍T诓煌膽?yīng)用領(lǐng)域(例如:人機接口)中,如何正確地解讀人們所提供的信息,以便基于解讀后的信息提供適當?shù)捻憫?yīng)或/及服務(wù),是一個日益重要的議題。
已知的中文語意分析技術(shù)可區(qū)分為二大類,其中一類是利用深度學習網(wǎng)絡(luò)判斷一中文字符串所代表的意圖,而另一類則是采用關(guān)鍵詞分析技術(shù)標出一中文字符串中的關(guān)鍵詞。不論是哪一類技術(shù),在進行中文語意分析之前,皆須先對該中文字符串進行斷詞(WordSegmentation)。
已知的中文語意分析技術(shù)極度仰賴前端斷詞的正確性。盡管目前已有多種斷詞技術(shù),但這些技術(shù)在對一中文字符串斷詞時,仍難以處理「歧義識別」及「新詞識別」二個議題。歧異識別是指同一中文字符串可能有二種以上的斷詞結(jié)果。新詞識別則是指中文字符串中含有未被登錄的詞匯,也就是那些未收錄于字典但卻被實際使用的詞匯。由于已知的斷詞技術(shù)無法克服這些問題,導(dǎo)致后續(xù)的中文語意分析的結(jié)果不夠精準。
有鑒于此,本領(lǐng)域亟需一種能降低對斷詞技術(shù)的仰賴程度且能提高語意分析正確性的語意分析技術(shù)。
發(fā)明內(nèi)容
本發(fā)明的一目的在于提供一種語意分析裝置。該語意分析裝置包含一輸入接口、一儲存器及一處理器,其中該處理器電性連接至該輸入接口及該儲存器。該儲存器儲存多個標簽。該輸入接口接收一中文字符串。該處理器對該中文字符串進行詞匯分析以得多個群組,對該等群組進行語意分析以得至少一第一機率分布,其中各該至少一第一機率分布包含多個第一機率值一對一地對應(yīng)至該等標簽。該處理器更將該中文字符串區(qū)分為多個漢字,對該等漢字進行語意分析以得至少一第二機率分布,其中各該至少一第二機率分布包含多個第二機率值一對一地對應(yīng)至該等標簽。該處理器更根據(jù)該至少一第一機率分布及該至少一第二機率分布計算出至少一第三機率分布,且根據(jù)該至少一第三機率分布決定該中文字符串的至少一輸出信息,其中該至少一輸出信息與該等卷標其中之一相關(guān)。
本發(fā)明的另一目的在于提供一種語意分析方法,其系適用于一電子計算裝置。該分析方法包含下列步驟:(a)對該中文字符串進行詞匯分析以得多個群組,(b)將該中文字符串區(qū)分為多個漢字,(c)對該等群組進行語意分析以得至少一第一機率分布,其中各該至少一第一機率分布包含多個第一機率值一對一地對應(yīng)至多個標簽,(d)對該等漢字進行語意分析以得至少一第二機率分布,各該至少一第二機率分布包含多個第二機率值一對一地對應(yīng)至該等標簽,(e)根據(jù)該至少一第一機率分布及該至少一第二機率分布計算出至少一第三機率分布,以及(f)根據(jù)該至少一第三機率分布決定該中文字符串的至少一輸出信息,其中該至少一輸出信息與該等卷標其中之一相關(guān)。
本發(fā)明的又一目的在于提供一種電腦存儲介質(zhì),其儲存有包含多個程序指令的一計算機程序。一電子計算裝置加載該計算機程序后,該電子計算裝置執(zhí)行該計算機程序產(chǎn)品所包含的該等程序指令,以執(zhí)行前段所述的語意分析方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于財團法人資訊工業(yè)策進會,未經(jīng)財團法人資訊工業(yè)策進會許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710446957.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





