[發(fā)明專利]智能機(jī)器人交互系統(tǒng)在投融資領(lǐng)域的應(yīng)用在審
| 申請(qǐng)?zhí)枺?/td> | 201410853540.4 | 申請(qǐng)日: | 2014-12-31 |
| 公開(公告)號(hào): | CN104572619A | 公開(公告)日: | 2015-04-29 |
| 發(fā)明(設(shè)計(jì))人: | 李朝暉 | 申請(qǐng)(專利權(quán))人: | 天津市招財(cái)貓信息技術(shù)有限公司 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 無 | 代理人: | 無 |
| 地址: | 300457 天津市濱海新區(qū)天津經(jīng)濟(jì)技術(shù)開發(fā)*** | 國(guó)省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 智能 機(jī)器人 交互 系統(tǒng) 融資 領(lǐng)域 應(yīng)用 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于智能機(jī)器人技術(shù)領(lǐng)域,尤其涉及一種智能機(jī)器人交互系統(tǒng)在投融資領(lǐng)域的應(yīng)用。
背景技術(shù)
中文分詞指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡(jiǎn)單劃界,唯獨(dú)詞沒有一個(gè)形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這一層上,中文比之英文要復(fù)雜的多、困難的多。對(duì)于所有的智能聊天機(jī)器人,簡(jiǎn)單地說,就是基于人工智能原理、通過對(duì)聊天文本進(jìn)行分析后給出應(yīng)答的一類程序。世界上最早的聊天機(jī)器人誕生于20世紀(jì)80年代,而由于中文對(duì)“詞”劃分的模糊及歧義繁多等等原因,中文聊天機(jī)器人發(fā)展得相對(duì)較慢。
現(xiàn)有存在的中文分詞技術(shù),是由于中文在基本文法上有其特殊性,具體表現(xiàn)在:與英文為代表的拉丁語系語言相比,英文以空格作為天然的分隔符,而中文由于繼承自古代漢語的傳統(tǒng),詞語之間沒有分隔,古代漢語中除了連綿詞和人名地名等,詞通常就是單個(gè)漢字,所以當(dāng)時(shí)沒有分詞書寫的必要,而現(xiàn)代漢語中雙字或多字詞居多,一個(gè)字不再等同于一個(gè)詞。在中文里,“詞”和“詞組”邊界模糊。現(xiàn)代漢語的基本表達(dá)單元雖然為“詞”,且以雙字或者多字詞居多,但由于人們認(rèn)識(shí)水平的不同,對(duì)詞和短語的邊界很難去區(qū)分。例如:“對(duì)隨地吐痰者給予處罰”,“隨地吐痰者”本身是一個(gè)詞還是一個(gè)短語,不同的人會(huì)有不同的標(biāo)準(zhǔn),同樣的“海上”“酒廠”等等,即使是同一個(gè)人也可能做出不同判斷,如果漢語真的要分詞書寫,必然會(huì)出現(xiàn)混亂,難度很大。
中文分詞對(duì)于智能聊天機(jī)器人來說,最重要的并不是找到所有結(jié)果,因?yàn)樵谏锨f的應(yīng)答庫中找到所有結(jié)果沒有太多的意義,最重要的是把最相關(guān)的結(jié)果排在最前面,這也稱為相關(guān)度排序。中文分詞的準(zhǔn)確與否,常常直接影響到對(duì)搜索結(jié)果的相關(guān)度排序。從定性分析來說,智能聊天機(jī)器人的分詞算法不同,詞庫的不同都會(huì)影響應(yīng)答庫的返回結(jié)果。在中文分詞過程中,有兩大難題一直沒有完全突破。
第一個(gè)問題是歧義識(shí)別:主要的歧義有兩種:交集型歧義和組合型歧義,例如:表面的,因?yàn)椤氨砻妗焙汀懊娴摹倍际窃~,那么這個(gè)短語就可以分成“表面的”和“表面的”。這種稱為交集型歧義(交叉歧義)。像這種交集型歧義十分常見,前面舉的“和服”的例子,其實(shí)就是因?為交集型歧義引起的錯(cuò)誤。“化妝和服裝”可以分成“化妝和服裝”或者“化妝和服裝”。由于沒有人的知識(shí)去理解,計(jì)算機(jī)很難知道到底哪個(gè)方案正確。
交集型歧義相對(duì)組合型歧義來說是還算比較容易處理,組合型歧義就必須根據(jù)整個(gè)句子來判斷了。例如,在句子“這個(gè)門把手壞了”中,“把手”是個(gè)詞,但在句子“請(qǐng)把手拿開”中,“把手”就不是一個(gè)詞;在句子“將軍任命了一名中將”中,“中將”是個(gè)詞,但在句子“產(chǎn)量三年中將增長(zhǎng)兩倍”中,“中將”就不再是詞。這些詞計(jì)算機(jī)又如何去識(shí)別?
如果交集型歧義和組合型歧義計(jì)算機(jī)都能解決的話,在歧義中還有一個(gè)難題,是真歧義。真歧義意思是給出一句話,由人去判斷也不知道哪個(gè)應(yīng)該是詞,哪個(gè)應(yīng)該不是詞。例如:“乒乓球拍賣完了”,可以切分成“乒乓球拍賣完了”、也可切分成“乒乓球拍賣完了”,如果沒有上下文其他的句子,恐怕誰也不知道“拍賣”在這里算不算一個(gè)詞。
第二個(gè)問題是新詞識(shí)別:命名實(shí)體(人名、地名)、新詞,專業(yè)術(shù)語稱為未登錄詞。也就是那些在分詞詞典中沒有收錄,但又確實(shí)能稱為詞的那些詞。最典型的是人名,人可以很容易理解。句子“王軍虎去廣州了”中,“王軍虎”是個(gè)詞,因?yàn)槭且粋€(gè)人的名字,但要是讓計(jì)算機(jī)去識(shí)別就困難了。如果把“王軍虎”做為一個(gè)詞收錄到字典中去,全世界有那么多名字,而且每時(shí)每刻都有新增的人名,收錄這些人名本身就是一項(xiàng)既不劃算又巨大的工程。即使這項(xiàng)工作可以完成,還是會(huì)存在問題,例如:在句子“王軍虎頭虎腦的”中,“王軍虎”還能不能算詞?
除了人名以外,還有機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡(jiǎn)稱、省略語等都是很難處理的問題,而且這些又正好是人們經(jīng)常使用的詞,因此對(duì)于搜索引擎來說,分詞系統(tǒng)中的新詞識(shí)別十分重要。新詞識(shí)別準(zhǔn)確率已經(jīng)成為評(píng)價(jià)一個(gè)分詞系統(tǒng)好壞的重要標(biāo)志之一。如何解決讓電腦理解句中的語義成為現(xiàn)階段中文人工智能的難題。
發(fā)明內(nèi)容
為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明的目的是提供一種智能機(jī)器人交互系統(tǒng)在投融資領(lǐng)域的應(yīng)用,可以很好的解決中文聊天中的問題,同時(shí)利用大數(shù)據(jù)自訓(xùn)練學(xué)習(xí)功能不斷提高應(yīng)答匹配度,能很好的達(dá)成聊天客服的基本功能。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
一種智能機(jī)器人交互系統(tǒng)在投融資領(lǐng)域的應(yīng)用,其特征在于該系統(tǒng)的功能及業(yè)務(wù)處理步驟為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津市招財(cái)貓信息技術(shù)有限公司;,未經(jīng)天津市招財(cái)貓信息技術(shù)有限公司;許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410853540.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





