[發明專利]一種自動問答方法及裝置有效
| 申請號: | 201210128360.0 | 申請日: | 2012-04-27 |
| 公開(公告)號: | CN103377245B | 公開(公告)日: | 2018-09-11 |
| 發明(設計)人: | 路彥雄;賀翔;焦峰 | 申請(專利權)人: | 深圳市世紀光速信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 518057 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動 問答 方法 裝置 | ||
本發明實施例公開了一種自動問答方法,該方法包括:根據用戶終端輸入的問題串獲取相關的現有用戶問答數據;統計所述現有用戶問答數據的摘要部分的中心詞的詞頻;根據所述各個中心詞的詞頻和預先統計出的所述各個中心詞的逆文檔頻率,計算所述各個中心詞的詞權重,將詞權重最大的中心詞確定為答案詞;根據所述答案詞確定所述問題串對應的自動問答的答案。本發明還公開了一種自動問答裝置,該方法和裝置不需要建立知識庫,也不需要限制知識領域,只需根據現有問答社區的用戶問答數據,即可實現自動問答。
技術領域
本發明涉及網絡搜索技術領域,特別涉及一種自動問答方法及裝置。
背景技術
在當前的網絡搜索中,問答社區逐漸發展起來,問答社區即用戶參與提問和回答,并按照這種問答關系將用戶和數據組織起來,可供用戶搜索的互聯網產品。而問答社區中,完全由用戶來回答問題是無法滿足用戶提問需求的,因此目前大多數問答社區還提供自動問答功能,即由后臺服務器自動對用戶的問題給出答案。
自動問答目前主要有兩種實現方法:
1)在特定知識領域內,根據設定的分析方法,自動分析用戶問題并從現有回答中抽取答案。
2)在大量的預定義的知識庫中匹配答案。
對于第一種在特定知識領域內分析問題并抽取答案,這種方法由于限定在特定的知識領域,所以具有一定的局限性。
而對于第二種在大量的預定義的知識庫中匹配答案,這種方法解決問題的能力取決于預先存儲的知識庫數據量的大小,超出知識庫范圍的問題無法實現自動問答。
總之,現有技術中,自動問答必須依托特定知識領域或知識庫;只要是超出知識領域或知識庫的問題,都無法實現自動問答。
發明內容
有鑒于此,本發明提供了一種自動問答方法及裝置,可以根據現有問答社區的用戶問答數據,實現自動問答。為達上述目的,本發明的技術方案具體是這樣實現的:
一種自動問答方法,該方法包括:
根據用戶終端輸入的問題串獲取相關的現有用戶問答數據;
統計所述現有用戶問答數據的摘要部分的中心詞的詞頻;
根據所述各個中心詞的詞頻和預先統計出的所述各個中心詞的逆文檔頻率,計算所述各個中心詞的詞權重,將詞權重最大的中心詞確定為答案詞;
根據所述答案詞確定所述問題串對應的自動問答的答案。
較佳地,所述根據用戶終端輸入的問題串獲取相關的現有用戶問答數據,包括:
將所述問題串作為檢索串,輸入到問答社區的搜索引擎,獲得與所述檢索串對應的查詢結果,每條查詢結果包括標題部分和帶有區別標識的摘要部分。
較佳地,統計所述現有用戶問答數據的摘要部分的中心詞的詞頻,包括:
逐條統計每一條查詢結果的摘要部分的中心詞詞頻,直至所有查詢結果都統計完成;
其中,針對每一條查詢結果,將其摘要部分以句號切分為句子,針對每個句子統計其中各中心詞的詞頻,將所有句子中的中心詞的詞頻進行累加,得到摘要中所有中心詞的詞頻。
較佳地,所述將所有句子中的中心詞的詞頻進行累加,得到摘要中所有中心詞的詞頻,包括:
如果句子中有帶有區別標識的詞,則該句子中各個中心詞的詞頻按3倍標準權重累加;如果該句子前或后相鄰的句子中有帶有區別標識的詞,則該句子中各個中心詞的詞頻按2倍標準權重累加;否則,該句子中各個中心詞的詞頻按標準權重累加,從而得到該句子中所有中心詞的加權詞頻。
較佳地,所述逐條統計每一條查詢結果的摘要部分的中心詞詞頻,直至所有查詢結果都統計完成,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市世紀光速信息技術有限公司,未經深圳市世紀光速信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210128360.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:割草機用旋轉切割器
- 下一篇:一種便捷式鋼筋定位裝置





