[發明專利]一種語義搜索方法及系統在審
| 申請號: | 201410537867.0 | 申請日: | 2014-10-13 |
| 公開(公告)號: | CN104281693A | 公開(公告)日: | 2015-01-14 |
| 發明(設計)人: | 賈巖 | 申請(專利權)人: | 安徽華貞信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 合肥市長遠專利代理事務所(普通合伙) 34119 | 代理人: | 程篤慶;黃樂瑜 |
| 地址: | 230000 安徽省合肥市高*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語義 搜索 方法 系統 | ||
技術領域
本發明涉及數據網絡技術領域,尤其涉及一種語義搜索方法及系統。
背景技術
目前互聯網上信息轉載率很高,再加上百度、google等搜索引擎為了搜索的查全率,導致通用搜索的搜索結果重復度非常高,不利于企業快速發現有價值的內容。
發明內容
為了解決背景技術中存在的技術問題,本發明提出了一種語義搜索方法及系統,通過網絡探針技術,自動發現內容相似度高的網站;通過提取網頁正文,對每段文本編碼,可準確判斷一篇文章重復度。
本發明提出的一種語義搜索方法,包括以下步驟:
建立語義本體庫;
根據語義本體庫分析句子,得到句子的名詞性概念、動作概念和傾向性,得到語句的語義描述,統計分析段落主要語義指代,然后利用文檔篇章結構總結篇章主要描述對象、語義傾向性等語義基本信息,并與文檔一起關聯存儲;
根據語義本體庫進行行業相關數據探測和抓取。
優選地,所述語義本體庫包括行業概念體系、概念之間語義關系、詞語與概念之間的關系。
優選地,所述語義本體庫包括行業無關的內置本體庫和行業相關的行業本體庫。
優選地,所述根據語義本體庫進行行業相關數據探測和抓取,具體包括:采用網絡行業信息探針,利用語義本體庫,通過URL鏈路、搜索引擎跳板等手段,找備選網站,然后驗證網站或者子站、子目錄是否為企業相關信息、相關密度是什么,并通過網站拓撲、URL鏈路,form表格對深度網絡進行挖掘,以找潛在數據源。
優選地,所述采用網絡行業信息探針,具體包括不斷探測一個站點網頁,通過自動填充表單的方式,測試返回數據,從而找到最合適的表單格式,找到表單格式之后,自動提交表單,比較獲取網頁。
本發明提出的一種語義搜索系統,包括:
建立模塊,用于建立語義本體庫;
分析模塊,與所述建立模塊連接,用于根據語義本體庫分析句子,得到句子的名詞性概念、動作概念和傾向性,得到語句的語義描述,統計分析段落主要語義指代,然后利用文檔篇章結構總結篇章主要描述對象、語義傾向性等語義基本信息,并與文檔一起關聯存儲;
探測和抓取模塊,與所述分析模塊連接,用于根據語義本體庫進行行業相關數據探測和抓取。
優選地,所述語義本體庫包括行業概念體系、概念之間語義關系、詞語與概念之間的關系。
優選地,所述語義本體庫包括行業無關的內置本體庫和行業相關的行業本體庫。
優選地,所述根據語義本體庫進行行業相關數據探測和抓取,具體包括:采用網絡行業信息探針,利用語義本體庫,通過URL鏈路、搜索引擎跳板等手段,找備選網站,然后驗證網站或者子站、子目錄是否為企業相關信息、相關密度是什么,并通過網站拓撲、URL鏈路,form表格對深度網絡進行挖掘,以找潛在數據源。
優選地,所述采用網絡行業信息探針,具體包括不斷探測一個站點網頁,通過自動填充表單的方式,測試返回數據,從而找到最合適的表單格式,找到表單格式之后,自動提交表單,比較獲取網頁。
本發明中,通過分析句子,得到句子的名詞性概念、動作概念和傾向性、語句的語義描述,然后統計分析段落主要語義指代,利用文檔篇章結構總結篇章主要描述對象、語義傾向性等語義基本信息,并與文檔一起關聯存儲,以支持語義搜索和情報分析。并且可以利用企業搜索需求所關注的一般為針對性強的行業內信息的特點,結合業已相當豐富的互聯網資源,快速構建適合本項目所提出的語義搜索模型中所需要的本體,然后利用本體語義信息豐富的特點,實現了實用的、語義層面的行業定制搜索引擎。
附圖說明
圖1為本發明實施例提出的一種語義搜索方法流程圖;
圖2為本發明實施例提出的一種語義搜索系統結構圖。
具體實施方式
如圖1所示,本發明實施例提出了一種語義搜索方法及系統,包括以下步驟:
步驟101,建立語義本體庫。其中,語義本體庫描述的要點包括行業概念體系、概念之間語義關系、詞語與概念之間的關系等。構建該語義本體庫,需要利用數據挖掘和互聯網資源相互對照實現概念體系和語義關系等,并提供可視化人工修整工具,大大縮減構建成本。語義本體庫主要為兩套,一套是行業無關的內置本體庫,可描述一般性、行業無關的詞匯和語言概念,并且用戶可以通過系統自動更新來更新該本體庫;一套是描述行業相關的行業本體庫,主要描述行業概念以及概念之間的關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽華貞信息科技有限公司,未經安徽華貞信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410537867.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:杠桿式下擺機
- 下一篇:一種切割配電柜板材的切割裝置





