[發明專利]醫院門戶網站門診專家信息抽取系統在審
| 申請號: | 201410591272.3 | 申請日: | 2014-10-29 |
| 公開(公告)號: | CN104281714A | 公開(公告)日: | 2015-01-14 |
| 發明(設計)人: | 張遠鵬;王理;錢旦敏 | 申請(專利權)人: | 南通大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 徐激波 |
| 地址: | 226000 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 醫院 門戶 網站 門診 專家 信息 抽取 系統 | ||
技術領域
本發明屬于醫學信息學領域,具體涉及一種醫院門戶網站門診專家信息抽取系統。?
背景技術
目前,絕大多數醫院的門戶網站上都會有該醫院專家信息(職稱、科室、擅長領域、門診時間等)的介紹。經過對江蘇省二級甲等以上的醫院的門戶網站進行了統計,結果顯示,90%以上的醫院網站上均有專家信息的介紹以及門診時間,在抽查的樣本中,40%左右的信息是以靜態頁面的形式呈現(也稱淺層網,surface?web),其余均以查詢的方式呈現(也稱深層網,deep?web)(M.K.?Bergman.?The?Deep?Web:?Surfacing?Hidden?Value[J].?The?Journal?of?Electronic?Publishing.2001,7(1):8912-8914),即需要通過參數查詢的方式才能獲取到需要的專家信息。無論是淺網數據,還是深層網數據,如果在某一區域范圍內,能夠將各個醫院所有的專家信息進行收集,并集成到社區居民電子健康檔案系統數據庫當中,將為社區居民的就醫提供極大的便利。?
信息抽?。↖nformation?Extraction,IE)指的是利用相關的算法,從未知的用自然語言描述的文檔中,抽取具有固定格式的、無歧義的以及結構化或半結構化的信息。(Thanaa?M.?Ghanem,?Walid?G.?Aref.?Databases?Deepen?the?Web[J].?IEEE?Computer?Society?Press?Los?Alamitos,?2004,?37(1):?116-117.)。目前信息抽取的主要對象是具有海量非結構化數據的業務系統,如電子病歷系統(王理,張遠鵬,董建成.利用領域關聯知識從電子病歷中抽取檢查數據[J].中華醫院管理雜志,2014,3(30):210-213),或者是Web資源。本文所抽取的對象是web資源。關于Web頁面的信息抽取,國內外已經有大量的文獻報道。伊利諾伊大學厄本那-香檳分校的研究人員(MetaQuerier?Research?Group.?Aceessible?at?http://metaquerier.es.uiuc.edu/?Oetober,2005)利用谷歌搜索引擎和Web目錄服務人工收集了8個領域的441個Deep?Web中的477個查詢接口,構建了TEL-8數據集,為后續的研究奠定了基礎。J?Cope等(J?Cope,N?Craswell,?D?Hawking.?Automated?Discovery?of?search?Interfaces?on?the?web[C].?Proceedings?of?the?l4th?Australasian?database?conference,?2003,?143:181-189)在deep?web數據抽取時,根據web表單特征,利用C4.5算法,構建表單分類器,但是該方法的準確率和正確率并不高,不能滿足實際抽取的需要。本文在J?Cope的研究基礎上,通過構建領域模型,實現查詢接口的分類和二次判別。對于返回的查詢結果,往往包含許多與抽取主題無關噪聲信息,對于噪聲信息的過濾,目前大多數采用的是基于規則的方法,例如,Yan?Fu(Yan?F,?Dongqing?Yang,?Shiwei?Tang.?Using?XPath?to?Discover?Informative?Content?Blocks?of?Web?Pages[C].?Proceedings?of?the?third?International?Conference?on?Semantics,?Knowledge?and?Grid.?SKG,?2007,?450-453)等人提出了XPath算法,并將該方法在5類不同的網頁數據上進行測試,準確率和正確率分別為92%和83.2%。但是,該方法的使用需要有一個重要的前提,即抽取的網頁需要具備類似的布局,當抽取的網頁數量非常龐大時,這一前提很難保證,因此,基于規則的方法具有一定的局限性。?
對于醫院門戶網站門診專家信息的抽取,所用技術主要體現在查詢接口(web表單)的發現和篩選以及信息抽取時噪聲信息的過濾。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南通大學,未經南通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410591272.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:可過濾空氣的尺寸穩定性較好服裝
- 下一篇:一種茶葉連續理條機節能灶





