數字博物館—博物館網絡信息采集系統
斌鉞博物館網絡信息資源采集系統定位是一套功能強大的網絡信息資源開發利用與整合系統,可用于定制跟蹤和監控互聯網實時信息,能夠快速及時地捕獲用戶所需的熱點新聞、市場情報、行業信息、政策法規、學術文獻等網絡信息內容,建立可再利用的信息服務系統。系統能夠從各種網絡信息源采集用戶感興趣的特定信息,經自動分類處理后,以多種形式提供給最終用戶使用。
系統可以對國內外不少于50個網站上公開發布的指定內容的信息進行定向采集;實時動態監控特定目標;將標題、全文等內容轉為結構化數據;支持部分附件全文等非結構化內容的采集,支持全文檢索。采集信息自動建庫存儲,內容可進行加工處理,直接存入數據庫,可與本項目中其他館內資源整合到一起進行資源服務。
(一)系統功能要求:
(1)先進的資源智能處理能力
系統基于語義分析技術,集成多種智能信息處理算法,支持采集信息的自動分類;支持用戶自定義分類體系。系統擁有自學習功能,可以根據用戶反饋信息,及時地自學習完善知識體系,提高自身的智能性。
(2)強大的信息采集能力
高效的信息采集技術完成網絡數據獲取,能快速、全面、準確的從Internet上獲取數據,并可對采集的數據進行結構化處理。可以多線程并行采集,靈活地定制采集策略。對于采集規模較大的應用,可支持采用集群式網絡蜘蛛抓取,從而滿足抓取速度上的需求。
(3)體系結構靈活
網絡蜘蛛群集,智能代理群集,應用服務器智能調度,各子系統可以支持隨時斷開以及隨時連接到系統中來,不影響整個系統的運行。
(4)基于海量非結構化數據存儲和全文檢索能力
能夠與本項目購買的全文檢索數據庫系統協同工作,支持海量非結構化數據的存儲管理,支持全文檢索,支持智能相似檢索技術,檢索速度可達百萬級文獻量毫秒級響應。
(5)強大的發布系統
系統支持多種發布風格,包括:專題庫風格、信息資源門戶風格、搜索引擎風格等。支持動態摘要和敏感摘要,并提供標紅、網頁快照、相關網頁自動關聯等實用功能。
(6)穩定可靠的系統性能
系統支持采用分布式的群集系統、高效的搜索算法以及靈活的體系結構,保證整個系統的高穩定性和易用性。
(7)滿足用戶的各種個性化檢索需求
支持用戶自定義符合特殊需求的個性化分詞詞典,只需要輸入專業詞匯,系統便會按照用戶的定制精確檢索,大幅提高檢索效率和查全查準率,充分滿足用戶的各種個性化檢索需求。
(8)支持主流的中文編碼標準
包括GBK(漢字內碼擴展規范)、GB2312(簡體)、BIG5(繁體)、Unicode,并且能夠在不同的編碼之間轉換。
(9)支持與博物館其他系統進行深度整合
系統采集信息支持與博物館信息資源建設與管理系統建設的信息進行整合服務,與信息資源建設與管理系統采用相同架構的全文數據庫管理系統進行數據管理。
(二)系統性能要求:
l信息采集器:采集快,實時響應。
l信息采集器監控:實時響應。
l采集信息排重:實時響應。
l相似性分析時間:100萬記錄/20毫秒。
Hash:27efc0d85d42f5318909e5ed01e03406c6a12910
聲明:此文由 錦霖文保 分享發布,并不意味本站贊同其觀點,文章內容僅供參考。此文如侵犯到您的合法權益,請聯系我們 kefu@www.51kouyi.org