打造科學家自己的搜索引擎
2015-01-17
來自:
湛江市??粕锟萍加邢薰?
瀏覽次數:1239
當海洋學家Peter Wiebe近期打算寫一篇今年1月乘船去紅海的文章時,他想檢索這一地區所有浮游生物的數據。他知道其他研究人員多年來已經在積累相關有機物樣本,但有個問題:他不知道在哪里可以找到這些資料。
“這些數據中心是一種‘黑洞’?!痹诿绹R薩諸塞州伍茲霍爾海洋研究所工作的Wiebe說,“數據已被錄入,但是很難指出哪里存了哪些資料以及如何獲取這些資料?!?/p>
這種局面很快將改變。
Wiebe正在和一組計算機學家一起工作,為智能學術搜索引擎奠定基礎,該引擎將幫助地球學家眨眼間找到他們想要的確切數據集和出版物,而不是花費數小時在谷歌學術網上逐頁翻尋毫不相關的文章。該小組近期在舊金山舉行的美國地球物理學會(AGU)會議上正式啟動了這項名為geoLink的項目。該項目是EarthCube計劃的一部分,該計劃由美國國家科學基金會(NSF)資助,旨在升級地球科學的網絡基礎設施。
未來兩年,Wiebe與同事將建立可以從AGU會議摘要、NSF獎以及地球科學數據庫提取數據的計算機程序,然后通過數字化方式把這些資源相互連接,使科學家更容易獲取相關數據。今年已完工的一項叫OceanLink的試點項目已經拓展了其中的部分基礎設計。弗吉尼亞州瑪麗蒙特大學計算機學家Tom Narock說,如果新項目可以獲得科學界的足夠興趣,研究人員最終將把它變成一項綜合的地球科學一站式搜索中心。
類似GeoLink的項目是科學界通過利用計算機不斷增加的文獻處理能力讓文獻回顧更加有效的一部分工作,隨著每年出現數以百萬計的新論文,這一服務功能的必要性越來越迫切。華盛頓西雅圖艾倫人工智能研究所(AI 2)的一項類似計劃正在為計算機科學研發一種智能學術搜索引擎。這項被稱為“Semantic Scholar”的計劃有望在2015年年底問世。AI 2執行總裁Oren Etzioni說,該機構計劃最終擴大Semantic Scholar的覆蓋范圍并包含其他的科目。
現有學術搜索引擎以廣泛覆蓋科學文獻而著稱(經計算單是谷歌學術搜索引擎就包含1600萬條文獻索引)。然而,它們需要依賴關鍵詞搜索,這意味著用戶搜到的垃圾信息往往遠超有價值的信息。而且這些搜索引擎通常也不能還原原始數據集。
相比較而言,GeoLink和Semantic Scholar試圖建立迎合專業領域需求的精細分類搜索引擎,通過幫助計算機在出版物之間建立科學有效的聯系,挖掘更深的語義處理信息。比如,Wiebe輸入“紅海浮游生物”后,搜索引擎就會明白這是論文中出現的字符串,而且還會知道研究該領域的研究人員、他們使用的油輪和器材以及他們的數據集和論文。
谷歌也使用了類似技術提升其主要搜索引擎,但是諸如GeoLink這樣的項目得益于在某個領域具有廣泛知識的研究人員輸入的資料,科學家會區別出有效的連接,然后計算機學家把它們轉化成代碼。生物醫藥研究人員在建立細化、分科的專用引擎方面一直走在前沿。比如,PubMed就利用其“醫學主標題”(MSH)引擎簡化其查詢系統。
賓夕法尼亞州立大學計算機學家C. Lee Giles表示,這些項目的潛力遠遠超過幫助科學家迅速找到需要的論文。通過從論文中提取信息并把這些數據合并在一起, 類似Semantic Scholar這樣的搜索引擎還可以操作文獻評議與對比過程。
Etzioni舉例說,一個有天分的計算機系畢業生需要花費數周廣泛閱讀依存分析(一種計算機自然語言處理任務),才能大致掌握過去5年中所使用的基本技術、產生的數據集及其準確率。比較來看,Semantic Scholar數秒鐘之內就可以編譯這些技術與結果?!拔覀冊O想的不僅是遠遠超過論文推薦之類的技術,同時做出實實在在的新發現?!盓tzioni說。
丹麥哥本哈根大學計算機學家Christina Lioma說,這樣的即時概括能力尤其將惠及那些剛進入一個新研究領域的青年科學家和跨學科研究人員。Giles表示,它還可以讓科學家分辨出某一領域出現的科學趨勢,并以此為依據調整研究方向。
然而,挖掘這項技術的潛力部分還要依賴可供計算機閱讀的可采集到的文本,這使得學者和出版商處于競爭對立面。目前,GeoLink項目只能采集可以公開獲取的研究摘要。(Semantic Scholar會覆蓋400萬篇可以公開獲取的計算機領域的科學論文。)Giles表示,目前,科學家仍須做大量工作提高文本處理的準確性。然而,他相信語義搜索方法代表著“未來網絡”。