SOGO論壇
  登入   註冊   找回密碼
查看: 1310|回覆: 0
列印 上一主題 下一主題

[AI 應用] 「DNA 版 Google 搜尋」誕生,MetaGraph 能秒搜全球基因資料庫 [複製連結]

Rank: 11Rank: 11Rank: 11Rank: 11

狀態︰ 離線
跳轉到指定樓層
1
發表於 6 天前 |只看該作者 |倒序瀏覽 | x 2
蘇黎世聯邦理工學院(ETH Zurich)開發的新工具 MetaGraph,讓科學家能使用「DNA 版 Google  搜尋」,迅速搜尋龐大的公共 DNA 和 RNA 資料庫,代表基因組研究重大進展,因為 DNA 測序技術已徹底改變生物醫學研究,使辨識罕見遺傳疾病和腫瘤細胞特定突變成為可能。

越來越多科學家將測序結果公開,導致美國SRA(序列讀取檔案)和歐洲ENA(歐洲核苷酸檔案)等主要資料庫積累巨量數據,目前共有約100PB資料,相當網路可用文本的總量。

過去,搜尋這些龐大的資料庫以比較DNA序列需要大量的計算資源,這使得高效分析幾乎不可能。ETH Zurich的研究人員現在開發了一種方法,顯著縮短並簡化這個搜尋過程。MetaGraph工具能夠直接搜尋資料庫所有DNA或RNA序列的原始數據,研究員只需搜尋框輸入感興趣序列,即可幾秒鐘或幾分鐘內找到位置。

ETH Zurich計算機科學系教授貢納爾·雷奇(Gunnar Rätsch)表示:「這就像DNA版Google搜尋。」以往,研究人員必須依賴描述性後設資料來搜尋資料庫,並下載相應的資料集存取原始數據,過程既不完整又耗時費力。MetaGraph的成本相對較低,研究員指出,所有公共生物序列的表示可儲存至幾個硬碟,較大查詢成本不會超過每兆核鹼基0.74美元。

這項DNA搜尋引擎的精確性和效率,有助於加速基因研究,特別是在研究鮮有探討的病原體或新型疫情。新工具可能成為抗生素抗性研究的催化劑,幫助辨識抗性基因或能摧毀細菌的有用病毒(即噬菌體)。

10月8日發表於《自然》期刊的研究,ETH研究員展示MetaGraph運作方法:索引資料庫並以壓縮形式呈現,以複雜數學圖形結構改善結構。Rätsch教授指出,數學上是個擁有數百萬列和數兆行的巨大矩陣。ETH研究員創新處在原始數據和後設資料複雜鏈接,並以約300倍壓縮比壓縮,類似書籍摘要,保留主要故事情節和關聯,卻不損失任何重要訊息。

ETH研究員2020年首次展示MetaGraph以來,持續改進。目前可用於查詢,並提供數百萬個DNA和RNA序列集的全文搜尋,涵蓋病毒、細菌、真菌、植物、動物和人類蛋白質。全球可用序列資料集約一半已製作索引,Rätsch說其餘預定年底完成。由於MetaGraph開源,可能引起製藥公司興趣,因有大量研究數據。

Kahles博士甚至認為,這款DNA搜尋引擎未來也能個人使用:「早期連Google也不確定搜尋引擎的用途。如果DNA測序快速發展,將來可能變得很普遍,讓人們能更精確辨識陽台植物。」

錄自:科技新報

已有 1 人評分SOGO幣 收起 理由
smartlion + 10 您發表的文章內容豐富,無私分享造福眾人,.

總評分: SOGO幣 + 10   查看全部評分

喜歡嗎?分享這篇文章給親朋好友︰
               感謝作者     

您需要登錄後才可以回覆 登入 | 註冊


本論壇為非營利自由討論平台,所有個人言論不代表本站立場。文章內容如有涉及侵權,請通知管理人員,將立即刪除相關文章資料。侵權申訴或移除要求:abuse@oursogo.com

GMT+8, 2025-10-25 19:13

© 2004-2025 SOGO論壇 OURSOGO.COM
回頂部