„Terra“ pašalina „omikos“ skaičiavimo debesyje skausmą


Biomedicininiai tyrimai sukuria didžiulius duomenų kiekius. Tačiau iš tikrųjų jais dalytis gali būti sunku.

„Nesvarbu, koks entuziastingas esate dalinantis duomenimis, iš tikrųjų dalijimasis duomenimis yra logistinis kančia“, – sako Elinor Karlsson, Masačusetso universiteto Chan medicinos mokyklos Vusteryje genetikė.

Karlssonas yra Šunų senėjimo projekto, išilginio tyrimo, finansuojamo JAV nacionalinių sveikatos institutų (NIH), genetikos branduolio vadovas, kurio tikslas – suprasti sveiko senėjimo genetiką analizuojant kelis tūkstančius genomo sekų ir sveikatos duomenų iš 100 000 augintinių.

Projekte dalyvauja mokslininkai iš kelių institucijų, kurie visi turi turėti prieigą prie duomenų ir juos analizuoti. Įprastos dalijimosi duomenimis strategijos, pvz., bendri serveriai, duomenų atsisiuntimas ir net fizinių diskų įrenginių siuntimas, tiesiog neatitiko užduoties, sako Karlssonas.

DNR sekos nustatymo pažanga reiškia, kad daug lengviau rinkti genetinius duomenis nei juos analizuoti. Duomenų rinkiniams padaugėjus, Karlsson sako: „Mes tapome nepatogūs kopijuoti duomenis į serverį ir tapome brangūs. Institucijos neturėjo išteklių neatsilikti.

Taigi projektas nukreiptas į sistemą, kuri galėtų: „Terra“.

„Terra“ pradėjo veikti kaip paslauga „FireCloud“. Jį sukūrė duomenų mokslų platformos (DSP) komanda MIT ir Harvardo plačiajame institute Kembridže, Masačusetso valstijoje, bendradarbiaudama su „Microsoft“ ir „Verily Life Sciences“ – „Google“ patronuojančios įmonės „Alphabet“ dukterine įmone. 2019 m. ji buvo pervadinta ir įtraukta į Nacionalinio žmogaus genomo tyrimų instituto analizės, vizualizacijos ir informatikos laboratorijos erdvę (AnVIL). „Terra“ žiniatinklio sąsaja suteikia patogią prieigą prie keičiamo dydžio darbo eigos, bendradarbiavimo ir analizės įrankių. Tai leidžia tyrėjams greitai integruoti ir skaičiavimais analizuoti didžiulius „omikos“ duomenų rinkinius „Google Cloud Platform“. Užuot verčiau tyrėjus ieškoti ir atsisiųsti duomenis, kad galėtų juos analizuoti vietoje, „Terra“ leidžia jiems dirbti su duomenimis savo vietojenaudojant tiek daug arba tiek mažai skaičiavimo galios, kiek jiems reikia.

„Iš tikrųjų tai susiję su prieigos didinimu ir gedimu [data kept in separate] silosų, kad galėtumėte atlikti įdomesnį mokslą su generuojamais duomenimis“, – sako Geraldine Van der Auwera, Broad Institute DSP komunikacijos direktorė. „Terra“ suteikia prieigą prie duomenų rinkinių, tokių kaip vėžio genomo atlasas, genomo kaupimo duomenų bazė ir visų mūsų tyrimų programa, iš kurių paskutinis vien apima apie 3,7 petabaito. Vartotojai taip pat gali įkelti savo duomenis; prieiga prie „jautrios“ (asmenį identifikuojančios) informacijos suteikiama tik asmenims, turintiems tinkamą leidimą.

„Terra“ gali būti naudojama „paketiniu“ režimu, paleidžiant scenarijus, parašytus darbo eigos aprašo kalba (įrankis, skirtas nurodyti duomenų apdorojimo darbo eigas), kad būtų galima valdyti bet ką nuo vieno iki dešimčių tūkstančių virtualių kompiuterių. Arba mokslininkai gali interaktyviai tyrinėti duomenis naudodami tokius įrankius kaip Jupyter Notebook, RStudio ir grafinis Galaxy darbo eigos variklis.

Michaelas Schatzas, skaičiavimo biologas iš Johnso Hopkinso universiteto Baltimorėje, Merilando valstijoje, priklausė komandai, kuri naudojo Terra ir kitus AnVIL komponentus duomenims apdoroti konsorciumui „Telomere-to-Telome“, kuris 2021 m. gegužės mėn. dokumentavo pirmąjį surinkimą be tarpų. žmogaus genomo. Šis agregatas prideda apie 200 milijonų bazinių porų DNR į žmogaus genomą, o konsorciumas „Telomere-to-Telomere“ naudojo jį ieškodamas variantų 3202 genomuose, susektuose kaip 1000 genomų projekto dalis. Skaičiavimo klasteriui Merilando pažangiųjų tyrimų skaičiavimo centre (MARCC) Baltimorėje – kelių milijonų dolerių vertės didelio našumo įrenginiui – tokioms analizėms atlikti būtų reikėję iki metų, apskaičiavo Schatz. Tačiau naudojant „Terra“ prireikė kelių savaičių, įskaitant optimizavimo laiką. „Jei turėtume tai padaryti dar kartą, tikriausiai galėtume viską padaryti maždaug per savaitę“, – sako jis.

Karlssonui „Terra“ palengvina duomenų prieigos ir bendradarbiavimo problemas. Jos doktorantė Kathleen Morrill sukūrė scenarijus, skirtus automatizuoti naujų duomenų rinkinių įkėlimą ir analizę, pavyzdžiui, nustatyti sekvenuotų gyvūnų lytį. Tyrėjai, norintys toliau tyrinėti tuos duomenis, gali tiesiog prisijungti, nukopijuoti savo bendrą darbo vietą ir pradėti dirbti. „Fizinėje laboratorijoje duomenis būtų galima atkurti naudojant laboratorinį bloknotą“, – sako Morrill. „Analizę naudojant debesyje šiose Terra darbo vietose tampa lengviau sekti, dalytis ir atkurti.

Kalifornijos universiteto Deiviso bioinformatikas C. Titusas Brownas ir jo komanda kuria mokomąsias medžiagas „Terra“, dirbdami NIH Common Fund Data Ecosystem, duomenų pakartotinio naudojimo iniciatyvoje. Nors jis mano, kad platforma yra perspektyvi, Brownas įspėja, kad debesų kompiuterija vis dar yra nauja, ir sako, kad praeis šiek tiek laiko, kol tai bus geriausias pasirinkimas visiems. „Yra technologinio pritaikymo kreivė, – aiškina jis, – ir mes vis dar esame [in the] labai ankstyvos stadijos“. Nedaug mokslininkų yra patogu dirbti debesyje, net ir naudojant gana patogią „Terra“ sąsają. Tyrėjai ir institucijos yra labiau susipažinę su kompiuterių pirkimu, o ne su laiko nuoma.

Ir tada yra tai, kad debesų kompiuterijos kaina gali būti neskaidri. Aleksandras Bickas, žmogaus genetikas iš Vanderbilto universiteto medicinos centro Nešvilyje, Tenesyje, prisimena vieną studentą, kuris netyčia per daug reikalavo skaičiavimo išteklių „Terra“ ir surinko 500 USD skirtuką už darbą, kuris turėjo kainuoti tik 5 USD. „Tai buvo vienas iš brangiausių mūsų bėgimų“, – sako jis. Tačiau tai taip pat buvo palyginama su antikūnų buteliuko švaistymu, pažymi jis. “Viskas reliatyvu”.

Schatz pataria pradėti nuo mažo dydžio, pavyzdžiui, išanalizavus kelis mėginius, kad būtų galima įvertinti vieno mėginio kainą, tada didinti. Sukurkite ugniasienes, kad intensyvios darbo eigos neišeikvotų jūsų biudžeto. Ir optimizuokite savo darbo eigą, priduria Ryanas Collinsas, skaičiavimo genetikas ir doktorantas iš Harvardo medicinos mokyklos Bostone. „Kiekvienas papildomas gigabaitas RAM, kurio paprašysite, bus tiesiogiai paverčiamas mokesčiu, už kurį jums bus grąžinta sąskaita“, – sako jis.

„Terra“ svetainėje pateikiamos darbo sritys, kuriose pateikiamos skirtingos darbo eigos kartu su modelio duomenimis, įskaitant išsamią kainodaros informaciją, kad naudotojai galėtų įvertinti savo duomenų kainą. Van der Auwera teigia, kad buvo sukurtos maždaug 56 tokios darbo vietos, įskaitant dvi iš projekto Human Cell Atlas.

Brownui Terra šviečia dirbant su jautriais arba itin dideliais duomenimis. Jis pažymi, kad privatumo taisyklės neleidžia dirbti su jautriais sveikatos duomenimis nesaugiose sistemose. Duomenų atsisiuntimas iš debesies gali būti brangus, nes kai kurių duomenų rinkinių atsisiuntimas dėl jų dydžio kainuoja dešimtis tūkstančių dolerių. „Jei vietoj to galite išleisti 3000 USD „Terra“, kad atliktumėte savo skaičiavimus, tai neabejotinai bus laimėjimas.

Be to, daugeliu atvejų nėra kitos praktiškos galimybės, pažymi Karlssonas, net ir institucijoms, turinčioms didelio našumo vietinius skaičiavimo išteklius. Galingi vietiniai klasteriai, tokie kaip MARCC, vis dar gali kovoti su šiuolaikiniais genomikos duomenų rinkiniais. „Nesvarbu, ar Terra, ar kažkas kita, mums reikia kažko, kad pasiektume šią milžinišką duomenų masto aplinką“, – sako ji.