„Dell Technologies“ interviu: Univ. Liverpulio hibridinė HPC strategija sparčiai skatina mokslinį skaičiavimą


[SPONSORED CONTENT] Į neseniai atliktas interviu „Dell Technologies“. Šioje svetainėje kalbėjome apie HPC kaip paslaugą su R Systems, HPC pagal poreikį išteklius ir technines žinias bendradarbiaudami su „Dell HPC Cloud Services“. Dabar šiame interviu šiame HPC segmente turime variantą: perkėlimas į debesį, kai vietiniam klasteriui reikia padidinti išteklius.

Su tokia situacija susidūrė Liverpulio universitetas Išplėstinė tyrimų kompiuterija Kompiuterinių paslaugų skyriuje. Grupė, vadovaujama Cliff Addison, naudoja “Dell” sukurtą “Barkla” Linux klasterį savo moksliniams skaičiavimo poreikiams. Tais laikais, kai grupės poreikiai buvo pernelyg apmokestinami Barkla, universitetas dirbo su „Dell“ technologijos ir Jungtinėje Karalystėje Alceso skrydis, kuri kuria ir kuria HPC aplinkas mokslininkams, inžinieriams ir tyrėjams. JK įsikūrusios „Alces“ ir „Dell“ sukūrė „Amazon Web Services“ serijos galimybę, pirmenybę teikdamos vientisos aplinkos kūrimui, kurią būtų lengva pritaikyti ir pasiekti pažangių tyrimų kompiuterijos mokslininkai.

Šiame interviu Addisonas, be kita ko, paaiškina, kaip buvo panaudotas AWS pajėgumas, kai užklupo COVID 19 pandemija.

Dougas Blackas: Sveiki visi, aš Dougas Blackas, vyriausiasis HPC redaktorius, ir šiandien, kaip dalis mūsų interviu serijos „Dell Technologies“ vardu, mes kalbamės su Cliffu Addisonu, jis yra pažangių tyrimų skaičiavimo vadovas Universiteto universitete. Liverpulis. Cliff, sveiki atvykę.

Cliffas Addisonas: Laba diena arba labas rytas, priklausomai nuo to, koks paros metas. Bet taip, gerai.

Juoda: Taigi prašome pateikti mums HPC sistemos, kurią universitetas sukūrė kartu su „Dell“ integracijos partneriu Alces Flight, apžvalgą. Dabar, kaip suprantu, pagrindinis sistemos aspektas yra tai, kad ji perkeliama į „Amazon Web Services“, kad gautų papildomus skaičiavimo ir saugojimo išteklius. Tai teisinga?

Liverpulio universitetas (wikipedia)

Adisonas: Tai iš esmės teisinga. Ką padarėme – šiek tiek atsitrauksiu. 2017 m., kai skelbėme konkursą, turėjome nemažai tyrėjų, kurie turėjo dotacijų, kurias norėjo panaudoti įrangai pirkti. Mums reikėjo turėti dalykų, kurie turėjo akivaizdžiai didelį poveikį, taip pat turėjome turėti aplinką, kurią būtų galima išplėsti, kad būtų galima prisitaikyti prie pokyčių, pasikeitus mūsų tyrimų kompiuteriniams reikalavimams. Taip pat ieškojome to, kas iš esmės suteiktų daug skaičiavimo galios nuo pat pradžių.

„Dell“ į tai atsakė bendradarbiaudama su „Alces Flight“, taip pat bendradarbiaudama su „Amazon Web Services“, kad sukurtų mums labai stiprią vietinę sistemą su labai ekonomiška aparatine įranga ir labai gera sąranka, kurios mūsų tyrėjai nedelsdami ėmėsi.

Be to, pradėjome turėdami daug kreditų iš AWS, kad galėtume pradėti dirbti su debesimi, o „Alces Flight“ pasinaudojo savo patirtimi, kad sukurtų gana sklandžią debesies „Barkla“ aplinką, kurioje galėtume gana lengvai iššokti iš vietos. sistemą į debesų sistemą su tais pačiais vartotojais, ta pačia saugykla ir tyrėjams labai pažįstama aplinka. Taigi tyrėjams tikrai nereikėjo jaudintis dėl kitokios aplinkos debesyje, tai buvo labai panaši aplinka į tą, kurią jie jau turėjo. Ir šios savybės kartu buvo labai stiprus pranašumas. Ir aš šiek tiek vėliau pakalbėsiu apie kai kuriuos būdus, kurie mums pasiteisino.

Juoda: Gerai, pereikime prie darbo, kurį atlieka jūsų organizacija. Kas naujo Liverpulio universiteto pažangiųjų tyrimų skaičiavimo grupėje?

Adisonas: Skaičiavimo chemija Liverpulyje visada buvo viena iš pagrindinių mūsų įrenginių naudotojų. O prieš 10–15 metų tai buvo didelio masto, lygiagreti, molekulinė dinamika ir… skaičiavimai. Tačiau tai, kas atsitiko per daugelį metų, ir tai atitinka keletą kitų grupių, yra tai, kad jie persikėlė į labai sudėtingą darbo eigos aplinką, kur retkarčiais atlieka išsamius tyrimus, tačiau juos skatina labai daug greitų tyrimų. testai kartu su tam tikru mašininiu mokymusi, kad padėtų orientuotis.

Taigi, užuot tiesiog atlikę daugybę skaičiavimo paleidimų, matome, kad jie atlieka labai daug labai greitų tyrimų, mašininio mokymosi ir kai kurių išsamių skaičiavimų, susijusių su tam tikrais molekulių aspektais, kurie, mūsų nuomone, atrodė daug žadantys. Ir tai yra viena iš bendrų tendencijų, kurias matome.

Be to, dabar, kilus COVID 19 protrūkiui, turėjome keletą konkrečių reikalavimų. Ir vėl debesis Barkla aplinkoje su AWS debesiu, sprogimas buvo būtinas norint pradėti. Viena iš mūsų grupių gilinosi į gilų mokymąsi, bandydama ieškoti COVID aptikimo kompiuterinės tomografijos vaizduose ir rentgeno nuskaitymuose. Ir jie tiesiog neturėjo išteklių. Kreipėmės į AWS ir mums buvo suteikti tyrimų kreditai, o tada vėl, naudojant „Alces Flight“ aplinką, šie tyrėjai galėjo sklandžiai prisijungti prie AWS, atlikti tam tikrą duomenų analizę / duomenų valymą vietiniame klasteryje ir tada labai sklandžiai. Norėdami atlikti išsamų skaičiavimą, pereikite prie AWS GPU mazgų. Ir tai pavyko labai gerai, mes galėjome pristatyti rezultatus Supercomputing 2020 (konferencijai). Ir jie neseniai pateikė internetinį savo rezultatų žurnalą, kuris šiuo metu yra priimamas.

Juoda: Taigi, Cliff, jūs visi pradėjote nuo „Barkla“ klasterio 2017 m. – papasakokite apie sistemos galimybių raidą mazgų atžvilgiu ir dabartinius atnaujinimus, su kuriais dabar dirbate.

Adisonas: Na, mes nusipirkome sistemą turėdami omenyje daug išplėtimo galimybių. Pradėjome nuo 96 Skylake mazgų, kurių kiekvienas turi 40 branduolių. Ir laikui bėgant galėjome tai išplėsti, kad dabar būtų 140 mazgų. Esu patenkintas, kad daugelis tyrimų grupių, kurios tai dirbo, buvo labai patenkintos šiuo rezultatu.

Tačiau neseniai pas mus atvyko kita tyrimų grupė ir pasakė, kad norėtume turėti šiek tiek patobulintų GPU galimybių savo doktorantams. Manome, kad mums tikriausiai taip pat reikia greitos saugyklos. Ir man pavyko susisiekti su „Dell“ ir „Alces Flight“, ir jie galėjo grįžti su keletu idėjų, susijusių su (NVIDIA) A100 mazgais ir greita NVMe saugykla. Ir kai mūsų mokslininkai pažvelgė į galimybes, jie buvo labai patenkinti. Ir mes ką tik nusprendėme dėl įvairių konfigūracijų, o „Dell“ ir „Alces“ dabar ketina tai sujungti. Ir tikimės, kad tai pasieksime vėliau šiais metais.

Juoda: Puiku. Labai įdomu. Taigi dabar, pandemijai ir vis daugiau darbo ir mokymosi namuose, kaip tai paveikė jūsų komandą?

Addisonas: Na, tai įdomu, mūsų komandai pavyko puikiai. Mes galime gauti gerą nuotolinę prieigą prie mūsų paslaugų patalpose. Ir vėlgi, debesies kabliukai iš esmės yra per tą vietinę sistemą, kad galėtume patekti į debesį, kai tik to reikia. Tai buvo tyrimas – tai kova, nes, žinoma, viena iš pagrindinių išmoktų pamokų yra tai, kad namų plačiajuostis ryšys nėra toks greitas kaip geras universiteto tinklas. Taigi mokslininkai bandė atsisiųsti didelius 10 gigabaitų dydžio programų paketus, kad galėtų veikti jų namų sistemose. Ir mes vis kartojome, kad geriausia to nedaryti, geriausia naudotis mūsų patalpomis miesteliu. Ir nedarykite didelių skaičiavimų savo namų sistemose. Ir galų gale, manau, mes tai padarėme. Taigi, kai žmonės suprato, kaip geriau naudoti vietines sistemas, tai pasiteisino, tačiau mūsų tyrėjams prireikė šiek tiek laiko prie to priprasti, ypač kai jie susiduria su dideliais duomenų rinkiniais.

Juoda: Taigi apskritai, kiek jums svarbus AWS serijos ryšys? Ir ar turite patarimų kitiems HPC svetainių vadovams?

Adisonas: Vienas iš dalykų, kuriuos radome, buvo tai, kad mums patiko AWS, mums patiko AWS žmonės. Aplinkos mokymosi kreivė yra pakankamai staigi, todėl norint susipažinti su jos valdymu, ją reikia išnaudoti nemažai. Tačiau trečioji šalis „Alces Flight“ suteikė labai vientisą aplinką. Yra keletas kitų įmonių, kurios gali atlikti panašius dalykus. Ir aš raginčiau HPC grupes pabandyti bendradarbiauti su žmogumi, turinčiu tokią patirtį, o ne bandyti iš naujo išrasti dalykus patiems. Labai svarbu, kad kažkas kitas galėtų tai tvarkyti, nustatyti dalykus, atlikti apskaitą už jus, atlikti mazgo sąranką, užtikrinant, kad kai mazgai nenaudojami arba išjungiami, jūs nemokėsite. už tai – tokie dalykai. Tai tikrai daro tai daug malonesnę patirtį.

Juoda: Taip, toks sklandus perėjimas pirmyn ir atgal, debesys atgal į patalpas. Tai yra labai svarbus veiksnys, kad žmonės nuolat nesistengtų mokytis pakartotinai naudoti vartotojo sąsają.

Adisonas: Teisingai. Tačiau taip pat ir vietiniu požiūriu, dažnai tikrai turime problemų dėl to, kad trūksta HPC žmonių, ir mes iš tikrųjų neturime papildomų pajėgumų, kad galėtume atlikti daug iš pirmų rankų teikiamų debesų valdymo darbų, kurių prireiktų tokiam tikslui. aplinką. Taigi galimybė dirbti per trečiąją šalį labai palengvina mūsų gyvenimą. Galime sutelkti dėmesį į pagalbą vartotojams, mums nereikia tiesiogiai rūpintis vadyba ir apskaita. Mes galime tai padaryti per trečiąją šalį, ir tai buvo didelis, didelis laimėjimas.

Juoda: Puiku. Gerai, Cliff. Na, buvo malonu su tavimi kalbėtis. Buvome su Cliffu Addisonu Liverpulio universiteto pažangiųjų tyrimų skaičiavimo grupėje. Labai ačiū.

Adisonas: Labai ačiū.