ARMs kamp for datacentre: Utfordrerne

Som de første bedriftsklare, kommer ARM-baserte servere nærmere å gi ut flere detaljer om hva disse energisvipningssystemene vil være i stand til.

De kommende 64-bits maskinene blir designet for å takle et langt bredere spekter av oppgaver enn de få 32-biters ARM-baserte serverne som er testet ut av en håndfull selskaper i år.

Snarere enn bare webservering, bygges disse systemene for også å drive dataanalyse på Hadoop-klynger, hente og legge inn data i NoSQL-datalagre, streamingmedier og databehandling med høy ytelse, dele behandlingsoppgaver med GPU-er, FPGAer eller ASIC-er.

Jobber som disse kan deles inn i beregningsmessig lett arbeidsmengde og behandles parallelt av klynger av tusenvis av wimpy kjerneprosessorer. Disse tette klyngene med laveffektive servere kan håndtere disse parallelliserbare oppgavene mer effektivt enn mindre antall kraftige brikker, og gir bedre ytelse per watt og per kvadratmeter datacentre, viktige tiltak for å redusere kostnadene for å drive et stort servereiendom.

Derav interessen for å ta små, energisparende ARM-baserte brikkesett, i dag oftere funnet i mobiltelefoner og nettbrett, og bruke dem i tette, pakket serverklynger.

En god andel av programvaren som er nødvendig for å håndtere disse webserveringene, dataanalyser, streamingmedier og andre jobber er på banen for å være klar for produksjonsbruk på ARM-baserte servere. Men hva med maskinvaren?

Å drive disse serverne vil være brikkesett fra en rekke selskaper - men store aktører i det begynnende ARM-baserte serverområdet vil trolig være Applied Micro med sine X-Gene-brett og AMD, som forgrener seg utover x86 med Opteron A1100-prosessoren.

Disse kommende sjetongene er basert på ARM v8-arkitekturen, som introduserer støtte for funksjoner som anses som kritiske av virksomheten. Ikke bare er v8 den første ARM-arkitekturen som støtter 64-bits kjerner, den gir også ytterligere funksjoner i enterprise-klassen, for eksempel feilkorreksjonskode (ECC).

Bedriftene bak disse serverbrikkesettene var på Hot Chips-konferansen i Cupertino denne uken for å detaljere funksjonene til sjetongene deres og serverne de vil ha strøm på.

Anvendt Micro X-Gene

Når er den ute?

Tre generasjoner av X-Gene-system på en sjetong er planlagt. Den første til å treffe markedet på servere vil være X-Gene1-prosessoren, og forventes å være tilgjengelig i produksjonssystemer i høst. X-Gene-prosessoren testes allerede på HP Moonshot-servere, har blitt demovert i HPC og bedriftsmålrettede systemer fra Eurotech, E4 og Mitac.

Dens etterfølger, X-Gene 2, er tilgjengelig for prøvetaking nå, og X-Gene 3 skal komme ut for prøvetaking i 2015.

Spesifikasjonene

X-Gene 1 har åtte kjerner som kjører ved 2, 4 GHz. Det er laget til en 40nm prosess - jo mindre prosessen er, jo mer transistorer kan proppes på flisens overflate, noe som gir bedre prosessorkraft per watt. Chipens superscalar-arkitektur gjør det mulig å håndtere mer enn en instruksjon per prosessorsyklus, med en fire-instruksjons bred prosesseringsrørledning som er i stand til å være uten funksjon, en optimalisering som reduserer forsinkelser i håndteringsinstruksjonene. Applied Micro sier at brikken kan håndtere "mer enn 100 instruksjoner på flukt".

Hvert par prosessorkjerner deler L1 instruksjon og datacache, samt L2 cache. Koblet til kjernene via en nettverkskobling som holder datakoherent mellom cacher, er 8 MB L3-cache og to dual-channel DDR3-minnekontrollere. Brikkesettet kan støtte opptil 128 GB DDR-minne som er i stand til 1 600 MT / s.

Brikkesettet integrerer nettverksmaskinvare, og fjerner behovet for diskrete kort, for eksempel I / O-kontrollenhet, NIC og baseboard-styringskontroller - noe som reduserer ekstra kostnader og strømtrekk.

For I / O støtter brikkesettet fire 10 gigabit Ethernet-tilkoblinger og seks PCI-E 3.0-spor, samt flere Sata 3-porter.

Fremtidige utgivelser av X-Gene vil gi ytterligere ytelsesforbedringer og tillate servere basert på tavlen å takle arbeidsmengder der lav applikasjonsforsinkelse er nødvendig. X-Gene 2 vil legge til RDMA over Converged Ethernet, eller RoCE. RoCE er en viktig funksjon i distribuerte systemer, da det reduserer latens mellom servere i klyngen. Denne funksjonen lar en servernode i en X-Gene-klynge overføre data direkte til og fra minnet til en annen node over 10 Gbps Ethernet, noe som reduserer arbeidet som utføres av hver nodes CPU og forbedrer dataoverføringshastigheten. Ved bruk av Roce har X-Gene 2 vist seg i stand til å redusere applikasjonsforsinkelse til omtrent 5 mikrosekunder, opptil ti ganger raskere enn X-Gene 1, ifølge Applied Micro.

X-Gene 2 vil bli laget til en 28nm prosess, ha opptil 16 kjerner klokket til maksimalt 2, 8 GHz og støtter fire minnekanaler. Arkitektoniske endringer vil bli gjort i prosessorkjernen for å øke ytelsen.

Opptreden

Hva som er viktig for de typer arbeidsmengder som er egnet til å håndteres parallelt på en klynge lavenergitjenere - slike som nettfronter, søkemotorer, NoSQL-datalagre, dataanalysearbeid som Hadoop og medieservering - er faktorer utenfor Klokkefart. Applied Micro mener X-Gene leverer på kjernemetriker for disse arbeidsmengdene, for eksempel instruksjonsproblembredde, antall lag i prosessorens cachehierarki, størrelsen på hurtigbufferen per prosessor og minnebåndbredden til prosessoren.

Grafen viser hvordan X-Gene 2-taktene sammenlignes med konkurrentene på disse tiltakene - fra venstre mot høyre er ThunderX Arm SoC fra Cavium, Intels mikroservermålrettede åtte-kjerne C2000 Atom-prosessor og, i grønt, X-Gene 2. Lengst til høyre er Intel Xeon E5-2600 v2-prosessor, som mens høyere ytelse koster mer.

I SPEC2006_rate-prosessorens benchmarks leverer X-Gene 2 55 prosent bedre ytelse per watt enn X-Gene 1 og et 25 prosent ytelsesøkning i ApacheBench web-serveringsscore.

Sammenlignet med Intel-servere X-Gene vil konkurrere mot, hevder Applied Micro at den første generasjons brikkesettet kan levere ytelsen til en Ivy Bridge eller Haswell Xeon, mens X-Gene 2 vil tilby større ytelse med lavere effekt og være egnet til latenstid -følsomme gruppert applikasjoner.

Applied Micro sier at et rack med X-Gene 2-systemer vil brenne omtrent 30 kilowatt og pakke 6.480 tråder som går på 2, 8 GHz. Klyngen vil gi 50 TB minne og 48 TBps minne båndbredde. Den vil håndtere 750 millioner transaksjoner per sekund på den memcached testen, med 95 prosent av transaksjonene som kommer inn på under 40 millisekunder. En klynge på 80 to-socket-maskiner basert på Intels Xeon E5-2630 v2-prosessorer, med seks kjerner og tolv tråder per stikkontakt, leverer 1.920 tråder og leverer rundt 400 millioner transaksjoner per sekund på den samme memcached-testen i den samme kraftkonvolutten på rundt 30 KW. Disse målene er levert av Applied Micro, men må derfor behandles med passende skepsis til de blir bekreftet.

Intel sa at Applied Mikros ytelsesestimater er umulige å bekrefte ettersom "ingen har sett X-Gene 1-baserte system benchmarked ved bruk av bransjestandard-applikasjoner" og indikerte at Xeon-oppsettet som ble brukt i sammenligningen kan veies til X-Genes favør.

Intel har sitt eget utvalg av energisipping, mindre kraftige SoC-er rettet mot servermarkedet, Avoton-serien i sin Intel Atom-familie, og på sin side hevder Intel at disse er mer effektive.

"X-Gene 1 er basert på 40nm prosess og har 8 kjerner og omtrent 35 - 40W TDP som reflekterer maskinens maksimale strømforbruk. Til sammenligning har Atom C2000 (Avoton) 8 kjerner i tillegg til 20W TDP, " sa en Intel-talskvinne.

"X-Gene forventes å ha 35 -40 W TDP for 8 kjerner, nodekraft 59W, vs 8-kjerner, 20W Avoton og 28-35W knutepunkt. Best case scenario for dem - samme ytelse for dobbelt så stor kraft."

Da X-Gene 2 treffer produksjonsservere, vil Intel sannsynligvis også ha oppdatert serverchip-serien med Broadwell-EP og Broadwell-EX Xeon-brikkene - noe som ytterligere forbedrer ytelsen per watt.

X-Gene 3 vil øke kjernetallet til maksimalt 64, øke klokkehastigheten til 3GHz og introdusere 2. generasjon RoCE. Det vil flytte X-Gene til en 16nm produksjonsprosess, med FinFET-transistorer.

Hva kan du bruke dem til?

Applied Micro sier at X-Gene-familien vil kunne brukes til "stort sett alt som løper i datasenteret i dag".

Dette inkluderer hosting av store nettsteder og tjenester; websøkingstjenester som dataservering og høsting; NoSQL datalagring og gjenfinning; dataanalytiske tjenester som informasjonsklassifisering og filtrering og utvinning; og hosting og streaming av media.

X-Gene 2 vil være egnet for et bredere spekter av sky- og HPC-applikasjoner enn forgjengeren, på grunn av den lave latensen, dataoverføring mellom servere som er aktivert av Roce.

X-Gene-en har allerede blitt demoedet for å takle HPC og andre arbeidsmengder i datacentre når den ble parret med Nvidia Tesla GPU K20-akseleratorer. X-Gene / Nvidia Tesla-gassparringsparringen brukes på servere fra Cirrascale, E4 og Eurotech. Hver server er designet for å spesialisere seg i forskjellige arbeidsmengder, Cirrascale på HPC og enterprise arbeidsmengder, mens E4 er fokusert på seismikk, signal- og bildebehandling, samt å kjøre jobber mot store datasett ved hjelp av kart-redusere.

AMD "Seattle" Opteron 1100

Når er den ute?

På grunn av skipets volum innen fjerde kvartal 2014

Spesifikasjonene

System på en brikke basert på åtte ARM Cortex A57-prosessorkjerner, klokket til over 2GHz. Hvert par prosessorkjerner deler 48 kb L1-instruksjon og 32 kb L2-datacache, samt 1 MB L2-cache - og gir opptil 4 MB L2-cache for hele brikken. Totalt 8 MB enhetlig L3-cache deles mellom kjernene.

Støtte for opptil 128 GB DDR3- eller DDR4 ECC-minne som ubuffede DIMM-er, registrerte DIMMS eller SODIMM-er.

Brikkesettet bruker ARMs systemminnehåndteringsenhet som gjør det mulig for ulike hypervisorer å holde gjestesoperativsystemer i separate bassenger med RAM.

SoC, som er laget med en 28nm prosess, inkluderer også støtte for et bredt spekter av data I / O, inkludert en åttefelts PCI Express 3-kontroller, to 10 GB / s Ethernet-tilkoblinger og åtte SATA 3-porter. Den har også en dedikert 1GbE systemadministrasjonsport (RGMII).

En systemkontrollprosessor, en ARM Cortex A5-basert brikke, brukes til å kontrollere strøm, konfigurere systemet, starte oppstart og fungere som en serviceprosessor for systemadministrasjonsfunksjoner.

En kryptografisk co-prosessor fungerer som en dedikert akselerator for kryptering og dekryptering, samt komprimering og dekompresjon, algoritmer. Akselererte algoritmer er Advanced Encryption Standard, Elliptic Curve Cryptography, RSA, Secure Hash Algoritm, Zlib compression, Zlib dekompresjon og True Hardware Random Number Generator.

AMD jobber også med en pin-kompatibel versjon av ARM og x86-brikker - slik at de kan plugges inn i den samme kontakten og byttes ut etter behov.

Opptreden

Basert på kommentarer fra AMD har teknologisiden AnandTech også estimert at åttekjernevarianten kan oppnå en score på 80 i SPECint_rate-referanseporteføljen, totalt 10 per kjerne.

Kraftforbruket er ikke bekreftet, men Anandtech estimerer en TDP på ​​25W.

Hva kan du bruke dem til?

AMD regner med at Opteron A1100 er egnet til å håndtere arbeidsmengder med beregningskrav er lette og hvor data raskt må sendes av og på prosessoren.

For slike arbeidsmengder kan prosessorer som 'Seattle' med mindre kjerner og cacher levere tilsvarende ytelse som tradisjonelle serverprosessorer med store kjerner og cacher, men bruker mye mindre strøm og areal, sier AMD i en presentasjon på Hot Chips konferanse.

Mulige bruksområder kan inkludere LAMP stack web-servere, så vel som memcachede og kaldlagringsservere. Facebook har allerede eksperimentert med å bruke et ARM-basert system som grunnlag for en OCP Open Vault lagringsgruppe.

Sean White, ingeniør ved AMD, ble også sitert på Hot Chip-konferansen i Cupertino og sa at selskapet ville vurdere å tilpasse prosessoren til å møte spesifikke bransjebehov. Intel har også nylig utvidet alternativene for store kunder som ønsker tilpasset silisium.

Hvilke andre Arm-servertavler kommer ut?

I år er det planlagt å lansere flere andre ARM-baserte system-on-a-chip (SoC) prosessorer, designet for å utføre en rekke datacentre-oppgaver - fra å håndtere serverarbeidsbelastninger, til å kjøre lagringsmatriser og virtualiserte nettverksfunksjoner.

For å imøtekomme disse behovene er ARM-baserte SoC-er i verk fra forskjellige selskaper, inkludert Broadcom, Cavium og Texas Instruments.

© Copyright 2021 | pepebotifarra.com