S piškotki izboljšujemo vašo uporabniško izkušnjo. Z uporabo naših storitev se strinjate z uporabo piškotkov. V redu Piškotki, ki jih uporabljamo Kaj so piškotki?
Domov » Sklopi » Dokumenti » CLASS/PetaByte – Podatkovna analitika z MapReduce

CLASS/PetaByte – Podatkovna analitika z MapReduce

CLASS/PetaByte prototip uporablja Hadoop programske module: MapReduce, Pig in Hive za procesiranje in analizo velike količine porazdeljenih podatkov (BigData).

CLASS/PetaByte prototip uporablja Hadoop programske module: MapReduce, Pig in Hive za procesiranje in analizo velike količine porazdeljenih podatkov (BigData). Prototip uporablja podatke, ki smo jih pridobili iz računalniških simulacij kompleksnih fizikalnih pojavov. Apache Hadoop je odprtokodno okolje za shranjevanje in analizo BigData. Namestili smo ga na računalniški skupek šestih vozlišč, vsako s štirimi računalniškimi jedri. Izvedli smo MapReduce funkcijo s potrebno programsko kodo v Javi. Primerjamo učinkovitost izvedene MapReduce funkcije z učinkovitostjo programov napisanih v okoljih Pig in Hive. Izmerjeni rezultati za vzporedno izvedbo MapReduce kažejo, da je moč doseči na 24 procesorskih jedrih do 20-kratne pohitritve pri izvajanju analiz podatkov relativno na zaporedno izvedbo, kar kaže na veliko učinkovitost paralelizacije. Nadalje, rezultati testnih primerov potrjujejo, da je neposredna izvedba MapReduce v Javi približno dvakrat bolj učinkovita kot ekvivalentna izvedba v okoljih Pig in Hive, pri čemer je Hive za okrog 20% hitrejši od Pig. Ne glede na to pa Pig in Hive, zaradi enostavnejše uporabe, ostajata alternativni orodji za učinkovite operacije na velikih količinah podatkov. Prototipna izvedba dokazuje pravilnost in učinkovitost ter je primerna za nadgradnjo in uporabo na drugih praktičnih področjih, ki potrebujejo hitre analize obsežnih podatkov.

Video o izvedbi z MapReduce

Video o izvedbi s Pig