Satura rādītājs:
Apache Hadoop jau ilgu laiku ir lielo datu lietojumprogrammu pamats, un to uzskata par pamata datu platformu visiem ar lielajiem datiem saistītajiem piedāvājumiem. Tomēr atmiņā esošā datu bāze un aprēķini kļūst arvien populārāki ātrākas veiktspējas un ātru rezultātu dēļ. Apache Spark ir jauna sistēma, kas izmanto atmiņas iespējas, lai nodrošinātu ātru apstrādi (gandrīz 100 reizes ātrāk nekā Hadoop). Tātad, Spark produkts arvien vairāk tiek izmantots lielu datu pasaulē, galvenokārt ātrākam apstrādes procesam.
Tīmekļa seminārs: Ieteikumu spēks: kā datu katalogs piešķir analītiķiem Reģistrējieties šeit |
Kas ir Apache Spark?
Apache Spark ir atvērtā pirmkoda sistēma milzīga apjoma datu (lielu datu) apstrādei ar ātrumu un vienkāršību. Tas ir piemērots analītikas lietojumprogrammām, kuru pamatā ir lieli dati. Dzirksteli var izmantot Hadoop vidē, savrupā veidā vai mākonī. Tas tika izstrādāts Kalifornijas universitātē un vēlāk tika piedāvāts Apache programmatūras fondam. Tādējādi tas pieder atvērtā koda kopienai un var būt ļoti rentabls, kas turklāt ļauj amatieru izstrādātājiem strādāt viegli. (Lai uzzinātu vairāk par Hadoop atvērto avotu, skatiet sadaļu Kā atvērtā avota ietekme uz Apache Hadoop ekosistēmu?)
Galvenais Spark mērķis ir tāds, ka tas izstrādātājiem piedāvā lietojumprogrammu sistēmu, kas darbojas ap centrētu datu struktūru. Dzirkstele ir arī ārkārtīgi spēcīga, un tai piemīt iedzimta spēja īsā laika posmā ātri apstrādāt milzīgus datu apjomus, tādējādi piedāvājot īpaši labu sniegumu. Tas padara to daudz ātrāku nekā tas, kas tiek uzskatīts par tā tuvāko konkurentu Hadoopu.
