Mājas Tendences Kāds ir $ @! ir hadoop?

Kāds ir $ @! ir hadoop?

Satura rādītājs:

Anonim

Visi runā par Hadoop - karsto jauno tehnoloģiju, kas izstrādātāju vidū ir visaugstāk novērtētā un kas, iespējams, varētu mainīt pasauli (atkal). Bet kas tas tik un tā ir? Vai tā ir programmēšanas valoda? Datu bāze? Apstrādes sistēma? Indijas tēja omulīga?


Plašā atbilde: Hadoop ir visas šīs lietas (izņemot omulīgu tēju) un vēl kas cits. Tā ir programmatūras bibliotēka, kas nodrošina programmēšanas ietvarus lētai, noderīgai cita mūsdienīga buzzword vārda: lielo datu apstrādei.

No kurienes nāca Hadoop?

Apache Hadoop ir daļa no fonda projekta no Apache Software Foundation, bezpeļņas organizācijas, kuras uzdevums ir "nodrošināt programmatūru sabiedrības interesēm". Kā tāda Hadoop bibliotēka ir bezmaksas, atvērtā pirmkoda programmatūra, kas pieejama visiem izstrādātājiem.


Pamattehnoloģiju, kas darbina Hadoop, faktiski izgudroja Google. Jau pirmajās dienās ne visai milzīgajai meklētājprogrammai bija nepieciešams veids, kā indeksēt milzīgo datu daudzumu, kuru viņi apkopoja no interneta, un pārvērst to lietotājiem nozīmīgos, atbilstošos rezultātos. Tā kā tirgū nav pieejams nekas, kas varētu atbilst viņu prasībām, Google izveidoja savu platformu.


Šie jauninājumi tika izlaisti atklātā pirmkoda projektā ar nosaukumu Nutch, kuru Hadoop vēlāk izmantoja kā pamatu. Būtībā Hadoop izmanto Google jaudu lielajiem datiem tādā veidā, kas ir pieņemams jebkura lieluma uzņēmumiem.

Kā darbojas Hadoop?

Kā minēts iepriekš, Hadoop nav viena lieta - tas ir daudz lietu. Programmatūras bibliotēka, kas ir Hadoop, sastāv no četrām galvenajām daļām (moduļiem) un vairākiem papildu risinājumiem (piemēram, datu bāzēm un programmēšanas valodām), kas uzlabo tās izmantošanu reālajā pasaulē. Četri moduļi ir:

  • Hadoop Common: Šī ir parasto utilītu kolekcija (kopējā bibliotēka), kas atbalsta Hadoop moduļus.
  • Hadoop izplatītā failu sistēma (HDFS): izturīga izkliedēta failu sistēma, kurai nav ierobežojumu attiecībā uz saglabātajiem datiem (tas nozīmē, ka dati var būt gan strukturēti, gan nestrukturēti un bez shēmām, kur daudzi DFS glabās tikai strukturētus datus), kas nodrošina lielu caurlaidspēju piekļuvei ar atlaišanu ( HDFS ļauj datus saglabāt vairākās mašīnās - tātad, ja viena mašīna neizdodas, pieejamība tiek uzturēta caur citām mašīnām).
  • Hadoop YARN: Šī sistēma ir atbildīga par darbu plānošanu un klasteru resursu pārvaldību; tas nodrošina, ka dati ir pietiekami izplatīti vairākās mašīnās, lai saglabātu lieku. YARN ir modulis, kas padara Hadoop pieejamu un rentablu veidu lielu datu apstrādei.
  • Hadoop MapReduce: Šī YARN balstītā sistēma, kas balstīta uz Google tehnoloģiju, vienlaikus veic lielu (strukturētu un nestrukturētu) datu kopu apstrādi. MapReduce var atrast arī lielākajā daļā mūsdienu lielo datu apstrādes ietvaru, ieskaitot MPP un NoSQL datu bāzes.
Visi šie moduļi, kas darbojas kopā, rada lielu datu kopu izkliedētu apstrādi. Hadoop ietvars izmanto vienkāršus programmēšanas modeļus, kas tiek replicēti visos klasteros, kas nozīmē, ka sistēma var palielināt mērogu no atsevišķiem serveriem līdz tūkstošiem mašīnu, lai palielinātu apstrādes jaudu, nevis paļauties tikai uz aparatūru.


Aparatūra, kas var apstrādāt nepieciešamo datu apstrādes jaudu, lai strādātu ar lielajiem datiem, ir maigi izsakoties, dārga. Šis ir īstais Hadoop jauninājums: spēja sadalīt lielu apstrādes jaudas daudzumu vairākās, mazākās mašīnās, katrai no tām ir sava lokalizēta aprēķināšana un glabāšana, kā arī iebūvēta atlaišana lietojumprogrammu līmenī, lai novērstu kļūmes.

Ko dara Hadoop?

Vienkārši sakot, Hadoop padara lielos datus pieejamus un izmantojamus ikvienam.


Pirms Hadoop uzņēmumi, kas izmantoja lielos datus, lielākoties to darīja ar relāciju datu bāzēm un uzņēmumu datu noliktavām (kuras izmanto milzīgu daudzumu dārgas aparatūras). Kaut arī šie rīki ir lieliski piemēroti strukturētu datu apstrādei - kas ir dati, kas jau ir sakārtoti un sakārtoti pārvaldāmā veidā -, nestrukturētu datu apstrādes iespējas bija ārkārtīgi ierobežotas, tik daudz, ka to praktiski nebija. Lai dati būtu izmantojami, vispirms tie bija jāveido tā, lai tie būtu pareizi ievietoti tabulās.


Hadoop sistēma maina šo prasību, un to izdara lēti. Izmantojot Hadoop, milzīgus datu apjomus no 10 līdz 100 gigabaitiem un vairāk, gan strukturētus, gan nestrukturētus, var apstrādāt, izmantojot parastos (preču) serverus.


Hadoop nodrošina potenciālu lielo datu lietojumprogrammas jebkura lieluma uzņēmumiem katrā nozarē. Atklātā pirmkoda ietvars ļauj finanšu uzņēmumiem izveidot sarežģītus modeļus portfeļa novērtēšanai un riska analīzei vai tiešsaistes mazumtirgotājiem, lai precizētu meklēšanas atbildes un norādītu klientus uz produktiem, kurus viņi, visticamāk, pērk.


Izmantojot Hadoop, iespējas ir patiesi neierobežotas.

Kāds ir $ @! ir hadoop?