Satura rādītājs:
- Kā Hadoop ieguva savu sākumu?
- Kas ir tik svarīgi Hadoop?
- Kas ir lasītā shēma?
- Kas ir strops?
- Kādus datus analizē Hadoop?
- Vai jūs varat sniegt reālās pasaules Hadoop piemēru?
- Vai Hadoops jau ir novecojis vai tikai morfē?
Kas ir Hadoop? Tas ir dzeltens rotaļlietu zilonis. Nevis to, ko jūs gaidījāt? Kā par šo: Doug Cutting - šī atvērtā pirmkoda programmatūras projekta līdzradītājs - aizņēmās vārdu no sava dēla, kurš gadījās zvanīt savam rotaļlietu zilonim Hadoop. Īsumā Hadoop ir programmatūras ietvars, ko izstrādājis Apache Software Foundation un kas tiek izmantots, lai attīstītu datu ietilpīgu, izkliedētu skaitļošanu. Un tā ir galvenā sastāvdaļa citā buzzword lasītājā, šķiet, nekad nepietiek: lieli dati. Šeit ir septiņas lietas, kas jums jāzina par šo unikālo, brīvi licencēto programmatūru.
Kā Hadoop ieguva savu sākumu?
Pirms divpadsmit gadiem Google izveidoja platformu, lai manipulētu ar milzīgo datu daudzumu, ko tas savāc. Tāpat kā uzņēmums bieži to dara, Google savu dizainu darīja pieejamu sabiedrībai divu dokumentu veidā: Google failu sistēma un MapReduce.
Tajā pašā laikā Doug Cutting un Maiks Cafarella strādāja pie jaunas meklētājprogrammas Nutch. Abas cīnījās arī par to, kā apstrādāt lielu datu daudzumu. Tad abi pētnieki uzzināja par Google dokumentiem. Šis laimīgais krustojums mainīja visu, ieviešot Cutting un Cafarella labāku failu sistēmu un veidu, kā sekot datiem, galu galā novedot pie Hadoop izveides.
Kas ir tik svarīgi Hadoop?
Mūsdienās datu vākšana ir vienkāršāka nekā jebkad agrāk. Visu šo datu iegūšana rada daudzas iespējas, taču ir arī izaicinājumi:- Liela apjoma datu iegūšanai ir vajadzīgas jaunas apstrādes metodes.
- Iemūžinātie dati ir nestrukturētā formātā.
Tālāk viņiem bija jārisina nestrukturēti dati vai dati formātos, kurus standarta relāciju datu bāzu sistēmas nespēja apstrādāt. Griešana un Cafarella izstrādāja Hadoop darbam ar jebkura veida datiem: strukturētiem, nestrukturētiem, attēliem, audio failiem, pat ar tekstu. Šajā Cloudera (Hadoop integrators) baltajā grāmatā ir izskaidrots, kāpēc tas ir svarīgi:
-
"Padarot visus savus datus izmantojamus, ne tikai tos, kas atrodas jūsu datu bāzēs, Hadoop ļauj atklāt slēptās attiecības un atklāj atbildes, kas vienmēr ir bijušas vienkārši nepieejamas. Bagātību vietā varat sākt pieņemt vairāk lēmumu, pamatojoties uz cietiem datiem, un meklēt pilnās datu kopās, ne tikai paraugos un kopsavilkumos. "
Kas ir lasītā shēma?
Kā jau tika minēts iepriekš, viena no Hadoop priekšrocībām ir tā spēja apstrādāt nestrukturētus datus. Savā ziņā tas ir "kārbas sitiens pa ceļu". Visbeidzot, datiem ir vajadzīga sava veida struktūra, lai tos analizētu.
Tieši šeit tiek atskaņota lasītā shēma. Izlasītā shēma ir datu formāta, kas atrodas formātā, summēšana, kur tos atrast (atcerieties, ka dati ir izkliedēti vairākos serveros), un tas, kas jādara ar datiem - tas nav vienkāršs uzdevums. Tika teikts, ka manipulēšanai ar datiem Hadoop sistēmā ir nepieciešamas biznesa analītiķa, statistiķa un Java programmētāja prasmes. Diemžēl cilvēku ar šādu kvalifikāciju nav daudz.
Kas ir strops?
Ja Hadoop gūtu panākumus, darbs ar datiem bija jāvienkāršo. Tātad, atvērtā koda pūlis sāka strādāt un izveidoja stropu:-
"Hive nodrošina mehānismu, kā projektēt šos datus un pieprasīt datus, izmantojot SQL līdzīgu valodu, ko sauc par HiveQL. Tajā pašā laikā šī valoda arī ļauj tradicionālajiem map / red programmētājiem iespraust savus pielāgotos kartētājus un reduktorus, ja tas ir neērti vai neefektīvi izteikt šo loģiku HiveQL. "
Hive nodrošina labāko no abām pasaulēm: datu bāzu personāls, kurš pārzina SQL komandas, var manipulēt ar datiem, un izstrādātāji, kas pārzina lasīšanas procesa shēmu, joprojām var izveidot pielāgotus vaicājumus.
Kādus datus analizē Hadoop?
Tīmekļa analīze ir pirmā lieta, kas ienāk prātā, analizējot tīmekļa žurnālus un tīmekļa trafiku, lai optimizētu vietnes. Piemēram, Facebook noteikti iekļaujas tīmekļa analītikā, izmantojot Hadoop, lai kārtotu uzņēmuma uzkrāto datu terabaitus.
Uzņēmumi izmanto Hadoop klasterus, lai veiktu riska analīzi, krāpšanas atklāšanu un klientu bāzes segmentēšanu. Komunālo pakalpojumu uzņēmumi izmanto Hadoop, lai analizētu sensoru datus no sava elektrotīkla, ļaujot viņiem optimizēt elektroenerģijas ražošanu. Lielākie uzņēmumi, piemēram, Target, 3M un Medtronics, izmanto Hadoop, lai optimizētu produktu izplatīšanu, biznesa risku novērtēšanu un klientu bāzes segmentēšanu.
Universitātes tiek ieguldītas arī Hadoop. Breds Rubins, Sv. Tomasa universitātes programmatūras absolventu asociētais profesors, minēja, ka viņa Hadoop zināšanas palīdz šķirot apjomīgos datus, ko apkopo universitātes pētniecības grupas.
Vai jūs varat sniegt reālās pasaules Hadoop piemēru?
Viens no pazīstamākajiem piemēriem ir TimesMachine. The New York Times ir pilnas lapas laikrakstu TIFF attēlu, ar tiem saistīto metadatu un rakstu tekstu kolekcija no 1851. līdz 1922. gadam, kas veido terabaitus datu. NYT's Derek Gottfrid, izmantojot EC2 / S3 / Hadoop sistēmu un specializēto kodu:-
"Ieņemti 405 000 ļoti lieli TIFF attēli, 3, 3 miljoni rakstu SGML un 405 000 xml failos, kartējot rakstus TIFF taisnstūrveida reģionos. Šie dati tika pārveidoti par tīmeklim draudzīgākiem 810 000 PNG attēliem (sīktēliem un pilniem attēliem) un 405 000 JavaScript failiem. "
Izmantojot serverus Amazon Web Services mākonī, Gottfrid minēja, ka viņi spēj apstrādāt visus datus, kas nepieciešami TimesMachine, mazāk nekā 36 stundās.
Vai Hadoops jau ir novecojis vai tikai morfē?
Hadoop darbojas jau vairāk nekā desmit gadus. Daudzi saka, ka tas ir novecojis. Viens eksperts, doktors Deivids Riko, ir teicis, ka "IT produkti ir īslaicīgi. Suņu gados Google produkti ir aptuveni 70, bet Hadoop ir 56."
Var būt kāda patiesība Riko teiktajam. Izskatās, ka Hadoop piedzīvo kapitālo remontu. Lai uzzinātu vairāk par to, Rubīns uzaicināja mani uz Twin Cities Hadoop lietotāju grupas sanāksmi, un diskusijas tēma bija Ievads YARN:
-
"Apache Hadoop 2 ietver jaunu MapReduce motoru, kam ir vairākas priekšrocības salīdzinājumā ar iepriekšējo ieviešanu, ieskaitot labāku mērogojamību un resursu izmantošanu. Jaunā ieviešana ir veidota uz vispārēju resursu pārvaldības sistēmu sadalītu lietojumprogrammu darbināšanai ar nosaukumu YARN."
