Mājas Audio Hadoop analītika: nav tik vienkārši vairākos datu avotos

Hadoop analītika: nav tik vienkārši vairākos datu avotos

Satura rādītājs:

Anonim

Hadoop ir lieliska vieta, lai lejupielādētu datus analītiskai apstrādei vai modelētu lielākus viena datu avota apjomus, kas nav iespējami esošajās sistēmās. Tā kā uzņēmumi Hadoop ienes datus no daudziem avotiem, pieaug pieprasījums pēc dažādu avotu datu analīzes, ko var būt ārkārtīgi grūti sasniegt. Šī ziņa ir pirmā no trīs daļu sērijām, kas izskaidro problēmas, ar kurām organizācijas saskaras, mēģinot analizēt dažādus datu avotus un veidus Hadoop un kā risināt šīs problēmas. Šodienas rakstā uzmanība tiek pievērsta problēmām, kas rodas, apvienojot vairākus iekšējos avotus. Nākamajās divās ziņās ir izskaidrots, kāpēc šīs problēmas kļūst sarežģītākas, jo tiek pievienoti ārējie datu avoti, un kā jaunas pieejas palīdz tās atrisināt.

Dati no dažādiem avotiem, kurus grūti savienot un kartēt

Dažādu avotu datiem ir atšķirīgas struktūras, kas apgrūtina datu tipu, pat no iekšējiem avotiem, savienošanu un kartēšanu. Datu apvienošana var būt īpaši sarežģīta, ja klientiem ir vairāki kontu numuri vai arī organizācija ir ieguvusi vai apvienojusies ar citiem uzņēmumiem. Pēdējo gadu laikā dažas organizācijas ir mēģinājušas izmantot datu atklāšanu vai datu zinātnes lietojumprogrammas, lai analizētu datus no vairākiem Hadoop glabātiem avotiem. Šī pieeja ir problemātiska, jo tā ietver daudz minējumu: lietotājiem jāizlemj, kuras ārvalstu atslēgas izmantot, lai savienotu dažādus datu avotus, un jāizdara pieņēmumi, veidojot datu modeļa pārklājumus. Šos minējumus ir grūti pārbaudīt, un bieži vien tie ir nepareizi, ja tos piemēro mērogā, kas rada kļūdainu datu analīzi un neuzticēšanos avotiem.

Hadoop eksperti mēģina apvienot datus kopā

Tādēļ organizācijas, kas vēlas analizēt datus no visiem datu avotiem, ir nolēmušas nolīgt Hadoop ekspertus, lai izveidotu pielāgotus, avotiem specifiskus skriptus, lai apvienotu datu kopas. Šie Hadoop eksperti parasti nav datu integrācijas vai entītiju noregulēšanas eksperti, taču viņi dara visu iespējamo, lai risinātu organizācijas tūlītējās vajadzības. Šie eksperti parasti izmanto Pig vai Java, lai uzrakstītu stingrus un ātrus noteikumus, kas nosaka, kā apvienot strukturētus datus no konkrētiem avotiem, piemēram, ierakstu saskaņošanu, pamatojoties uz konta numuru. Kad ir uzrakstīts divu avotu skripts, ja jāpievieno trešais avots, pirmais skripts ir jāizmet un jāizveido jauns skripts, kas apvieno trīs specifiskus avotus. Tas pats notiek, ja tiek pievienots cits avots utt. Šī pieeja ir ne tikai neefektīva, bet arī neizdodas, ja to piemēro apjomīgi, slikti apstrādā malu gadījumus, var izraisīt lielu skaitu dublikātu ierakstu un bieži apvieno daudzus ierakstus, kurus nevajadzētu apvienot.

Hadoop analītika: nav tik vienkārši vairākos datu avotos