Satura rādītājs:
- Cik lieli dati tiek izmantoti
- Kur ir reālā vērtība?
- Dažreiz mazie dati rada lielāku (un lētāku) ietekmi
Lielie dati ir vispārējs vārds, ko lieto, lai atsauktos uz liela apjoma datu apstrādi. Mēs visi saprotam, ka jo lielāks ir datu apjoms, jo sarežģītāks tas kļūst. Tradicionālie datu bāzes risinājumi bieži vien nespēj pareizi pārvaldīt lielu datu apjomu to sarežģītības un lieluma dēļ. Tāpēc liela apjoma datu pārvaldība un reāla ieskata iegūšana ir grūts uzdevums. Tāda pati “vērtības” koncepcija ir piemērojama arī maziem datiem.
Cik lieli dati tiek izmantoti
Parastie datu bāzes risinājumi, kuru pamatā ir RDBMS koncepcija, var ļoti labi pārvaldīt darījumu datus, un tos plaši izmanto dažādās lietojumprogrammās. Bet, kad runa ir par lielu datu kopumu (dati, kas tiek arhivēti un ir terabaitos vai pebatatos), šie datu bāzes risinājumi bieži neizdodas. Šīs datu kopas ir pārāk lielas, un lielākoties tās neietilpst tradicionālo datu bāzu arhitektūrā. Mūsdienās lieli dati ir kļuvuši par izmaksu ziņā efektīvu pieeju lielu datu kopu apstrādei. No organizatoriskā viedokļa lielo datu izmantošanu var iedalīt šādās kategorijās, kur lielā datu patiesā vērtība ir:- Analītiska izmantošana
Lielo datu analītiķi ir atklājuši daudzus svarīgus datu slēptos aspektus, kuru apstrāde ir pārāk dārga. Piemēram, ja mums jāpārbauda studentu interese par noteiktu jaunu tēmu, mēs to varam izdarīt, analizējot ikdienas apmeklējumu ierakstus un citus sociālos un ģeogrāfiskos faktus. Šie fakti tiek fiksēti datu bāzē. Ja mēs nevaram efektīvi piekļūt šiem datiem, mēs nevaram redzēt rezultātus.
- Iespējot jaunus produktus
Nesenā pagātnē daudzi jauni tīmekļa uzņēmumi, piemēram, Facebook, ir sākuši izmantot lielos datus kā risinājumu jaunu produktu ieviešanai. Mēs visi zinām, cik populārs ir Facebook - tas ir veiksmīgi sagatavojis augstas veiktspējas lietotāju pieredzi, izmantojot lielos datus.
Kur ir reālā vērtība?
Dažādi lielo datu risinājumi atšķiras pēc pieejas, kādā tie glabā datus, bet galu galā tie visi datus glabā plakanā faila struktūrā. Parasti Hadoop sastāv no failu sistēmas un dažiem operētājsistēmas līmeņa datu abstrakcijām. Tas ietver MapReduce motoru un Hadoop izplatīto failu sistēmu (HDFS). Vienkāršā Hadoop klasterī ietilpst viens galvenais mezgls un vairāki strādnieku mezgli. Galvenais mezgls sastāv no:- Uzdevumu izsekotājs
- Darba meklētājs
- Vārda mezgls
- Datu mezgls
- Uzdevumu izsekotājs
- Datu mezgls
Dažās implementācijās ir tikai datu mezgls. Datu mezgls ir faktiskais apgabals, kurā atrodas dati. HDFS glabā lielus failus (no terabaitiem līdz petatatiem), kas izvietoti vairākās mašīnās. Datu ticamība par katru mezglu tiek panākta, replicējot datus visos resursdatoros. Tādējādi dati ir pieejami pat tad, ja viens no mezgliem nav izveidots. Tas palīdz ātrāk sasniegt atbildes uz jautājumiem. Šī koncepcija ir ļoti noderīga tādu milzīgu lietojumprogrammu gadījumā kā Facebook. Kā lietotājs, piemēram, gandrīz nekavējoties saņemam atbildi uz mūsu tērzēšanas pieprasījumu. Apsveriet scenāriju, kurā lietotājam tērzēšanas laikā ilgi jāgaida. Ja ziņojums un tam sekojošā atbilde netiek piegādāta uzreiz, tad cik cilvēku faktiski izmantos šos tērzēšanas rīkus?
Atgriežoties pie Facebook ieviešanas, ja dati netiks replicēti klasteros, nebūs pievilcīgas ieviešanas. Hadoop izplata datus mašīnās lielākā klasterī un failus saglabā kā bloku secību. Šie bloki ir vienāda lieluma, izņemot pēdējo. Bloka lielumu un replikācijas koeficientu var pielāgot pēc vajadzības. Faili HDFS formātā stingri ievēro vienreizējās rakstīšanas pieeju, tāpēc tos vienlaikus var rakstīt vai rediģēt tikai viens lietotājs. Lēmumus par bloku atkārtošanu pieņem nosaukuma mezgls. Nosaukuma mezgls saņem pārskatus un impulsa atbildes no katra no datu mezgliem. Impulsu atbildes nodrošina atbilstošā datu mezgla pieejamību. Pārskatā ir sīka informācija par blokiem datu mezglā.
Cita liela datu ieviešana, Cassandra, arī izmanto līdzīgu izplatīšanas koncepciju. Kasandra izplata datus, pamatojoties uz ģeogrāfisko atrašanās vietu. Tādējādi Kasandrā dati tiek nodalīti, pamatojoties uz datu izmantošanas ģeogrāfisko atrašanās vietu.
Dažreiz mazie dati rada lielāku (un lētāku) ietekmi
Kā saka Rufusa Polloks no Atvērto zināšanu fonda, nav jēgas radīt lielu datu apmēru, kamēr mazie dati joprojām ir īstā vērtība.
Kā norāda nosaukums, mazi dati ir datu kopums, kas vērsts no lielāka datu kopuma. Nelieliem datiem ir paredzēts novirzīt uzmanību no datu izmantošanas, un to mērķis ir arī novērst tendenci pāriet uz lieliem datiem. Nelielu datu pieeja palīdz vākt datus, pamatojoties uz īpašām prasībām, izmantojot mazāk pūļu. Tā rezultātā tā ir efektīvāka biznesa prakse, vienlaikus ieviešot biznesa inteliģenci.
Mazo datu jēdziena pamatā ir uzņēmumi, kuriem nepieciešami rezultāti, kas prasa turpmākas darbības. Šie rezultāti ir ātri jāielādē, un nekavējoties jāveic arī turpmākā darbība. Tādējādi mēs varam novērst sistēmu veidus, kurus parasti izmanto lielo datu analītikā.
Kopumā, ja mēs ņemam vērā dažas īpašas sistēmas, kas vajadzīgas lielu datu ieguvei, uzņēmums varētu ieguldīt daudz serveru glabāšanas iestatīšanā, izmantot sarežģītus augstākās klases serverus un jaunākās datu ieguves lietojumprogrammas, lai apstrādātu dažādus datu bitus., ieskaitot lietotāju darbību datumus un laikus, demogrāfisko informāciju un citu informāciju. Visa šī datu kopa tiek pārvietota uz centrālo datu noliktavu, kur datu šķirošanai un apstrādei tiek izmantoti sarežģīti algoritmi, lai tos parādītu detalizētu pārskatu veidā.
Mēs visi zinām, ka šie risinājumi ir devuši labumu daudziem uzņēmumiem mērogojamības un pieejamības ziņā; ir organizācijas, kas uzskata, ka šo pieeju ieviešana prasa ievērojamas pūles. Tā ir arī taisnība, ka dažos gadījumos līdzīgus rezultātus sasniedz, izmantojot mazāk robustu datu ieguves stratēģiju.
Nelieli dati sniedz organizācijām iespēju atkāpties no apsēstības ar jaunākajām un jaunākajām tehnoloģijām, kas atbalsta sarežģītākus biznesa procesus. Uzņēmumi, kas reklamē mazus datus, apgalvo, ka no biznesa viedokļa ir svarīgi efektīvi izmantot savus resursus, lai zināmā mērā varētu izvairīties no tehnoloģiju pārmērīgas iztērēšanas.
Mēs esam daudz apsprieduši par lielo datu un mazo datu realitāti, taču mums ir jāsaprot, ka visa uzdevuma vissvarīgākā daļa ir pareizas platformas (lieli dati vai mazi dati) pareiza lietošana. Un patiesība ir tāda, ka, kaut arī lieli dati var sniegt daudz ieguvumu, tas ne vienmēr ir labākais.
