Autors: Techopedia Staff, 2016. gada 2. jūnijs
Izņemšana: Hadoop ekosistēma tiek izmantota lieldatoros, lai ātri un efektīvi apstrādātu lielos datus.
Pašlaik neesat pieteicies. Lai redzētu video, lūdzu, pierakstieties vai reģistrējieties.
Ēriks Kavanaghs: Labi, dāmas un kungi, ceturtdien ir pulksten četri uz austrumiem, un šajās dienās tas nozīmē, ka, protams, ir karsto tehnoloģiju laiks. Jā, tiešām, mans vārds ir Ēriks Kavanaghs. Es būšu jūsu šodienas tīmekļa semināra moderators. Tās ir labas lietas, ļaudis, “Big Iron, Meet Big Data” - es vienkārši mīlu šo virsrakstu - “Mainframe Data atbrīvošana ar Hadoop un Spark”. Mēs runāsim par vecajiem un jaunajiem. Oho! Mēs aptveram visa spektru, par ko esam runājuši pēdējos 50 uzņēmuma IT gados. Dzirkstele satiek lieldatoru, es to mīlu.
Ir patiesa vieta, un par mani pietiek. Gads ir karsts. Šajā sērijā mēs runājam par karstām tēmām, jo mēs patiešām cenšamies palīdzēt ļaudīm izprast noteiktas disciplīnas, noteiktas telpas. Ko nozīmē, piemēram, analītiska platforma? Ko nozīmē atbrīvot lieldatus no lieldatoriem? Ko nozīmē visi šie sīkumi? Mēs cenšamies palīdzēt jums izprast noteikta veida tehnoloģijas, kur tās iekļaujas sajaukumā un kā jūs varat tās izmantot.
Mums šodien ir divi analītiķi un tad, protams, Tendü Yogurtçu no Syncsort. Viņa ir redzētāja mūsu telpā, ļoti priecīga, ka šodien ir tiešsaistē ar mūsu pašu Dezu Blanšfīldu un Dr. Robinu Blooru. Es teikšu tikai pāris ātrus vārdus. Viens ir tas, ka, ļaudīm, jums šajā procesā ir liela loma, tāpēc, lūdzu, nekautrējieties uzdot dažus labus jautājumus. Mēs vēlamies nokļūt pie viņiem tīmekļa apraides jautājumu un atbilžu laikā, kas parasti ir šova beigās. Un viss, kas man jāsaka, ir tas, ka mums ir daudz laba satura, tāpēc es priecājos dzirdēt, kas šiem puišiem ir sakāms. Un līdz ar to es to nodos Dez Blanchfield. Dez, grīda ir tava, atņem to.
Dezs Blanšfīlds: Paldies, Ēriks, un paldies visiem, ka apmeklējāt šodien. Tāpēc es sapriecājos, kad man ir iespēja runāt par vienu no manām mīļākajām lietām pasaulē, lieldatoriem. Mūsdienās viņi daudz nemīl. Manuprāt, lieldators bija sākotnējā lielo datu platforma. Daži varētu apgalvot, ka tajā laikā tie bija vienīgie datori, un tas ir pamatoti jāpiemin, taču nu jau vairāk nekā 60 gadus tie patiesībā ir bijusi dzinēja telpa tam, kādi lielie dati vēlu ir kļuvuši populāri. Un es došos jūs nelielā ceļojumā, kāpēc es uzskatu, ka tas tā ir.
Mēs esam redzējuši ceļojumu tehnoloģiju aparatūras krāvumos lieldatoru kontekstā, pārejot no attēla, kuru jūs tagad redzat uz ekrāna. Šis ir vecs FACOM lieldators, viens no maniem favorītiem. Mēs esam pārcēlušies uz lielo dzelzs fāzi, deviņdesmito gadu beigām un dot-com uzplaukumu. Tas ir Sun Microsystems E10000. Šī lieta bija absolūts briesmonis 96 CPU. Sākotnēji 64, bet to varēja uzlabot ar 96 procesoriem. Katrs centrālais procesors varētu palaist 1024 pavedienus. Katram pavedienam vienlaikus var būt pielietojuma likme. Tas bija vienkārši milzīgs, un tas faktiski darbināja dot-com uzplaukumu. Tie ir visi lielie vienradzi, kā mēs tos saucam, tagad mēs darbojamies, un ne tikai lielie uzņēmumi, dažas no lielajām vietnēm.
Un tad mēs nonācām pie šī vispārpieņemtā plaša patēriņa preču datora modeļa. Mēs vienkārši sasprādzējām daudz lētu mašīnu un izveidojām kopu, un mēs tuvojāmies lielajam dzelzs izaicinājumam un tam, kas kļuva par lieliem datiem, it īpaši Hadoop projekta veidā, kura rezultātā izveidojās atvērtā koda meklētājprogramma Nutch. Mēs būtībā atjaunojām lieldatoru un daudzus mazus CPU, kas bija salīmēti kopā un spēja darboties kā L-veida ceļi, kā arī vadot atsevišķus darbus vai darbu daļas, un tie daudzējādā ziņā bija diezgan efektīvi. Lētāk, ja jūs sāktu mazākus, taču vienmēr daudzi no šiem lielajiem klasteriem ir kļuvuši dārgāki nekā lieldatori.
Mans uzskats par šīm lietām ir tāds, ka, sākot no dot-com uzplaukuma līdz tam, kas kļuva par Web 2.0, un tagad dzenoties pēc vienradžiem, mēs esam aizmirsuši, ka šī platforma joprojām tur darbina daudzas mūsu lielākās misijai kritiskās sistēmas. Kad mēs domājam par to, kas darbojas lieldatoru platformās, kas tur darbojas. Tas ļoti lielā mērā ir lieli dati, it īpaši datu darbarīks, bet noteikti lieli dati. Tādas tradicionālas uzņēmumu un valdības sistēmas kā banku darbība, jo īpaši īpašuma pārvaldīšana un apdrošināšana, mēs visi izmantojam katru dienu.
Aviobiļešu rezervēšanas un lidojumu vadības sistēmas, jo īpaši lidojumu vadība, ja reālā laika darbība ir kritiska. Gandrīz katrā štatā un federālajā valdībā kādreiz ir bijis lieldators, un daudzos gadījumos tas joprojām pastāv. Mazumtirdzniecība un ražošana. Daļa vecās programmatūras, kas tikko atradusies un nekad nav pazudusi. Vienkārši turpina darboties ražošanas vidē un noteikti mazumtirdzniecībā. Medicīnas sistēmas. Aizsardzības sistēmas, protams, aizsardzības sistēmas.
Pēdējo pāris nedēļu laikā esmu lasījis daudzus rakstus par to, ka visas raķešu kontroles sistēmas joprojām darbojas vecos lieldatoros, kuriem viņi cīnās, lai atrastu rezerves daļas. Viņi izdomā, kā jaunināt uz jauniem lieldatoriem. Transporta un loģistikas sistēmas. Tās var neizklausīties kā seksīgas tēmas, bet tās ir tēmas, ar kurām mēs ikdienā saskaramies visās līnijās. Un dažas ļoti lielas telekomunikāciju vides joprojām tiek vadītas lieldatoru platformās.
Kad domājat par tur esošo datu veidiem, tie visi ir kritiski svarīgi. Tās ir patiešām svarīgas platformas un platformas, kuras mēs katru dienu uztveram kā pašsaprotamas, un daudzējādā ziņā padara dzīvi iespējamu. Tātad, kurš joprojām izmanto lieldatoru un kas ir visi šie cilvēki, kuri turas pie šīm lielajām platformām un glabā visus šos datus? Kā es teicu, es uzskatu, ka ir viegli maldināt, ja plašsaziņas līdzekļi pāriet no liela apjoma dzelzs uz plašu parasto klasteru plauktiem vai lētiem personālajiem datoriem vai x86 mašīnām, domājot, ka lieldators nomira un aizgāja. Bet dati saka, ka lieldators nekad nav pazudis, un patiesībā tas ir šeit, lai paliktu.
Pētījums, ko šeit apkopoju pēdējo pāris nedēļu laikā, ir parādījis, ka 70 procenti no uzņēmumiem, īpaši lieliem uzņēmumiem, joprojām faktiski atrodas uz kāda lieldatora. Septiņdesmit viens procents Fortune 500 joprojām kaut kur vada galveno biznesa sistēmu lieldatoros. Faktiski šeit, Austrālijā, mums ir vairākas organizācijas, kurām ir datu centrs pilsētas vidū. Tas faktiski ir reāls pazemes dators un lieldatoru skaits, kas tur vienkārši darbojas, ķeksīša pēc un ar prieku dara savu darbu. Un ļoti maz cilvēku zina, ka, staigājot pa ielām, tieši zem kājām vienā noteiktā pilsētas daļā, atrodas šis milzīgais datu centrs, kas piepildīts ar lieldatoriem. Deviņdesmit divas no 100 bankām visā pasaulē, 100 labākās bankas, tas ir, joprojām vada banku sistēmas lieldatoros. Divdesmit trīs no 25 labākajām mazumtirdzniecības ķēdēm visā pasaulē izmanto lieldatorus, lai mazumtirdzniecības pārvaldības sistēmas joprojām darbotos EIP un BI platformās.
Interesanti, ka 10 no 10 labākajiem apdrošinātājiem joprojām izmanto savas platformas lieldatoros, un viņi faktiski nodrošina savus mākoņa pakalpojumus lieldatoros. Ja kaut kur lietojat tīmekļa saskarni vai mobilo lietotni, kurā ir starpprogrammatūras interfeiss, tas faktiski sarunājas ar kaut ko patiešām smagu un lielu aizmugurē.
Es atradu vairāk nekā 225 valsts un pašvaldību aģentūras visā pasaulē, kas joprojām darbojas lieldatoru platformās. Esmu pārliecināts, ka tam ir daudz iemeslu. Varbūt viņiem nav budžeta, lai apsvērtu jaunu dzelzi, taču tas ir milzīgs ļoti lielu vidi ietekmējošs lieldators, kurā ir ļoti kritiski dati. Un kā jau minēju iepriekš, vairums valstu joprojām izmanto savas galvenās aizsardzības sistēmas lieldatoros. Esmu pārliecināts, ka daudzējādā ziņā viņi mēģina izkāpt, bet tur jūs ejat.
IDC 2015. gadā veica aptauju, un 350 no aptaujātajiem CIO ziņoja, ka viņiem joprojām pieder un pārvalda lielu dzelzi lieldatoru veidā. Un mani pārsteidza, ka, iespējams, tas ir vairāk nekā lielo Hadoop klasteru skaits, kas pašlaik darbojas visā pasaulē - tas ir interesants mazais statuss. Es došos uz priekšu un apstiprināšu to, bet tas bija liels skaits. Trīs simti piecdesmit CIO ziņoja, ka viņiem joprojām ir viens vai vairāki lieldatori.
Pagājušajā gadā, 2015. gadā, IBM mums uzdāvināja vareno Z13, viņu lieldatora platformas 13. atkārtojumu. Plašsaziņas līdzekļi izteicās par šo lietu, jo bija pārsteigti, ka IBM joprojām veido lieldatorus. Kad viņi pacēla kapuci un apskatīja, kas atrodas zem lietas, viņi saprata, ka tā faktiski ir līdzvērtīga gandrīz katrai mūsdienu platformai, par kuru mēs esam satraukti lielo datu, Hadoop un, protams, kopu veidā. Šī lieta savulaik skrēja Spark un tagad Hadoop. Jūs tajā varētu palaist tūkstošiem un tūkstošiem Linux mašīnu, un tas izskatījās un jutās kā jebkurš cits klasteris. Tā bija diezgan apbrīnojama mašīna.
Vairākas organizācijas ņēma šo lietu uz priekšu, un faktiski es ieguvu dažus datus par to, cik daudz šo mašīnu izmanto. Tagad esmu uzskatījis, ka 3270 teksta termināli kādu laiku ir aizstājuši tīmekļa pārlūkprogrammas un mobilās lietotnes, un ir daudz datu, kas to atbalsta. Es domāju, ka tagad mēs esam nonākuši laikmetā, kurā esam sapratuši, ka šie lieldatori vairs nezūd un par tiem ir daudz datu. Un tas, ko mēs tagad darām, ir vienkārši pievienošana tam, ko es saucu par vispārējiem analītikas rīkiem. Šīs nav pielāgotas lietotnes. Tās ir lietas, kurām ir nepieciešami vienreizēji pasākumi. Tās ir lietas, kuras jūs burtiski varat iegādāties tikai iesaiņotā kastē, kā arī iespraust lieldatorā un veikt kādu analīzi.
Kā jau teicu iepriekš, patiesībā lieldators darbojas jau vairāk nekā 60 gadus. Kad mēs domājam par to, cik ilgs tas ir, tas ir garāks nekā faktiski notiek lielākā daļa IT profesionāļu karjeras. Un patiesībā, iespējams, kaut kādu viņu dzīvi pat. 2002. gadā IBM pārdeva 2300 lieldatorus. 2013. gadā tas pieauga līdz 2700 lieldatoriem. Tas ir 2700 lieldatoru pārdošanas apjomi vienā gadā 2013. gadā. Es nevarēju iegūt precīzus datus par 2015. gadu, bet es iedomājos, ka tas strauji pietuvojas 3000 vienībām, kas pārdotas gadā 2015., 2013. gadā. Es ceru, ka spēsim to apstiprināt.
Izlaižot Z13, lieldatoru platformas 13. atkārtošanu, kas, manuprāt, maksāja apmēram 1, 2 vai 1, 3 miljardus dolāru, lai izstrādātu no nulles, tas ir, šeit ir mašīna, kas izskatās un jūtas tāpat kā jebkura cita klastera, kas mums šodien ir, un dabiski vada Hadoop un Spark. Un to noteikti var savienot ar citiem analītiskajiem un lielo datu rīkiem vai vienmēr savienot ar kādu no jūsu esošajiem vai jaunajiem Hadoop klasteriem. Es uzskatu, ka lieldatoru platformas iekļaušana jūsu lielo datu stratēģijā ir obligāta. Acīmredzot, ja jums tāda ir, jums ir daudz datu un vēlaties izdomāt, kā to iegūt. Viņiem ir jāatstāj putekļu savākšana daudzos veidos, garīgi un emocionāli, ciktāl tas attiecas uz biznesa pasauli, bet viņi ir šeit, lai paliktu.
Visu jūsu analītisko rīku savienojamībai un saskarnēm ar lieldatoru mitinātiem datiem vajadzētu būt galvenajai jūsu uzņēmuma sastāvdaļai un it īpaši valdības lielo datu plāniem. Un vienmēr programmatūra tos pamana, ilgi uzlūko tos un saprot, kas ir šo lietu iekšienē, un savieno prātus, kas sāk gūt nelielu ieskatu un mazliet sajust to, kas patiesībā atrodas zem pārsega. Un līdz ar to es nodošu savu dārgo kolēģi, Dr. Robinu Blooru, un viņš papildinās šo mazo ceļojumu. Robin, atņem to.
Robins Bloors: Nu, paldies. Labi, ka kopš Dez ir dziedājis lieldatoru dziesmu, es iedziļināšos tajā, kas, manuprāt, notiek saistībā ar veco lieldatoru pasauli un jauno Hadoop pasauli. Es domāju, ka šeit ir liels jautājums - kā jūs pārvaldāt visus šos datus? Tas nav mans viedoklis, ka lieldatoriem tiek izvirzītas problēmas attiecībā uz lielo datu iespējām - tā lielo datu iespējas ir ārkārtīgi lielas, kā uzsvēra Dez, tas ir ārkārtīgi spējīgs. Faktiski jūs varat ievietot Hadoop kopas. Kur tas tiek apstrīdēts, tas attiecas uz tās ekosistēmu, un es to savādāk izstrādāšu.
Šeit ir daži lieldatoru izvietojumi. Tam ir augstas ieejas izmaksas, un tas, kas faktiski ir noticis pagātnē, kopš 90. gadu vidus, kad lieldatoru popularitāte sāka kristies, parasti ir zaudējis zemo cenu - cilvēkiem, kuri bija nopirkuši lētus lieldatorus, un tas vēl nebija Tiem cilvēkiem tas nav īpaši ekonomisks. Bet augstāk - lieldatoru vidējā diapazonā un augstajā diapazonā - tas joprojām faktiski bija un, acīmredzami, patiesībā ir, neticami lēti skaitļošanas līdzekļi.
Jāsaka, ka Linux to izglāba, jo uz lieldatora ieviestā Linux ļāva, protams, palaist visas Linux lietojumprogrammas. Daudz Linux lietojumprogrammu tur devās, pirms lielie dati pat bija vārds vai divi vārdi. Tā faktiski ir diezgan lieliska platforma privātam mākonim. Tāpēc tas var piedalīties hibrīdo mākoņu izvietošanā. Viena no problēmām ir tā, ka lieldatoru prasmju trūkst. Pašreizējās lieldatoru prasmes noveco tādā nozīmē, ka cilvēki gadu no gada aiziet no darba pensijā, un cilvēku skaita ziņā viņi vienkārši tiek aizstāti. Tātad tas ir jautājums. Bet tā joprojām ir lēta skaitļošana.
Teritorija, kurā, protams, tiek izaicināts, ir visa šī Hadoop lieta. Tas ir Doug Cutting attēls ar oriģinālo Hadoop ziloni. Hadoop ekosistēma ir - un tā paliks - dominējošā lielo datu ekosistēma. Tas piedāvā labāku mērogu, nekā lieldators faktiski var sasniegt, un tālsatiksmes datu glabāšanas izmaksas ir zemākas. Hadoop ekosistēma attīstās. Vislabākais veids, kā domāt par šo jautājumu, ir noteikta aparatūras platforma un darbības vide ar to kļūst dominējoša, tad ekosistēma vienkārši atdzīvojas. Un tas notika ar IBM lieldatoru. Nu, vēlāk notika ar Digital VAX, notika ar Sun serveriem, notika ar Windows, notika ar Linux.
Un tas, kas notika, ir tas, ka Hadoop, par kuru es vienmēr domāju vai man patīk domāt par sava veida izkliedētu vidi datiem, ekosistēma attīstās neticami strauji. Es domāju, ja jūs pieminējat tikai dažādus iespaidīgus ieguldījumus, kas ir atvērtā koda, Spark, Flink, Kafka, Presto, un tad jūs pievienojat dažām datu bāzēm, NoSQL un SQL iespējām, kuras tagad atrodas Hadoop. Hadoop ir visaktīvākā ekosistēma, kas faktiski pastāv tur, noteikti korporatīvajā skaitļošanā. Bet, ja vēlaties to uzskatīt par datu bāzi, tajā vienkārši nav nekāda salīdzinājuma ar to, ko es mēdzu domāt par reālām datu bāzēm, it īpaši datu noliktavas telpā. Un tas zināmā mērā izskaidro vairāku lielo NoSQL datu bāzu panākumus, kas nedarbojas Hadoop, piemēram, CouchDB un tā tālāk.
Kā datu ezeram tam ir daudz bagātāka ekosistēma nekā jebkurai citai platformai, un tas no tā netiks pārvietots. Tās ekosistēma nav tikai atvērtā koda ekosistēma. Tagad ir dramatisks skaits programmatūras dalībnieku, kuriem ir produkti, kas pamatā ir izveidoti Hadoop vai ir importēti Hadoop. Viņi ir tikko izveidojuši ekosistēmu, ka nav nekā, kas ar to varētu konkurēt tās platuma ziņā. Un tas nozīmē, ka patiešām tā ir kļuvusi par lielo datu inovāciju platformu. Bet, manuprāt, tas joprojām nav nobriedis, un mums varētu būt ilgstošas diskusijas par to, kas ir un kas, teiksim, ir nobriedis ar Hadoop, bet es domāju, ka lielākā daļa cilvēku, kuri skata šo konkrēto jomu, labi zina, ka Hadoop gadu desmitiem atpaliek no lieldatora darbības spēju ziņā.
Attīstās datu ezers. Datu ezers ir jebkura definīcijas platforma, un, ja jūs domājat, ka korporatīvajā skaitļošanā ir datu slānis, tagad to ir ļoti viegli iedomāties fiksēto datu bāzu un datu slāni veidojošo datu ezeru izteiksmē. Datu ezeru lietojumi ir daudz un dažādi. Man šeit ir diagramma, kurā ir aplūkotas dažādas datu sašūšanas lietas, kas jādara, ja Hadoop izmantojat kā pieturvietu vai Hadoop un Spark kā pieturvietu. Un jums ir viss - datu līnija, datu tīrīšana, metadatu pārvaldība, metadatu atklāšana - to var izmantot pašam ETL, bet bieži vien ETL prasa datus ievest. Galvenā datu pārvaldība, datu biznesa definīcijas, pakalpojumu pārvaldība kas notiek Hadoop, datu dzīves cikla pārvaldība un ETL ārpus Hadoop, kā arī jums ir tiešas analītikas lietojumprogrammas, kuras varat darbināt Hadoop.
Un tāpēc tas ir kļuvis ļoti spēcīgs, un tur, kur tas ir veiksmīgi ieviests un ieviests, parasti tam ir vismaz šāda veida lietojumprogrammu kolekcija, kas darbojas virs tā. Un vairums šo lietojumprogrammu, it īpaši tās, par kurām esmu informēts, tās šobrīd lieldatorā vienkārši nav pieejamas. Bet jūs tos varētu palaist lieldatorā, Hadoop klasterī, kas darbojās lieldatora nodalījumā.
Datu ezers, manuprāt, kļūst par dabisku pieturvietu ātrai datu bāzu analītikai un BI. Tā kļūst par vietu, kur jūs uzņematies datus neatkarīgi no tā, vai tie ir korporatīvie vai ārējie dati, sajauciet tos, līdz tie, teiksim, ir pietiekami tīri lietojami un labi strukturēti lietošanai, un pēc tam jūs tos nodosit. Un tas viss vēl ir sākumstadijā.
Ideja, manuprāt, par lieldatoru / Hadoop līdzāspastāvēšanu, pirmā lieta ir tā, ka maz ticams, ka lielie uzņēmumi atteiksies no lieldatoru. Faktiski norādes, kuras esmu redzējis nesen, nozīmē, ka lieldatorā palielinās investīcijas. Bet viņi arī negrasās ignorēt Hadoop ekosistēmu. Es redzu 60% lielu uzņēmumu skaitli, kas izmanto Hadoop, pat ja liela daļa no tiem faktiski tikai prototipē un eksperimentē.
Mierinājums tad ir: “Kā jūs panākt, ka šīs divas lietas pastāv līdzās?”, Jo tām būs jāapmainās ar datiem. Dati, kas tiek ievesti datu ezerā, kas viņiem jāpārnes uz lieldatoru. Iespējams, ka lieldatorā esošajiem datiem būs jāiet uz datu ezeru vai caur datu ezeru, lai tos varētu savienot ar citiem datiem. Un tas notiks. Un tas nozīmē, ka tai nepieciešama ātra datu pārsūtīšana / ETL iespējas. Maz ticams, ka darba slodze tiks dinamiski sadalīta, teiksim, lieldatoru vidē vai ar kaut ko Hadoop vidē. Tie būs dati, kas tiks koplietoti. Un lielākā daļa datu neizbēgami atradīsies Hadoop tikai tāpēc, ka tā ir viszemāko izmaksu platforma. Iespējams, ka tur notiks arī visaptveroša analītiskā apstrāde.
Rezumējot, galu galā mums ir jādomā par korporatīvo datu slāni, kas daudziem uzņēmumiem ietvers lieldatoru. Un šis datu slānis ir proaktīvi jāpārvalda. Pretējā gadījumā abi nedzīvos labi. Es varu nodot jums bumbu Ēriks.
Ēriks Kavanaghs: Atkal, Tendü es tevi vienkārši padarīju par vadītāju, tāpēc atņem to.
Tendü Yogurtçu: Paldies, Eric. Paldies, ka esat manis. Sveiki visiem. Es runāšu par Syncsort pieredzi ar klientiem saistībā ar to, kā mēs datus redzam kā aktīvu organizācijā, no lieldatoriem līdz lieliem datiem analītikas platformās. Un es ceru, ka sesijas beigās mums būs laiks arī klausītājiem uzdot jautājumus, jo tā tiešām ir šo tīmekļa pārraižu visvērtīgākā daļa.
Tikai cilvēkiem, kuri nezina, ko dara Syncsort, Syncsort ir programmatūras uzņēmums. Patiesībā mēs esam bijuši jau vairāk nekā 40 gadus. Sākām lieldatoru pusē, un mūsu produkti aptver no lieldatora līdz Unix līdz lielām datu platformām, ieskaitot Hadoop, Spark, Splunk, gan telpās, gan mākonī. Mēs vienmēr esam koncentrējušies uz datu produktiem, datu apstrādes un datu integrācijas produktiem.
Mūsu stratēģijai attiecībā uz lielajiem datiem un Hadoop jau no pirmās dienas patiešām ir jābūt ekosistēmas daļai. Kā pārdevēju īpašnieki, kuri patiešām ir koncentrējušies uz datu apstrādi ar ļoti viegliem dzinējiem, mēs domājām, ka ir liela iespēja piedalīties Hadoop kļūšanā par datu apstrādes platformu un būt šīs organizācijas nākamās paaudzes datu noliktavas arhitektūras sastāvdaļai. Mēs esam līdzdalībnieki atvērtā koda Apache projektos kopš 2011. gada, sākot ar MapReduce. Ir bijuši Hadoop 2. versijas desmitniekā un faktiski piedalījušies vairākos projektos, ieskaitot Spark pakotnes, daži no mūsu savienotājiem ir publicēti Spark pakotnēs.
Mēs izmantojam mūsu ļoti vieglo datu apstrādes motoru, kas ir pilnīgi uz vienkāršiem failiem balstīti metadati un ļoti labi darbojas ar tādām izplatītām failu sistēmām kā Hadoop Distributed File System. Un mēs izmantojam savu mantojumu lieldatorā, mūsu kompetenci ar algoritmiem, izliekot lielos datu produktus. Un mēs ļoti cieši sadarbojamies ar galvenajiem pārdevējiem, nozīmīgākajiem dalībniekiem šeit, ieskaitot Hortonworks, Cloudera, MapR, Splunk. Hortonworks nesen paziņoja, ka viņi pārdos mūsu produktu ETL, iekāpjot ar Hadoop. Ar Dell un Cloudera mums ir ļoti cieša partnerība, kas arī pārdod mūsu ETL produktu kā daļu no viņu lielās datu ierīces. Un faktiski ar Splunk mēs publicējam lieldatoru telemetriju un drošības datus Splunk informācijas paneļos. Mums ir cieša partnerība.
Kas ir katras C līmeņa izpildvaras prātā? Tas tiešām ir: “Kā es varu izmantot savus datu aktīvus?” Visi runā par lieliem datiem. Visi runā par Hadoop, Spark, nākamo datoru platformu, kas man varētu palīdzēt radīt biznesa veiklību un atvērt jaunas pārveidojošas lietojumprogrammas. Jaunas iespējas iet tirgū. Ikviens izpilddirektors domā: “Kāda ir mana datu stratēģija, kāda ir mana datu iniciatīva un kā es varu pārliecināties, ka neatpalieku no konkurences un nākamajos trīs gados joprojām esmu šajā tirgū?” Mēs redzēt to, kā mēs runājam ar saviem klientiem, kā mēs runājam ar mūsu globālo klientu bāzi, kas, kā jūs varat iedomāties, ir diezgan liela, jo mēs jau kādu laiku esam tur.
Runājot ar visām šīm organizācijām, mēs to redzam arī tehnoloģiju kaudzē ar traucējumiem, kas notika ar Hadoop. Tas patiešām ir, lai apmierinātu šo pieprasījumu pēc datiem kā aktīviem. Visu organizācijas datu datu aktīvu piesaistīšana. Un mēs esam redzējuši, kā uzņēmuma datu noliktavas arhitektūra attīstās tā, ka Hadoop tagad ir modernas datu arhitektūras jaunais elements. Un vairumam mūsu klientu neatkarīgi no tā, vai tie ir finanšu pakalpojumi, vai tā ir apdrošināšana, mazumtirdzniecības telefons, iniciatīvas parasti ir vai nu tas, ka mēs Hadoop kā pakalpojumu, vai dati kā pakalpojumu. Tā kā visi cenšas datu resursus padarīt pieejamus vai nu ārējiem, vai iekšējiem klientiem. Un dažās organizācijās mēs redzam tādas iniciatīvas kā gandrīz datu tirgus viņu klientiem.
Un viens no pirmajiem soļiem, kas to panāk, ir uzņēmuma datu centra izveidošana. Dažreiz cilvēki to dēvē par datu ezeru. Izveidot šo uzņēmuma datu centru faktiski nav tik vienkārši, kā izklausās, jo tam tiešām ir jāpiekļūst un jāsavāc praktiski visi dati uzņēmumā. Šie dati tagad ir no visiem jaunajiem avotiem, piemēram, mobilajiem sensoriem, kā arī no mantotajām datu bāzēm, un tie ir sērijveida un straumēšanas režīmā. Datu integrācija vienmēr ir bijusi izaicinājums, tomēr, ņemot vērā datu avotu skaitu un dažādību, kā arī atšķirīgos piegādes stilus, neatkarīgi no tā, vai tas ir pakete vai straumēšana reāllaikā, tagad tas ir vēl sarežģītāks, salīdzinot ar pieciem gadiem, pirms desmit gadiem. Mēs dažreiz to dēvējam: “Tas vairs nav jūsu tēva ETL”.
Tāpēc mēs runājam par dažādiem datu aktīviem. Tā kā uzņēmumi mēģina izprast jaunos datus, datus, ko viņi vāc no mobilajām ierīcēm, neatkarīgi no tā, vai sensori ir automašīnu ražotājā vai tie ir mobilo datu uzņēmuma lietotāju dati, viņiem bieži ir jāatsaucas uz kritiskākajiem datu aktīviem uzņēmums, kas, piemēram, ir informācija par klientiem. Šie viskritiskākie datu aktīvi bieži tiek izmantoti lieldatoros. Korekcionējot lieldatoru datus ar šiem jaunajiem topošajiem avotiem, kas savākti mākonī, savākti caur mobilo, apkopoti Japānas automašīnu uzņēmuma ražošanas līnijā vai lietu internetā, šiem jaunajiem datiem ir jābūt jēgpilniem, atsaucoties uz viņu mantotajām datu kopām. Un šīs mantotās datu kopas bieži atrodas lieldatorā.
Un, ja šie uzņēmumi to nespēj, nespēj izmantot lieldatoru datus, tad tiek palaista garām iespēja. Tad dati kā pakalpojums vai visa uzņēmuma datu piesaistīšana faktiski neveicina kritiskākos aktīvus organizācijā. Šeit ir arī telemetrijas un drošības datu daļa, jo gandrīz visi darījumu dati atrodas lieldatorā.
Iedomājieties, ka jūs dodaties uz bankomātu. Es domāju, ka kāds no klātesošajiem dalībniekiem šeit nosūtīja ziņojumu banku sistēmas aizsardzībai, kad jūs pārvelkat karti, ka darījumu dati globālā mērogā parasti ir lieldatorā. Drošības un telemetrijas datu nodrošināšana un apkopošana no lieldatoriem un to pieejamības nodrošināšana, izmantojot vai nu Splunk informācijas paneļus, vai citus, Spark, SQL, tagad kļūst kritiskāka nekā jebkad, ņemot vērā datu apjomu un datu dažādību.
Prasmju kopums ir viens no lielākajiem izaicinājumiem. Tā kā, no vienas puses, jums ir strauji mainīga lielo datu kaudze, jūs nezināt, kurš projekts izdzīvos, kurš projekts neizdzīvos, vai man vajadzētu nolīgt stropu vai cūku izstrādātājus? Vai man vajadzētu ieguldīt MapReduce vai Spark? Vai arī nākamā lieta, Flink, kāds teica. Vai man būtu jāiegulda vienā no šīm datoru platformām? No vienas puses, sekošana strauji mainīgajai ekosistēmai ir izaicinājums, un, no otras puses, jums ir šie mantotie datu avoti. Jaunās prasmju kopas īsti neatbilst, un jums, iespējams, radīsies problēma, jo šie resursi faktiski aiziet no pensijas. Pastāv liela atšķirība prasmju kopumā cilvēkiem, kuri saprot šīs mantotās datu kopas un saprot jauno tehnoloģiju kopumu.
Otrais izaicinājums ir pārvaldība. Kad jūs patiešām piekļūstat visiem uzņēmuma datiem visās platformās, mums ir klienti, kuri pauda bažas, ka: “Es nevēlos, lai mani dati nonāk zemē. Es nevēlos, lai mani dati tiktu kopēti vairākās vietās, jo es gribu, cik vien iespējams, izvairīties no vairākām kopijām. Es vēlos, lai būtu pilnīga piekļuve, nenolaižot to pa vidu. ”Pārvaldīt šos datus kļūst par izaicinājumu. Otra lieta ir tāda, ka, ja jūs piekļūstat datiem, kuriem ir vājās vietas, ja lielākoties savācat savus datus mākonī un piekļūstat mantotajiem datiem un uz tiem atsaucas, tīkla joslas platums kļūst par problēmu, kas ir klasteru platforma. Ir daudz izaicinājumu, ņemot vērā šo lielo datu iniciatīvu un uzlabotās analītikas platformas, tomēr izmantojot visus uzņēmuma datus.
Tas, ko piedāvā Syncsort, tiek dēvēti par “vienkārši labākajiem” nevis tāpēc, ka mēs vienkārši esam labākie, bet klienti patiešām atsaucas uz mums kā vienkārši labākajiem, lai piekļūtu lieldatoru datiem un tos integrētu. Mēs atbalstām visus lieldatoru datu formātus un padarām tos pieejamus lielo datu analītikai. Neatkarīgi no tā, vai tas atrodas Hadoop vai Spark, vai nākamajā datora platformā. Tā kā mūsu produkti patiešām izolē datoru platformas sarežģītību. Jūs kā izstrādātājs potenciāli attīstat klēpjdatoru, koncentrējoties uz datu plūsmu un to, kas ir datu sagatavošana, darbības, lai šie dati tiktu izveidoti analītikai, nākamajai fāzei un ņemtu to pašu lietojumprogrammu MapReduce vai ņemtu to tāds pats pieteikums Spark.
Mēs palīdzējām saviem klientiem to darīt, kad YARN kļuva pieejams, un viņiem bija jāpārvieto savas programmas no MapReduce 1. versijas uz YARN. Mēs viņiem palīdzam rīkoties tāpat kā ar Apache Spark. Mūsu produkts, jaunais izlaidums 9, darbojas arī ar Spark, un tas tiek piegādāts ar dinamisku optimizāciju, kas izolēs šīs lietojumprogrammas nākotnes datoru ietvariem.
Tātad mums ir piekļuve lieldatu datiem, neatkarīgi no tā, vai tie ir VSAM faili, neatkarīgi no tā, vai tas ir DB2, vai arī tie ir telemetrijas dati, piemēram, SMF ieraksti vai Log4j vai syslogs, kas jāattēlo caur Splunk paneļiem. To darot, jo organizācija var izmantot esošos datu inženierus vai ETL prasmju kopas, izstrādes laiks tiek ievērojami samazināts. Faktiski, izmantojot Dell un Cloudera, tika sponsorēts neatkarīgs etalons, un šis etalons koncentrējās uz izstrādes laiku, kas nepieciešams, ja jūs darāt roku kodēšanu vai izmantojat citus rīkus, piemēram, Syncsort, un tas bija attīstības laika samazinājums par aptuveni 60, 70 procentiem. . Prasmju pārvarēšana atšķirību starp grupām, starp šiem datu failu saimniekiem un arī šiem datu failu resursiem, runājot par cilvēkiem.
Parasti lielo datu komanda vai datu patērētāja komanda, vai komanda, kurai ir uzdots šos datus attīstīt kā pakalpojumu arhitektūru, ne vienmēr runā ar lieldatoru komandu. Viņi vēlas samazināt šo mijiedarbību gandrīz daudzās organizācijās. Noslēdzot šo plaisu, mēs esam progresējuši. Un vissvarīgākā daļa ir visa procesa nodrošināšana. Tā kā uzņēmumā, kas nodarbojas ar šāda veida sensitīviem datiem, ir daudz prasību.
Stingri reglamentētās nozarēs, piemēram, apdrošināšanā un banku nozarē, mūsu klienti jautā: “Jūs piedāvājat piekļuvi lieldatoru datiem, un tas ir lieliski. Vai jūs varat arī piedāvāt man padarīt šo EBCDIC kodēto ierakstu formātu saglabātu sākotnējā formātā, lai es varētu izpildīt savas revīzijas prasības? ”Tāpēc mēs liktu Hadoop un Apache Spark saprast lieldatoru datus. Varat saglabāt datus sākotnējā ierakstu formātā, veikt apstrādes un līmeņu izplatītāja datoru platformu, un, ja jums tas ir jāievieto, varat parādīt, ka ieraksts nav mainīts un ieraksta formāts nav mainīts, varat ievērot normatīvās prasības .
Lielākā daļa organizāciju, veidojot datu centru vai datu ezeru, arī mēģina to izdarīt ar vienu klikšķi, lai varētu kartēt metadatus no simtiem shēmu Oracle datu bāzē uz stropu tabulām vai ORC vai Parketa failiem. kļūst nepieciešams. Mēs piegādājam instrumentus un piedāvājam rīkus, kas padara to par vienpakāpju piekļuvi datiem, automātiski ģenerējošus darbus vai datu pārvietošanu un automātiski ģenerējošus darbus, lai datus kartētu.
Mēs runājām par savienojamības daļu, atbilstību, pārvaldību un datu apstrādi. Un mūsu produkti ir pieejami gan telpās, gan mākonī, kas to patiešām padara ļoti vienkāršu, jo uzņēmumiem nav jādomā par to, kas notiks nākamajos vai divos gados, ja es nolemšu pilnībā pāriet publiskajā mākonī pret hibrīdu vidē, jo daži no klasteriem varētu darboties telpās vai mākonī. Un mūsu produkti ir pieejami gan vietnē Amazon Marketplace, gan vietnē EC2, Elastic MapReduce, gan arī pie Docker konteinera.
Tikai veida apkopošanai, tāpēc mums ir pietiekami daudz laika jautājumu un atbilžu saņemšanai, un tas tiešām ir piekļuvi datu pārvaldībai, integrēšanu un ievērošanu, tomēr visu šo padarot vienkāršāku. Un, padarot šo vienkāršāko, “noformējiet vienreiz un izmantojiet jebkur” patiesā nozīmē, pateicoties mūsu atklātā pirmkoda ieguldījumiem, mūsu produkts darbojas sākotnēji Hadoop datu plūsmā un vietēji ar Spark, izolējot organizācijas no strauji mainīgās ekosistēmas. Un nodrošinot vienu datu cauruļvadu, vienu saskarni gan paketei, gan straumēšanai.
Tas arī palīdz organizācijām dažreiz novērtēt šos ietvarus, jo jūs, iespējams, vēlēsities reāli izveidot lietojumprogrammas un vienkārši darboties vietnē MapReduce pret Spark un redzēt pats, jā, Spark ir šo solījumu un nodrošina visu avansu, izmantojot iteratīvos algoritmus, lai darbotos vislabāk mašīnā. un paredzamās analītiskās lietojumprogrammas darbojas ar Spark. Vai šajā datora ietvarā var arī veikt straumēšanas un sērijas darba slodzes? Izmantojot mūsu produktus, varat pārbaudīt dažādas datoru platformas. Un dinamiska optimizācija neatkarīgi no tā, vai jūs darbināt atsevišķu serveri, klēpjdatoru, Google Cloud versijā pret Apache Spark, patiešām ir liels piedāvājums mūsu klientiem. Un to patiesi vadīja viņu izaicinājumi.
Es apskatīšu tikai vienu no gadījuma pētījumiem. Šī ir dzīvības apdrošināšanas kompānija Guardian. Un Guardian iniciatīva patiešām bija centralizēt viņu datu resursus un padarīt tos pieejamus saviem klientiem, samazināt datu sagatavošanas laiku, un viņi teica, ka visi runā par datu sagatavošanu, kas aizņem 80 procentus no kopējā datu apstrādes procesa, un viņi teica, ka tas faktiski notiek 75–80 procenti viņiem, un viņi vēlējās samazināt šo datu sagatavošanas, pārveidošanas laiku, laiku līdz analīzes projektu ienākšanai tirgū. Izveidojiet šo veiklību, jo tie pievieno jaunus datu avotus. Un padariet šo centralizēto piekļuvi datiem pieejamus visiem viņu klientiem.
Viņu risinājums, ieskaitot Syncsort produktus, ir šobrīd, un viņiem ir Amazon Marketplace līdzīgu datu tirgus, kuru atbalsta datu ezers, kas pamatā ir Hadoop, un NoSQL datu bāze. Un viņi izmanto mūsu produktus, lai visus datu aktīvus nogādātu datu ezerā, ieskaitot DB2 lieldatorā, ieskaitot VSAM failus lieldatorā, kā arī datu bāzes mantotos datu avotus, kā arī jaunos datu avotus. Tā rezultātā viņi ir centralizējuši atkārtoti izmantojamos datu aktīvus, kas ir meklējami, pieejami un pieejami klientiem. Un viņi patiešām spēj pievienot jaunos datu avotus un apkalpot klientus daudz ātrāk un efektīvāk nekā iepriekš. Un analītiskās iniciatīvas pat vairāk progresē arī prognozējošajā pusē. Tāpēc es pārtraukšu un ceru, ka tas bija noderīgi, un, ja jums ir kādi jautājumi par kādu no saistītajām tēmām, lūdzu, esiet laipni gaidīti.
Ēriks Kavanaghs: Protams, un Tendü, es to vienkārši iemetīšu. Es saņēmu no auditorijas locekļa komentāru, kurā teikts: “Man patīk šis“ dizains vienreiz, izvietot visur. ”” Vai jūs varat iedziļināties, kā tā ir taisnība? Es domāju, ko jūs esat darījis, lai nodrošinātu šāda veida veiklību, un vai ir jāmaksā nodoklis? Piemēram, ja mēs runājam par virtualizāciju, vienmēr ir jāmaksā neliels nodoklis par sniegumu. Daži cilvēki saka, ka divi procenti, pieci procenti 10 procenti. Ko jūs esat darījis, lai vienreiz varētu iespējot dizainu, to var izmantot jebkur - kā jūs to darāt un vai ar to saistītie nodokļi ir saistīti ar veiktspēju?
Tendü Yogurtçu: Protams, paldies. Nē, jo atšķirībā no dažiem citiem pārdevējiem mēs īsti neģenerējam stropu vai cūku vai kādu citu kodu, kura izcelsme nav mūsu motoros. Šajā vietā milzīga loma bija mūsu atklātā pirmkoda ieguldījumiem, jo mēs esam ļoti cieši sadarbojušies ar Hadoop pārdevējiem, Cloudera, Hortonworks un MapR, un pateicoties mūsu atvērtā pirmkoda ieguldījumiem, mūsu dzinējs faktiski darbojas dabiski kā daļa no plūsmas, kā daļu no Hadoop plūsmas, kā daļu no dzirksteles.
Ko tas arī nozīmē, mums ir šī dinamiskā optimizācija. Tas bija kaut kas tāds, kā rezultātā mūsu klienti tika izaicināti ar datoru ietvariem. Kad viņi sāka ražošanu ar dažiem no pieteikumiem, viņi atgriezās un sacīja: “Es tikai stabilizēju savu Hadoop kopu, stabilizējos MapReduce YARN 2. versijā, MapReduce 2. versijā, un cilvēki runā, ka MapReduce ir miris, Spark ir nākamā lieta, un daži cilvēki saka, ka nākamā būs Flink, kā es ar to tikšu galā? ”
Un šie izaicinājumi mums patiešām kļuva tik acīmredzami, mēs ieguldījām šo dinamisko optimizāciju, ko mēs dēvējam par saprātīgu izpildi. Izpildes laikā, kad tiek iesniegts darbs, kad tiek iesniegts šis datu cauruļvads, pamatojoties uz kopu, neatkarīgi no tā, vai tas ir Spark, vai tas ir MapReduce, vai arī Linux savrupais serveris, mēs izlemjam, kā šo darbu veikt, izmantojot mūsu motoru, kā daļu no tā. Hadoop vai Spark datu plūsma. Nav nekādu pieskaitāmu, jo viss tiek darīts, izmantojot šo dinamisko optimizāciju, kas mums ir, un viss tiek darīts arī tāpēc, ka mūsu motors ir tik dabiski integrēts mūsu atvērtā koda ieguldījumu dēļ. Vai tas atbild uz jūsu jautājumu?
Ēriks Kavanagh: Jā, tas ir labi. Un es vēlos uzmest tur vēl vienu jautājumu, un tad Dez, varbūt mēs ievilksim arī jūs un Robinu. Es tikko saņēmu jautru komentāru no viena mūsu klātesošā. Es to izlasīšu, jo tas tiešām ir diezgan sīva. Viņš raksta: “Liekas, ka lietu vēsturē ir karsts” - dabū to? Tāpat kā IoT - “ir tas, ka, jo vairāk jūs mēģināt“ vienkāršot ”kaut ko, kas patiešām ir sarežģīts, biežāk nekā nav, jo vienkāršāk šķiet darāmās lietas, jo tiek piegādāta vairāk piekārto virvju. Padomājiet par datubāzes vaicājumu, eksploziju, vairāku pavedienu veidošanu utt. ”Vai jūs varētu komentēt šo paradoksu, uz kuru viņš atsaucas? Vienkāršība un sarežģītība, un kas patiesībā notiek zem vākiem?
Tendü Yogurtçu: Protams. Es domāju, ka tas ir ļoti pamatots punkts. Kad jūs vienkāršojat lietas un veicat šīs optimizācijas, kaut kādā veidā zem vākiem, kādam ir jāpieņem šī sarežģītība, kas jānotiek, vai ne? Ja jūs kaut ko paralizējat vai ja jūs izlemjat, kā izpildīt noteiktu darbu attiecībā uz datora ietvaru, acīmredzot tur ir kāda darba daļa, kas tiek virzīta, neatkarīgi no tā, vai tā ir lietotāja galā, izvēlnes kodēšana vai arī motora optimizācija. Daļa no tā, vienkāršojot lietotāja pieredzi, ir milzīgs ieguvums, jo tā var izmantot uzņēmumā esošo prasmju kopumu.
Un jūs varat kaut kā mazināt šo paradoksu, mazināt šo izaicinājumu: “Jā, bet man nav iespējas kontrolēt visu, kas notiek zem pārsega, zem motora pārsega, ” pakļaujot lietas pieredzējušākiem lietotājiem, ja viņi vēlaties, lai būtu šāda veida kontrole. Ieguldot arī dažos lietu izmantojamības veidos. Spēja piedāvāt operatīvākus metadatus, operatīvākus datus, kā tas bija piemērā, kuru sniedza šis dalībnieks, SQL vaicājumam, kā arī darbojoties motoram. Es ceru, ka atbildes.
Ēriks Kavanagh: Jā, tas izklausās labi. Dez, atņem to.
Dezs Blanšfīlds: Es patiesi vēlos iegūt mazliet plašāku ieskatu jūsu pēdas noslēpumā atklātā pirmkoda ieguldījumos un ceļojumā, ko esat izvēlējies no savas tradicionālās, ilgstošās pieredzes lieldatorā un patentētajā pasaulē, un pēc tam pārejot uz ieguldījums atklātā avotā un kā tas notika. Otra lieta, ko es labprāt saprotu, ir uzskats, kuru redzat, ka uzņēmumi, ne tikai IT departamenti, bet tagad arī uzņēmumi domā par datu centriem vai datu ezeriem, kā cilvēki tagad saka, vai viņi redz šo tendenci tikai viens, konsolidēts datu ezers, vai tas, vai mēs redzam sadalītus datu ezerus, un cilvēki izmanto rīkus, lai tos saliktu?
Tendü Yogurtçu: Protams. Pirmais - tas bija ļoti interesants ceļojums kā programmatūras īpašnieka īpašniekam, kas bija viens no pirmajiem pēc IBM. Tomēr atkal viss sākās ar to, ka mūsu evaņģēlistu klienti skatījās uz Hadoop. Mums bija datu kompānijas, piemēram, ComScore, viņi bija vieni no pirmajiem, kas pieņēma Hadoop, jo viņi visā pasaulē vāca digitālos datus un nespēja saglabāt 90 dienu datus, ja vien viņi neieguldīja desmit miljonu dolāru datu noliktavas kasti savā vide. Viņi sāka skatīties uz Hadoopu. Ar to mēs sākām skatīties arī uz Hadoop.
Un, kad mēs pieņēmām lēmumu un atzinām, ka Hadoop patiešām būs nākotnes datu platforma, mēs arī nonācām pie sapratnes, ka mums šajā spēlē nebūs veiksmīga spēle, kas būs veiksmīga spēle, ja vien mēs bija ekosistēmas sastāvdaļa. Mēs ļoti cieši sadarbojāmies ar Hadoop pārdevējiem, ar Cloudera, Hortonworks, MapR uc. Mēs sākām ar viņiem patiesi sarunāties, jo partnerattiecībām ir ļoti liela nozīme, lai pārbaudītu vērtību, ko pārdevējs var dot, kā arī pārliecināmies, ka mēs kopīgi varam doties uz uzņēmumu un piedāvāt kaut ko jēdzīgāku. Tas prasīja daudz attiecību veidošanas, jo mēs nebijām pazīstami ar Apache atvērtā koda projektiem, tomēr jāsaka, ka mums bija liels atbalsts no šiem Hadoop pārdevējiem.
Mēs sākām strādāt kopā un apskatījām centru, kā mēs varam radīt vērtību, pat ja telpā nav mūsu īpašnieka programmatūras. Tas bija svarīgi. Tas nav tikai par tādu API ievietošanu, kuras var darbināt jūsu produkts, bet tas ir, lai varētu pateikt, ka es tajā ieguldīšu, jo es uzskatu, ka Hadoop būs nākotnes platforma, tāpēc ieguldot avotos, kurus mēs vēlējāmies izveidot pārliecinieties, ka tas nogatavojas un kļūst gatavs uzņēmumam. Mēs faktiski varam iespējot dažus lietošanas gadījumus, kas nebija pieejami pirms mūsu komentāriem. Tas nāks par labu visai ekosistēmai, un mēs šīs partnerattiecības varam attīstīt ļoti cieši.
Tas prasīja diezgan daudz laika. Mēs sākām sniegt ieguldījumu 2011. gadā, un 2013. gadā, 21. janvārī - es atceros datumu, jo tajā datumā tika izdarīts mūsu lielākais ieguldījums, kas nozīmēja, ka tagad mūsu produkti tagad ir vispārēji pieejami - šo attiecību izveidošanai bija vajadzīgs diezgan ilgs laiks., parādiet vērtību, partneri kļūst par dizaina partneriem ar pārdevējiem un iesaistītājiem atvērtā pirmkoda kopienā. Bet tas bija ļoti jautri. Mums kā uzņēmumam bija ļoti izdevīgi būt daļai no šīs ekosistēmas un attīstīt lielisku partnerību.
Otrais jautājums par datu centru / datu ezeru, es domāju, ka, kad mēs šos datus redzam kā pakalpojumu ieviešanu vairumā gadījumu, jā, tas varētu būt kopas, fiziski atsevišķi vai vairāki klasteri, bet tas ir vairāk konceptuāls nekā kļūšana par šo vienu vietu visiem datiem. Tā kā dažās organizācijās mēs galvenokārt redzam lielu klasteru izvietošanu, tomēr tām ir arī klasteri, piemēram, publiskajā mākonī, jo daži no tiešsaistes sadaļām apkopotie dati patiešām tiek turēti mākonī. Tas, ka var būt viens datu cauruļvads, kuru faktiski var izmantot abus, un tos izmantot kā vienu datu centru, atsevišķu datu ezeru, kļūst svarīgi. Ne vienmēr tā ir fiziskā vieta, bet, manuprāt, šī datu centrmezgla un datu ezera sadalīšana klasteros, ģeogrāfiskajās vietās un varbūt telpās un mākonī būs ļoti kritiska. Īpaši virzoties uz priekšu. Šogad mēs sākām redzēt arvien vairāk mākoņu izvietojumu. Tas ir lieliski. Šī gada pirmā puse līdz šim mēs esam redzējuši daudz mākoņu izvietošanu.
Ēriks Kavanaghs: Labi, forši. Un Robin, vai jums ir kādi jautājumi? Es zinu, ka mums ir atlikušas tikai dažas minūtes.
Robina Bloore: Labi, es varu viņai uzdot jautājumu. Pirmais, kas man radās, ir tas, ka par Kafku ir bijis daudz uztraukuma, un mani interesēja jūsu viedoklis par Kafku un to, kā jūs integrējaties tajā, kā cilvēki izmanto Kafku?
Tendü Yogurtçu: Protams. Jā, Kafka kļūst diezgan populāra. Starp mūsu klientiem mēs redzam, ka tas ir tāds datu pārraides slānis, un mēs uzskatām, ka dati ir kopne. Piemēram, viens no mūsu klientiem faktiski izmantoja patērējošus datus, kas šajā Kafkā tiek iepludināti starp vairākiem, piemēram, tūkstošiem tiešsaistes lietotāju, un spēja tos klasificēt un iziet cauri.
Kafka atkal ir datu kopne dažādiem šo datu patērētājiem. Klasificējiet dažus pieredzējušus lietotājus salīdzinājumā ar ne tik pieredzējušiem lietotājiem un rīkojieties citādi, virzoties uz priekšu šajā datu plūsmā. Tas, kā mēs integrējamies ar Kafka, būtībā nozīmē, ka mūsu produkts DMX-h kļūst par uzticamu patērētāju, ļoti efektīvu un uzticamu Kafka patērētāju. Tas var nolasīt datus, un tas neatšķiras no datu nolasīšanas no jebkura cita datu avota. Mēs dodam lietotājiem iespēju kontrolēt logu vai nu ņemot vērā laika nepieciešamību, kas viņiem ir, vai ziņojumu skaitu, ko viņi varētu patērēt no Kafka autobusa. Un tad mēs varam arī bagātināt šos datus, jo tas iziet cauri mūsu produktam un nonāk atpakaļ Kafkā. Mēs to esam pārbaudījuši. Mēs to salīdzinājām ar klientu. Arī sertificēts ar Confluent. Mēs cieši sadarbojamies ar Confluent puišiem, un tas ir ļoti efektīvs un ērti lietojams. Atkal mainās API, bet jums nav jāuztraucas, jo produkts to patiesībā uzskata par tikai citu datu avotu, straumējošu datu avotu. Ir diezgan jautri strādāt ar mūsu produktu un Kafka.
Robins Bloors: Labi, ka man ir vēl viens jautājums, kas ir tikai vispārīgs biznesa jautājums, bet es jau sen esmu pazīstams ar Syncsort, un jums vienmēr bija reputācija un piegādājāt īpaši ātru programmatūru ETL un lieldatoru pasaulei. Vai ir tā, ka jūsu biznesa lielākā daļa tagad tiek nodota Hadoop? Vai ir tā, ka tādā vai citā veidā jūs esat diezgan dramatiski izplatījis savu biznesu no lieldatoru pasaules?
Tendü Yogurtçu: Mūsu lieldatoru produkti joprojām darbojas 50 procentus no lieldatoriem visā pasaulē. Tātad mums ir ļoti spēcīga lieldatoru produktu līnija papildus tam, ko mēs darām ar lielajiem datiem un Hadoop beigām. Mēs joprojām esam iesaistījušies lielākajā daļā IT vienkāršošanas vai optimizācijas projektu, jo ir viens gals, ar kuru jūs vēlaties, lai varētu izmantot lieldatoru datus lieldatu Multex platformās un izmantot visus uzņēmuma datus, tomēr ir arī ļoti kritiska darījumu slodze. kas joprojām turpina darboties lieldatorā, un mēs šiem klientiem piedāvājam veidus, kā padarīt šīs lietojumprogrammas efektīvākas, darboties zIIP motorā, lai viņi neizmanto tik daudz apstrādes ciklu un MIPS, padarot tos rentablus.
Mēs turpinām ieguldīt lieldatoru produktos un faktiski spēlējam šajā telpā, kur cilvēki pāriet no lieldatoru lielās dzelzs līdz lielajiem datiem un aptver produktu līniju arī visās šajās platformās. Tātad mums nav obligāti jānovirza viss bizness uz vienu pusi, mums joprojām ir ļoti veiksmīgs bizness abās pusēs. Liela uzmanība tiek pievērsta arī iegādei mums. Attīstoties šai lielo datu platformu datu pārvaldības un datu apstrādes telpai, mēs esam arī apņēmušies veikt diezgan daudz bezmaksas iegādi.
Robins Bloors: Es domāju, ka es nevaru jums jautāt, kādi viņi ir, jo jums nebūtu atļauts man to pateikt. Mani interesē, vai esat redzējis daudzas Hadoop vai Spark ieviešanas lieldatorā vai arī tā ir ļoti reta lieta.
Tendü Yogurtçu: Mēs tādu neesam redzējuši. Par to ir vairāk jautājumu. Es domāju, ka Hadoop lieldatoriem nebija lielas jēgas sava veida kodola struktūras dēļ. Tomēr Spark lieldatoriem ir diezgan jēgpilns, un Spark tiešām ir ļoti labs ar mašīnmācīšanos un jutīgo analītiku, un, manuprāt, ir diezgan jēgpilna, ka dažām no šīm lietojumprogrammām ar lieldatoru datiem ir būt. Mēs vēl neesam redzējuši, ka kāds to darītu, tomēr tas patiešām ir lietošanas gadījums, kas virza šīs lietas. Ja jūsu, kā uzņēmuma, gadījums ir vairāk atnest lieldatoru datus un integrēties ar pārējām datu kopām lielo datu platformā, tas ir viens stāsts. Tas prasa piekļuvi lieldatoru datiem no lieldatu Multex platformas, jo jūs, visticamāk, neatvedīsit savas datu kopas no atvērtām sistēmām un aicināsit atpakaļ uz lieldatoru. Tomēr, ja jums ir daži lieldatoru dati, kurus vēlaties tikai izpētīt un nedaudz atklāt datu izpēti, izmantot dažus uzlabotus AI un uzlabotus analītiskos datus, tad Spark varētu būt labs veids, kā pāriet un darboties lieldatorā.
Ēriks Kavanaghs: Un šeit ir vēl viens skatītāju jautājums, faktiski vēl divi. Es jums uzdotu jautājumu par tagu komandu, pēc tam mēs to apkoposim. Viens klātesošais jautā: “Vai IBM integrē jūsu atvērtā pirmkoda ieguldījumus tās publiskajā mākoņu ekosistēmā, citiem vārdiem sakot, Bluemix?”, Un otrs klātesošais izteica patiešām labu punktu, atzīmējot, ka Syncsort ir lielisks, lai uzturētu lielu dzelzi tiem, kas tas jau ir, bet, ja uzņēmumi atsakās no jauniem lieldatoriem par labu tam, ko viņš sauc par CE, mākoņaini visu, tas, iespējams, samazināsies, taču atzīmē, ka jūs, puiši, patiešām labi pārceļat datus, apejot operētājsistēmas līdz gigabaitu sekundē. Vai jūs varat sarunāties par savu galveno spēku, kā viņš minēja, un par to, vai IBM integrē jūsu lietas Bluemix?
Tendü Yogurtçu: Ar IBM mēs jau esam partneri ar IBM, un mums bija diskusijas par viņu datu mākoņa pakalpojumiem, kas piedāvā produktu. Mūsu atvērtā pirmkoda atsauksmes ir atvērtas visiem, kas vēlas tos izmantot. Daži no lieldatoru savienojumiem ir pieejami arī Spark pakotnēs, tāpēc ne tikai IBM. Ikviens var tos izmantot. Filmā Bluemix mēs pagaidām neko konkrētu neesam izdarījuši. Un vai jūs domājat atkārtot otro jautājumu?
Ēriks Kavanaghs: Jā, otrs jautājums bija par jūsu galveno funkcionalitātes zonu gadu gaitā, kas patiešām risināja ETL vājās vietas, un acīmredzot tas ir kaut kas, ko jūs, puiši, joprojām darīsit kā lieldatorus, labi, teorētiski palieciet prom, kaut arī Dez's point joprojām ir sava veida šūpošana un ripināšana tur. Bet klātesošais tikai atzīmēja, ka Syncsort ļoti labi pārvieto datus, apejot operētājsistēmas un nepārsniedzot gigabaitu sekundē. Vai jūs to varat komentēt?
Tendü Yogurtçu: Jā, tiešām vispārējā resursu efektivitāte ir bijusi mūsu stiprā puse, un mērogojamība un veiktspēja ir bijusi mūsu stiprā puse . Mēs nekompromitējam, vienkāršotam ir daudz nozīmju, mēs nedrīkstam kompromisu no tiem. Kad, piemēram, 2014. gadā cilvēki sāka runāt par Hadoop, daudzas organizācijas sākotnēji īsti neskatījās uz sniegumu. Viņi teica: "Ak, ja kaut kas notiks, es varu pievienot vēl pāris mezglu, un es būšu labs, veiktspēja nav mana prasība."
Kamēr mēs runājām par vislabāko sniegumu, jo mēs jau darbojāmies vietēji, mums pat nebija dažas sākotnējās žagas, kuras Hive piedzīvoja ar vairākiem MapReduce darbiem un pieskaitāmām izmaksām, sākot ar tām. Cilvēki mums teica: "Ak, tas nav mans satraukums, neuztraucieties par to šobrīd."
Kad ieradāmies 2015. gadā, ainava ir mainījusies, jo daži no mūsu klientiem jau ir pārsnieguši krājumus, kas viņiem bija ražošanas kopās. Viņiem kļuva ļoti kritiski redzēt, ko Syncsort var piedāvāt. Ja jūs paņemat dažus datus no datu bāzes vai lieldatoru un klasteros ierakstāt Parketa formātā, neatkarīgi no tā, vai nolaižaties un skatāties un veicat citu pārveidi, vai vienkārši veicat lidojuma pārveidi un nolaižamā mērķa faila formātu, tas mainījās, jo jūs ietaupāt no krātuve, jūs ietaupāt no tīkla joslas platuma, jūs ietaupāt no klastera darba slodzes, jo jūs nedarbojat papildu darbus. Tās stiprās puses, kuras mēs spēlējam ļoti apzinoties, šķiet, ka zem ādas jūtam resursu efektivitāti, šķiet.
Tā mēs to raksturojam. Mums tas ir kritiski svarīgi. Mēs to neuzskatām par pašsaprotamu. Mēs nekad to neuzskatījām par pašsaprotamu, tāpēc mēs arī turpmāk būsim spēcīgi ar šo sviras efektu Apache Spark vai nākamajā datora ietvarā. Tas arī turpmāk būs mūsu uzmanības centrā. Un, runājot par datu pārvietošanu un piekļuvi datiem, tas noteikti ir viens no mūsu stipriem elementiem, un Hadoop vai Spark kontekstā mēs piekļūstam DB2 vai VSAM datiem par lieldatoriem.
Ēriks Kavanaghs: Nu, tas ir lielisks veids, kā pārtraukt tīmekļa pārraidi, ļaudis. Liels paldies par jūsu veltīto laiku un uzmanību. Paldies jums, Tendü un Syncsort, ka ienācāt instruktāžas telpā un, kā saka, iekāpt sarunu kārtā. Daudz lielu auditorijas jautājumu. Cilvēki, tā ir vienmēr mainīga vide. Mēs arhivēsim šo karsto tehnoloģiju tāpat kā visi pārējie. Jūs varat mūs atrast vietnēs insideanalysis.com un techopedia.com. Parasti tas palielinās apmēram dienā. Un līdz ar to mēs jums atvadīsimies, ļaudis. Liels tev paldies. Mēs drīz ar jums sarunāsimies. Rūpēties. Labdien!
