Mājas Audio Kāpēc hadoop ir lieliski piemērots genoma sekvenēšanai

Kāpēc hadoop ir lieliski piemērots genoma sekvenēšanai

Satura rādītājs:

Anonim

Klīniskā genomika ir aizraujoša tēma, kurā cilvēki strādā pie modernākajām tehnoloģijām, lai apstrādātu ātrus un precīzus rezultātus. Tirgū ir pieejams ļoti daudz genoma sekvenču, un tie ražo secības datu petabaitus, un sekvencēšanas pieaugums tuvākajā nākotnē radīs datu eksabītus. Šeit Hadoop ir ideāla platforma sarežģītas genomikas darba plūsmas apstrādei. Hadoop var glabāt un kārtot milzīgus informācijas apjomus, kā arī var sniegt jēgpilnu analīzi. (Lai iegūtu priekšstatu par to, cik daudz datu tas patiesībā prasa, izlasiet Izpratne par bitiem, baitiem un to reizinātājiem.)

Genomikas tagadne un nākotne

Mūsdienās genoma kartēšana ir sasniegusi attīstības virsotni. Daudzi cilvēki, kas saistīti ar genomikas nozari, pārrauj zinātkāri, un, tā kā parādās jaunas iespējas, stundu nepieciešama labākas tehnoloģijas. Genoma secība ir ļoti atkārtots un resursietilpīgs uzdevums. Tikai 2013. gadā tika izveidoti apmēram 15 datu petabāti un tikai 2000 sekvenci. Šajā žokļa nomestā daudzumā bija iekļauti 300 KB secīgi dati par cilvēka genomu. Pēc šāda datu iegūšanas ātruma var aprēķināt, ka līdz 2018. gadam tiks izveidots aptuveni viens datu eksabāts. Tas būs saistīts ar sekvenču pieaugumu, kas vienā piegājienā radīs arvien vairāk datu. Vēl viens iemesls ir ārkārtīgi jaudīgu un lētu genomu sekvencēšanas mašīnu parādīšanās. Kopš 2008. gada šo mašīnu cena ir pastāvīgi samazinājusies. Tas notiek spēcīgu nākamās paaudzes mašīnu dēļ, kas ir parādījušās tirgū.

Genoma kartēšanas nozares vajadzības

Lai apstrādātu datus, kas savākti no cilvēka genoma, tiek izmantoti sarežģīti algoritmi. Pēc tam šī informācija ir jāsaglabā. Nākotnē to var pārskatīt, lai salīdzinātu ar sākotnējiem datiem. 100 GB datu apstrādes un saglabāšanas uzdevums nav pārāk grūts, it īpaši, ja to darāt ar jaudīgām mašīnām, kuras tiek izmantotas sekvences centros. Pētījumi rāda, ka šo datu daudzumu var apstrādāt tikai aptuveni 1000 CPU stundās, tāpēc tas ir ļoti viegli. Ar šo tehniskās attīstības tempu ir acīmredzams, ka genoma industrija drīz vien dažās sekundēs pārstrādās tūkstošiem gigabaitu.

Kāpēc hadoop ir lieliski piemērots genoma sekvenēšanai