A DNS a jövő adathordozója?

A felhő korában, amikor szinte minden levelünk, képünk, dokumentumunk távoli, misztikus szervereken lakik, természetesnek tűnne, hogy valóban, bizonyítottan ez a fajta adattárolás legyen az általunk ismert legmegbízhatóbb.

A valóságban azonban nem ez, mégpedig azon praktikus szempontból, hogy a felhő-alapú adattárolás egyszerűen nem létezik elég régen ahhoz, hogy ilyen jellegű kijelentést tehessünk. Ahogy a flash memória esetében is maximum évtizedes adatmegőrzési képességet tudunk igazolni, a mágnesszalagoknál több évtizedest, a bakelitlemezeknél pedig durván évszázadost. De akkor mi a komplex adatok tárolásának bizonyítottan legtartósabb módja? A papír (és rokonai) esetében is párezer éves a legrégebbi ismert (töredékes) példány, és ha még régebbre akarunk menni, akkor már a kőtáblák, vagy még jobban visszapörgetve az idő kerekét, barlangrajzok korába jutunk.

A spanyol El Castillo barlang kézlenyomatai és nonfiguratív ábrái közel 40 ezer évvel ezelőtt születtek, és ha elfogadjuk ezek információhordozó-jellegét, akkor ésszerűnek tűnhet ezeket a korabeli ábrákat, pontosabban az őket tartalmazó felületeket tekinteni a legősibb információhordozónak.

A valóság azonban az, hogy nagyságrendileg is régebbiek azok a komplex információk, amelyeket a mai technológiával megbízhatóan meg tudunk határozni, és ezekben az esetekben a bizonyítottan jól működő információhordozó közel sem egy sziklafal szürkeségű élettelen anyag, hanem maga a DNS: közel 430 ezer éves emberi csontokból is tudtunk már használható DNS-szekvenciát kiszedni, és az abszolút rekord jelenleg közel 700 ezer éves csontokból származó DNS szekvenálása. (Megjegyzendő, hogy ezeknél régebbi leletekről is szólnak néha cikkek, de azokat a szekvenciákat a kutatók többsége inkább modern szennyeződésnek tulajdonítja, mint valódi ősi DNS-nek.)

A DNS-ben levő információra a „tervrajz” és „program” analógiát szoktuk használni, amelyek egyike sem tökéletes körbeírása az örökítőanyagnak, de annyira mindenesetre pontosak, hogy jól láthassuk, valóban komplex információhordozó a dezoxiribonukleinsav.

A DNS egyik nagy előnye, hogy általában a biológiai mintákban „felszaporított” állapotban van, vagyis nem egyetlen kópiában, hanem akár több százban is, ami egyfajta természetes minőségbiztosítást ad, hiszen ha egy-egy molekulában ilyen-olyan okból meg is jelenne valamilyen mutáció, valószínűtlen, hogy az az összes többi kópiában ugyanott jelen legyen, vagyis elég sok DNS megszekvenálásakor (szakzsargonban „megfelelő mélységű” szekvenálás esetén) az ilyen hibák könnyen kiszúrhatók és a sok molekula szekvenciájának átlaga már a helyes információt hordozza majd.

Mindez nyilván rendkívül vonzó információhordozóvá teszi más, szintetikus adatok felhasználásának szempontjából is a DNS-t és ami miatt már (még ?) nincsenek a boltokban a DNS-alapú adathorodozók, az két technológiai megkötés: egyrészt ugyan sokat gyorsultak (és nagyon olcsóvá váltak) a szekvenálási technológiák az elmúlt években (tulajdonképpen a Moore-törvényt meghaladó dologról van szó), még mindig nem kompetitívek sebesség szempontjából a klasszikus random-access memóriákkal összevetve. Ennél is nagyobb gond azonban, hogy az új DNS-szálak szintetizálásának költsége egyáltalán nem követte eleddig a szekvenálási költségeket, vagyis nem vált irtózatosan olcsóvá a dolog. Éppen ezért jelenleg inkább csak hosszútávú információhordozóként jön számításba a DNS, igaz, ebből a szempontból egyre vonzóbb, különösen az új kódolási algoritmusok megjelenésével.

Az első próbálkozások a DNS-be kódolással nem sokkal a rekombináns DNS technológia megjelenése (vagyis a DNS-darabok viszonylag szabad kombinálásának kidolgozása) után feltűntek. A legelső ilyen jellegű próbálkozás azonban nem egy genetikushoz vagy informatikushoz kötődik, hanem egy művészhez: 1988-ban Joe Davis, részben a SETI-program keretében kiküldött arecibói üzenet hatására az életet szimbolizáló ősgermán rúnát kódolta át előbb 35 bites digitális üzenetté, majd egy 18 bázispár hosszúságú nukleotidszekvenciává. Ez természetesen akkor érdekes próbálkozásnak tűnt, de igazából művészi önkifejeződésen kívül még nem sok ember látott bele bármit is.

Az első, mindössze 35 bites, DNS-be kódolt szintetikus információ egy ősi germán rúna átkódolt ábrázolása volt. Forrás: Scientific American

A huszonegyedik század második évtizedének elején aztán felgyorsultak az események. Előbb az első „szintetikus élőlényt” előállító Craig Venter kódolt bele egy Mycobacterium genomba, amolyan easter-eggként pár külön jelentéssel bíró szekvenciát (kb. 8000 bit mennyiségben), majd 2012-ben, a szintetikus biológia másik fenegyerekének, George Churchnek a csoportja 5.27 megabitnyi információt (Church Regenesis: How Synthetic Biology Will Reinvent Nature and Ourselves című – 53,426 szó hosszúságú – könyvét, 11 JPG formátumú képet és egy JavaScript programot ) tárolt sikeresen DNS-szekvencia formájában. És innentől kezdve mindenki számára nyilvánvaló volt, hogy a DNS tényleg szintetikus információ-tárolóvá válhat. A DNS-es adattárolás mennyiségi rekordját a University of Washington és a Microsoft kutatói tartják, akik 200 megányi adatot tudtak sikeresen eltárolni DNS-ben, majd hiba nélkül visszaolvasni.

DNS-tárolásból a jelenlegi rekordot a University of Washington és a Microsoft kutatói tartják. Forrás: bioRxiv.org

Ez utóbbi teljesítmény a korábban már említett természetes hiba-biztosítás ellenére nem triviális. Hogy mennyire nem az, azt jól mutatja, hogy ma már klasszikusnak számító munkájukban Churchék 22 hibát is találtak a visszaolvasás után, ami már kellően megbízhatatlanná tenné a DNS-alapú információhordozást. Ennek leküzdésére mára már számos kódolási algoritmust bevetnek a digitális információ szekvenciasorozattá való átalakításakor, ezért úgy tűnik, ilyen jellegű akadálya nem lesz majd a DNS-alapú információhordozók elterjedésének.

Mivel a DNS szekvenciája négyféle bázispárból áll, ez lehetőséget ad arra, hogy a bináris, digitális információ átkódolásakor számos olyan trükköt alkalmazzunk, hogy az egymás után következő bázisok ne egyszerűen egyetlen bitről hordozzanak információt. Lehetőség van arra, hogy egymás utáni bázisok a korábbi nukleotidokról is hordozzanak valamilyen információt, illetve arra is vigyáznak ma már az ilyen szekvenciák tervezésekor, hogy kerüljék azokat a szekvenciákat, amelyek a természetben könnyebben mutációk megjelenéséhez vezetnének (pl. nukleotid-ismétlődéseket). Rengeteg, az IT világában rendszeresen használt kódolási stratégiát sikerült már DNS-re átülteni, kezdve a Huffman-kódolástól (lásd itt), a Luby Transform szökőkút-algoritmuson át (itt) egészen a Microsoft említett, legújabb cikkében bevetett Reed-Solomon-féle hibajavító kódokig.

screen-shot-2016-04-11-at-12_37_07-pm-100655391-orig.png

Ezeknek az újításoknak köszönhetően pedig nemcsak lényegesen megnőtt a biztonságosan tárolható (és relatív könnyen és olcsón visszanyerhető) adat mennyisége, de lényegesen tömörebbé is vált: jelenleg 214 Pbyte/gramm környékén járunk, ami sok nagyságrenddel hatékonyabb eljárást jelent, mint a klasszikus merevlemezeknél, vagy flash-alapú adathordozóknál.

Erre a tömörségre márpedig minden jel szerint a nem is annyira távoli jövőben szükségünk lehet. Jelenlegi növekedési trendek mellett a tárolandó digitális információ mennyisége 2020-ra eléri a 44 trillió gigabájtot (GB), 2040-re pedig már ott tartunk majd, hogy ha egyszerre akarnánk mindenféle információt flash-memorián tárolni, akkor azok előállításához közel százszor több nagytisztaságú sziliciumra lenne szükségünk, mint amit a jelenlegi chipkészítő kapacitás biztosítani tud.

Nem véletlen, hogy a Microsoft is egyre komolyabban foglalkozik a DNS-alapú adattárolással, és komoly tervei vannak, hogy a közeljövőben bizonyos hosszú-távú adattárolást már DNS-alapú felhőben végezzen.

Mindez persze sok szempontból a jéghegy csúcsa lehet és bizonyos DNS-alapú tárolási eljárások még épp csak születőben vannak. Erre enged legalábbis következtetni az aktuális Nature-ben megjelent cikk, ahol – ki más, mint – George Church csapata egy videó képeit szekvenciálisan kódolta be egy baktérium-populáció genomjába.

A korában leírtak fényében talán érthetetlen lehet, hogy miért olyan nagy szám 2017 nyarán, ha Eadweard Muybridge klasszikus mozgó lovas videójának öt képkockára lebutított változatát DNS-be kódolják, de itt nem az információ-mennyisége, hanem a bevitel mikéntje keltett méltán feltűnést.

A „bakteriális immunrendszerként” CRISPR/Cas9 rendszerről, mint az újgenerációs genomszerkesztés legfőbb eszközéről már írtam korábban. Csak míg a genomszerkesztési eljárásoknál a rendszernek azt a tulajdonságát használták ki, hogy a DNS-hasítás helyét programozni lehet, az új cikkben egy teljesen másik tulajdonságra került a hangsúly: hogy a rendszer valamennyire adaptív is. Ez egészen tömören azt jelenti, hogy ha egy bakteriális vírus, azaz egy fág megtámadja a sejtet, és az sikeresen túléli a támadást, akkor a DNS-ének egy szakasza beépül a bakteriális genomba és a jövőben, egy új támadáskor már aktívan irányítja a nukleázokat a fág-DNS elhasítására. Ezek a kis szekvenciadarabok rövid spacer szekvenciákkal elválasztva kerülnek bele a genomba és az új szekvenciák mindig a sor végére lesznek beillesztve. Vagyis a sejt belső rendszere már maga tudja az időbeliséget kezelni.

via GIPHY

Az egyetlen probléma, hogy a rendszer csak kb. 20 bázispáros szekvenciadarabokat tud kezelni, márpedig értelemszerűen ennyi információ, még a legcsodálatosabb tömörítéssel is édeskevés egy képkocka kódolásához. Így ebben az esetben Churchék arra támaszkodtak, hogy nem egyetlen sejtet, hanem egy teljes bakteriális populációt transzformáltak egy olyan DNS-egyveleggel, ahol egy-egy képkocka információja 20 bázisos, átfedő információ-kvantumokra lett szétosztva. Így annak ellenére, hogy egyetlen sejt csak egy kis részét tartalmazta az adott képkockának, a populáció egésze a teljes információt hordozta. A folyamatot ötször megismételve a populációösszessége, szekvenciálisan (a spacerekkel elválasztva) mind az öt képkocka információját hordozni fogja és visszaszekvenálva ezeket az adaptív genom-darabokat, az átfedéseknek köszönhetően, megfelelő algoritmusokkal mind az öt képkocka vissznyerhető (kisebb hibákkal, lásd a fenti Giphy jobb oldalát).

Ugyan a módszer ötletesnek tűnik, azért persze felmerül a kérdés, hogy ha már más eljárásokkal 200 MB-t tudunk kódolni, akkor vajon mi szükség van erre a körülményes kódoló eljárásra? Hát nem videó-kódolásra érdemes használni, az tuti, és a konkrét tanulmány is inkább nagyon ötletes PR-fogásként alkalmazta a Muybridge videót, hogy bebizonyítsa, elvileg élő sejtekkel is lehet szekvenciálisan információt kódolni.

És ugyan itt még konkrétan bakteriális sejtekről van szó, a középtávú terv, hogy valamiképpen eukarióta sejtekben (pl. idegsejtekben) is hasonló dolgot hozzanak létre, ami potenciálisan lehetővé tenné, hogy egy sejt az élete során különböző időpontokban fontos információkat írjon bele a genomjába, amit később kinyerhetünk. Ez pedig egy minőségileg új lehetőséget jelentene azokban a kísérletekben, ahol egy sejt élete alatt bekövetkező változásokat próbáljuk nem invazív módon követni.

De persze nem ez az egyetlen dolog, ami miatt a DNS és a kódolás még hosszú ideig az érdeklődés középpontjában marad. Hiszen minden erőfeszítésünk ellenére a mai napig elég keveset tudunk arró, hogy egy-egy sejt miképpen éri el, és kapcsolja be vagy ki a megfelelő pillanatban a sejtmagjában levő sokmillió bázispárnyi genom megfelelő részét. Ez azonban egy másik történet.

(Forrás: Nature, megint Nature, Scientific American, xkcd)

[A poszt eredetije a ScienceMeetup blogjában jelent meg.]

Davis J (1996) Microvenus. Art Journal 55(1): 70-74.
Church GM, Gao Y, Kosuri S (2012) Next-generation digital information storage in DNA. Science 337(6102):1628.
Erlich Y, Zielinski D (2017) DNA Fountain enables a robust and efficient storage architecture. Science 355(6328):950-954.
Organick L, Ang SD, Chen Y-J, Lopez R, Yekhanin S, et al. (2017) Scaling up DNA data storage and random access retrieval. bioRxiv 114553; doi: https://doi.org/10.1101/114553
Shipman SL, Nivala J, Macklis JD, Church GM (2017) CRISPR-Cas encoding of a digital movie into the genomes of a population of living bacteria. Nature 547(7663): 345-349.

7 thoughts on “A DNS a jövő adathordozója?”

sdani augusztus 1, 2017 at 11:11 de.

Rendkívül szkeptikus vagyok az egész koncepcióval kapcsolatban, de mivel a terület nagyon új, és még a jövő heti lottószámokat sem látom előre, inkább nem írom le a technológiát.

Viszont az a táblázat, ami a különböző tárolási módszereket hasonlítja össze teljesen használhatatlan: mit jelent az, hogy a “Power usage” <10^-10 Watt/GB? Ennyi írni, vagy ennyi olvasni? Nem létezik, hogy ennyi kiolvasni 1GBt, az írásról nem is beszélve. (1GBt a másik táblázat szerint kb. 74 millió bázispár kódol, milyen szekvenáló módszer olvassa ezt le 10^-10 Watt-ból?) A másik, számomra érthetetlen dolog, hogy mi értelme van kiszámolni, hogy a DNS súlyra vetítve mennyi adatot képes tárolni? Az adatot tároló DNS nem a vákuumban lebeg, hanem benne van egy sejtben, aminek a tömegéhez képest a DNS tömege elhanyagolható. Egy google keresés alapján az emberi sejt tömege kb. 3 nagyságrenddel haladja meg a benne tárolt DNS tömegét, azaz amikor azt mondjuk, hogy 1kg DNS, akkor az valójában 1000kg élő cuccot jelent, ami nagyjából 10^17-en db sejt (feltételezve, hogy a teljes genomot fel tudjuk használni adattárolásra és minden sejtben más információ van). 10^17 db tárolóból hogy olvasol ki valamit?

Egy másik probléma, hogy ezeket a sejteket fenn is kell tartani, vagy ha nem, akkor minden kiolvasás során veszítünk a szekvenálható DNS mennyiségéből.

Reply ↓
fordulo_bogyo augusztus 2, 2017 at 10:26 de.

Adattarolas DNS-ben: az en velemenyem az, hogy lassu, korulmenyes, draga, es nem csak a mai technologia szintjen, hanem altalaban, elvileg… DNS-k kell sizntetizalni bazisonkent, kemiai reakciok sebessegevel… kereskedelemben ma betunket $0.10 koruli koltseggel… gonodlj bele egy oldal szoveg word-ben lehet 4000 karakter, betu… azaz $400-ba kerul leirni egy oldalnyi szoveget… ha tizede es csak $40, akkor is sok… mibe kerul ugyanezt kiirni egy merevlemezre, egy flash drive-ra?
A DNS-ben torteno adattarolas behozhatatlan elonye a masolas, sokszorozas utolerhetetlen konnyusege. Az szinte ingyen van es 20-30 perc alatt 4 millio karaktert tud masolni, masj a masolatokat is masolni, exponencialisan szaporitva a masolatokat.

Reply ↓
fordulo_bogyo augusztus 2, 2017 at 10:26 de.

Hm…
“Hiszen minden erőfeszítésünk ellenére a mai napig elég keveset tudunk arró, hogy egy-egy sejt miképpen éri el, és kapcsolja be vagy ki a megfelelő pillanatban a sejtmagjában levő sokmillió bázispárnyi genom megfelelő részét.”
En ezzel foglalkoztam par evtizeden at, es ugy velem, nagyon sokat tudunk errol… kulonosen bakteriumok eseteben. Perse ez szubjektiv, hogy a sok es mi a keves tudas… bacik eseten tervezhetoek a ki- es bekapcsolok… azert az tobb, mint nagyon keves, ha mar tervezni is tudjuk.

Reply ↓
dolphin augusztus 2, 2017 at 11:21 de.

@fordulo_bogyo: OK, rajta kaptál valóban elsősorban eukariótákra gondoltam :-). De, azért a rekódolósi projektek buktatói azt mutatják, hogy azért még vannak ismeretlen dolgok a bkteriális génexpresszió szabályozásában is, és azért a kapcsolók és egyéb szin bio elemek kombinációja is _többnyire_ működik, de nem mindig._

Reply ↓
Amanitin3 augusztus 2, 2017 at 12:52 du.

Ez a Storage Limits nevű táblázat elég röhejes.
Először is, egy sarki boltban kapható háztartási SSD-vel nem sci-fi 100 MB/s sebességgel lineárisan írni és olvasni, sőt. És az nem 100 us/bit, hanem 1 ns/bit. Öt nagyságrend(!) tévedés.

Másodszor. Felteszem, hogy a DNS-re vonatkozó olvasási adat nem egy élő rendszerre vonatkozik, hanem egy csúcs szekvenátorra. Ami azt jelenti, hogy ehhez a sebességhez az adat _rengeteg példányának_ rendelkezésre kell állnia _egyszerre_. Tehát ezzel nem egy darab SSD teljesítményét, hanem egy lineáris adatpumpálásra optimalizált tároló szerverét kell összehasonlítani, pl ami valós időben benyalja a CERN-ben a detektorokból ömlő adatfolyamot. Úgyhogy az öt nagyságrend legyen inkább hét-nyolc.

A kémiai alapú adattárolás soha nem fogja megközelíteni a félvezető alapút sem sebesség, sem semmilyen más, a gyakorlatban számottevő és érvényesíthető szempontból. Ettől még persze jópofa.

Reply ↓
fordulo_bogyo augusztus 4, 2017 at 9:09 du.

@Amanitin3:
Valoban a DNS olvasasi sebessege is teves, nem csak azt kene nezni, hogy a szekvenalobol milyen sebesseggel jon ki a DNS szekvencia, hanem a teljes folyamatot, onnantol, hogy elovesszuk a mintat… addig, hogy osszeallitjuk a leolvasott szoveget/
Az adatsuruseg is teves, feltehetoleg azt szamoltak ki, hogy egyetlen DNS lanc hordozza az informaciot, de ez nem realis: egyfelol nem lehet egyelen DNS lancot szintetizalni, masfelol ha lehetne is, akkor az olvasas megsemmisiti a leolvasott adathordozot, es az olvasas nem 100% pontossagu, eszmeletlen kockazat lenne egyetlen molekulara bizni barmi fontos informaciot.
Az iras sebessege meg sokkal-sokkal lassabb mint a kezirase es ezt a kemiai reakciok sebessege limitalja, es ez nehezen gyorsithato.
Belegondoltakok, hogy a millio bazisnyi DNS-t szintetizalni mennyi idobe telik? Es utana ellenorizni, mert a szintezis meglehetosen gyakran hibazik….

Reply ↓
111211211111221... szeptember 18, 2017 at 8:46 du.

“1000kg élő cuccot jelent, ami nagyjából 10^17-en db sejt (feltételezve, hogy a teljes genomot fel tudjuk használni adattárolásra és minden sejtben más információ van). 10^17 db tárolóból hogy olvasol ki valamit?”

Lényegtelen. Majd le lehet írni néhány pályázatba, hogy a filmarchívumot baktériumokba oltják és ez milyen jó lesz mindenkinek. Ekkora hülyeséget úgysem talált még ki senki, úgyhogy biztosan nyernek vele néhány grantet, ami persze elképesztő mértékben fogja növelni az EU/USA/Kína/India/stb. versenyképességét. Ha meg nem, akkor lehet majd tirádázni, hogy itt/ott/emitt/amott ellehetetlenítik a tudományt, mi lesz, ha órási tehetségeknek kell a kutatásaik gyakorlása végett más kontinensre költözniük. Akkor persze a Dean körül lebzselő idióták is észbekapnak, hogy hát a Mr. Church hivatkozászáma olyan gyorsan emelkedik, mint a Federal Debt milliárdokban mérve, hát tényleg mi lesz, ha nem a Harvard Medical Shoolnak jut az a dicsőség, hogy őt alkalmazza. És lőn, az ijedelem hatását megteszi, Mr. Church és csapata szabad kezet kap a filmarchívum bakterializálására.

Reply ↓

7 thoughts on “A DNS a jövő adathordozója?”

Vélemény, hozzászólás? Kilépés a válaszból