Lưu trữ dữ liệu bằng DNA (phần 2)

Lưu trữ dữ liệu bằng DNA, DNA có thể lưu trữ dữ liệu của toàn thế giới, Giải trình tự, dịch mã, Thông điệp từ ngoài hành tinh, lưu trữ dài hạn, Flash memory, silicon memory chip, nanochip, ổ cứng, bộ nhớ, Bits, trits, EBI, Microsoft, Ewan Birney, George Church, Nick Goldman, PCR, CRISPR-Cas9,

Lưu trữ dữ liệu bằng DNA (phần 2)

DNA có thể cất giữ dữ liệu của toàn thế giới

Những công nghệ lưu trữ hiện nay không thể đuổi kịp sự phát triển vũ bão của các đơn vị thông tin. Nhưng tự nhiên có thể nắm giữ câu trả lời cho vấn đề này rồi.

Lưu trữ dài hạn

Người đầu tiên đưa 1 và 0 của dữ liệu kỹ thuật số vào 4 cặp base của DNA là Joe Davis, trong một nghiên cứu hợp tác năm 1988 với các nhà khoa học từ Harvard. Trình tự DNA mà họ đã chèn vào E.coli chỉ mã hóa 35 bits. Khi được mô phỏng thành ma trận 5×7, với 1 tương ứng với điểm ảnh tối và 0 ứng với điểm ảnh sáng, họ đã tạo nên một bức tranh về một mật mã Đức cổ huyền bí phản ánh sự sống. Lưu trữ dữ liệu bằng DNA (phần 2) .

Ngày nay, David được nhận làm thành viên trong phòng thí nghiệm của Church, bắt đầu khám khá việc lưu trữ DNA từ 2011. Nhóm nghiên cứu Harvard hy vọng ứng dụng của nó có thể làm giảm giá thành tổng hợp DNA, như thể lĩnh vực genomic làm giảm giá thành giải trình tự. Church đã thực hiện các thí nghiệm bảo vệ quan điểm cùng với Sri Kosuri, nay thuộc Đại học California và chuyên gia về genomic Yuan Gao tại Đại học Johns Hopkins. Nhóm đã sử dụng các đoạn trình tự DNA ngắn để mã hóa một phiên bản 659 kb của một cuốn sách mà Church làm đồng tác giả. Bộ phận của mỗi chuỗi là một địa chỉ xác định các mảnh cần được sắp xếp như thế nào sau khi giải trình tự, với phần còn lại chứa dữ liệu. Một 0 nhị nhân có thể được mã hóa bởi A hoặc C, và 1 nhị phân có thể được biểu diễn qua G và T. Tính tùy biến này giúp nhóm nghiên cứu thiết kế các trình tự mà các lỗi đọc được hạn chế, điều mà có thể xảy ra ở các vùng chứa nhiều GC, các trình tự lặp, các đoạn bám nhau. Họ vẫn chưa có một cách sửa lỗi thực thụ, thay vào đó dựa vào sự phong phú của từng đoạn nhỏ trình tự. Hệ quả là, sau khi giải trình tự các đoạn, Kosuri, Church và Gao đã thấy 22 lỗi – quá nhiều để lưu trữ dữ liệu một cách đáng tin cậy.

Lưu trữ dữ liệu bằng DNA, DNA có thể lưu trữ dữ liệu của toàn thế giới, Giải trình tự, dịch mã, Thông điệp từ ngoài hành tinh, lưu trữ dài hạn, Flash memory, silicon memory chip, nanochip, ổ cứng, bộ nhớ, Bits, trits, EBI, Microsoft, Ewan Birney, George Church, Nick Goldman, PCR, CRISPR-Cas9,

Quy trình lưu trữ thông tin: Sau khi một phương pháp mã hóa được lựa chọn, các nhà nghiên cứu viết thông tin DNA vào một loạt các oligonucleotides dài, được tổng hợp trong các ống nghiệm nhỏ hoặc được in lên các vi chip DNA và được bảo quản ở nơi khô, lạnh và tối. Khi thông tin cần được đọc, các nhà nghiên cứu hydrate hóa mẫu và thêm các mồi tương ứng với các “đại chỉ” của trình tự mong muốn. Sản phẩm sau khuếch đại được giải trình tự và giải mã theo thứ tự để có được thông tin ban đầu. Lưu trữ dữ liệu bằng DNA (phần 2) 

Trong khi đó tại EBI, Goldman, Birney và cộng sự cũng đang sử dụng nhiều mảnh DNA để mã hóa cho dữ liệu lưu trữ 739 kb của họ, bao gồm một ảnh, một đoạn mã ASCII, các file audio và một bản PDF về bài báo minh họa của Watson và Crick về cấu trúc kép. Để tránh lặp lại các base hoặc các nguồn lỗi khác, nhóm dẫn đầu EBI đã dùng một quy trình phức tạp hơn (xem phần ‘Making memories’). Một khía cạnh liên quan đến mã hóa dữ liệu không chỉ là các số 0 và 1, mà là dựa vào bộ ba – 0, 1 và 2.

Lưu trữ dữ liệu bằng DNA, DNA có thể lưu trữ dữ liệu của toàn thế giới, Giải trình tự, dịch mã, Thông điệp từ ngoài hành tinh, lưu trữ dài hạn, Flash memory, silicon memory chip, nanochip, ổ cứng, bộ nhớ, Bits, trits, EBI, Microsoft, Ewan Birney, George Church, Nick Goldman, PCR, CRISPR-Cas9,

Quy trình mã hóa thông tin vào DNA. (1) Từ chữ thành mã nhị phân: dùng mã nhị phân 0 và 1 để biểu diễn cho các chữ cái thuộc mã ASCII. (2) Từ mã nhị phân thành mã … tam phân: file nhị phân được chuyển theo cách toán học thành “trits” (hãy liên tưởng bits = nhị phân, trits = tam phân): 0, 1 và 2. (3) Từ mã tam phân thành mã DNA: một máy tổng hợp tạo ra các mạch DNA sử dụng trits làm chỉ dẫn. Ở mỗi bước, 0, 1, và 2 được dịch thành một trong ba base khác với base vừa được dùng trước đó.

Các kết quả của Goldman rằng DNA có tiềm năng trở thành một thứ lưu trữ DNA dài hạn mà cần ít năng lượng. Ông cũng nhắc lại một công bố 2013 về hệ gen ngựa được giải mã từ một mẫu xương bị đóng băng vĩnh cửu 700.000 năm. “Ở một trung tâm lưu trữ, không ai tin một chiếc đĩa cứng sau 3 năm,” ông nói. “Không ai tin một cuốn băng sau tối đa 10 năm. Ở chỗ mà bạn muốn sao chép một cách an toàn trong thời gian lâu hơn thế, ngay khi chúng tôi có thể làm cho chúng có thể được viết bằng mã DNA, bạn có thể dán nó lên hạng động và quên nó đi cho đến khi muốn đọc lại.”

Một lĩnh vực chớm nở

Khả năng đó đã tóm được trí tưởng tượng của các nhà khoa học máy tính Luis Ceze, từ Đại học Washington, và Karin Strauss, từ Microsoft Research ở Redmond, Washington, kể từ khi họ nghe Goldman thảo luận về công việc của EBI khi họ đến Vương quốc Anh vào năm 2013. “Mật độ, sự ổn định và độ chín của nó đã làm chúng tôi vui mừng,” Strauss nói.

Và khi quay trở lại Washington, Strauss và Ceze bắt đầu nghiên cứu với cộng tác viên của Đại học Washington, Georg Seelig. Một trong những mối quan ngại chính của họ là một nhược điểm lớn khác còn trầm trong hơn cả vấn đề lỗi đọc. Sử dụng các phương pháp giải trình tự tiêu chuẩn, không có cách nào để truy suất dữ liệu từ bất kỳ mảnh nào mà không phải truy suất toàn bộ dữ liệu: tất cả các đoạn DNA đều phải được đọc. Điều này có thể sẽ phức tạp hơn nhiều so với bộ nhớ máy tính thông thường, vốn có khả năng truy cập ngẫu nhiên tùy theo yêu cầu người dùng.

Nhóm đã vạch ra giải pháp cho vấn đề đó tại một hội nghị tại Atlanta, Georgia. Các nhà nghiên cứu bắt đầu bằng cách lấy ra các mẫu nhỏ từ dữ liệu lưu trữ DNA. Họ sau đó sử dụng PCR để xác định và tạo nhiều bản sao của các đoạn chứa dữ liệu mà họ muốn giải nén. Việc tăng số bản sao làm cho giải trình tự nhanh hơn rẻ hơn và chính xác hơn cách tiếp cận trước đó. Nhóm cũng đã đặt ra một quy trình sửa lỗi khác mà theo nhóm là cho phép mã hóa dữ liệu gấp 2 lần của EBI nhưng độ tin cậy tương đương. Lưu trữ dữ liệu bằng DNA (phần 2) 

Những kế hoạch để hiện thực hóa cuộc cách mạng

Tại Đại học Illinois, nhà khoa học máy tính Olgica Milenkovic và đồng nghiệp của cô đã phát triển một phương pháp truy cập ngẫu nhiên cũng cho phép viết lại các dữ liệu được mã hóa. Phương pháp của họ là lưu trữ dữ liệu dưới dạng các đoạn DNA dài có trình tự địa chỉ ở hai đầu. Các nhà nghiên cứu sau đó sử dụng các “địa chỉ” để chọn, khuếch đại và viết lại các chuỗi sử dụng kỹ thuật PCR hoặc công cụ chỉnh sửa gen CRISPR-Cas9.

Các địa chỉ cần phải tránh các trình tự khó đọc mà lại không đủ khác biệt với các trình tự khác. Và để tránh vấn đề như là các phân tử cuộn gập bởi chứa các đoạn tiếp nhận và bám vào đoạn khác, “lúc ban đầu chúng tôi sử dụng máy tính tìm kiếm bởi nó thực sự khó khăn để theo đuổi một cái gì đó có đủ các đặc điểm này,” Milenkovic nói. Nhóm của cô giờ đã đã thay thế quy trình tốn nhiều công sức bằng công thức toán học cho phép họ tạo ra một chương trình mã hóa nhanh hơn nhiều. Lưu trữ dữ liệu bằng DNA (phần 2) 

Những thách thức khác cho việc lưu trữ bằng DNA là quy mô và tốc độ tổng hợp các phân tử, Kosuri cho biết. Trong suốt những thí nghiệm đầu tiên tại Harvard, ông nhắc lại, “chúng tôi đã có 700 kB. Kể cả có gấp 1000 lần con số đó cũng chỉ là 700 MB, tương đương một đĩa CD”. Thực tế tạo ra một sự khác biệt cho vấn đề lưu trữ của toàn cầu đòi hỏi lưu trữ thông tin ở mức độ tối thiểu là petabyte (1 triệu GB). “Không phải là không thể,”Kosuri nói, “nhưng mọi người cần phải hiểu ra là quy mô cần phải được cải thiện lên hàng triệu lần nữa.”

Điều đó sẽ không dễ dàng, Markowitz đồng tình. “Phương pháp sản xuất chiếm ưu thế là một quy trình hóa học 30 năm tuổi, tốn hơn 400 giây để thêm mỗi base”. Nếu như cách tiếp cận này được sử dụng, ông nói thêm, hàng tỉ đoạn khác nhau sẽ phải được tạo ra song song để việc ghi mã đủ nhanh. Mức tối đa hiện tại cho sản xuất đồng thời là hàng chục nghìn đoạn. Lưu trữ dữ liệu bằng DNA  (phần 2)

Một yếu tố liên hệ rất chặt chẽ là giá thành tổng hợp DNA. Nó chiếm đến 98% chi phí thí nhiệm 12.660 đô-la của EBI. Giải trình tự chỉ chiếm 2%, nhờ vào sự giảm giá 2 triệu lần từ khi dự án giải trình tự hệ gen  người (HGP) kết thúc 2003. Dù có tiền lệ này, Kosuri  không tin tưởng rằng nền kinh tế có thể thúc đẩy tiến bộ tưng tự trong tổng hợp DNA. Ông thừa nhận rằng một số cải thiện về chi phí có thể là kết quả của Dự án HGP-write, một dự án đề xuất vào tháng 6 bởi Church và những người khác. Nếu được tài trợ, chương trình sẽ nhằm tổng hợp toàn bộ hệ gen của con người: 23 cặp nhiễm sắc thể chứa 3,2 tỷ nucleotide. Nhưng ngay cả khi HGP-write thành công, Kosuri nói, bộ gen của con người chỉ chứa 0,75 GB thông tin và sẽ bị thu hẹp bởi thách thức tổng hợp các kho dữ liệu thực tế.

Vào tháng Tư, Microsoft Research đã thực hiện một động thái đầu tiên có thể giúp tạo ra nhu cầu cần thiết, đặt hàng 10 triệu đoạn từ Twist Bioscience. Strauss và các đồng nghiệp nói rằng họ đã sử dụng các dây để đẩy cách tiếp cận lưu trữ truy cập ngẫu nhiên của họ lên 0.2 GB. Các chi tiết vẫn chưa được công bố, nhưng kho lưu trữ báo cáo bao gồm Tuyên ngôn thế giới về nhân quyền trong hơn 100 ngôn ngữ, 100 cuốn sách hàng đầu của Dự án Guttenberg và cơ sở dữ liệu hạt giống. mặc dù phương pháp như vậy ít bị thách thức đối với việc tổng hợp, Strauss nhấn mạnh về bước nhảy 250 lần về dung lượng lưu trữ. Lưu trữ dữ liệu bằng DNA  (phần 2) (phần 2)

Bất kể tương lai của DNA trong những công nghệ phức tạp này, những ý tưởng như vậy là một minh chứng cho tiềm năng nhận thức của việc lưu trữ dữ liệu phân tử – và chỉ ra mức độ tiến triển của lĩnh vực này trong một khoảng thời gian rất ngắn sắp tới. Lưu trữ dữ liệu bằng DNA (phần 2)

Lưu trữ dữ liệu bằng DNA (phần 2), DNA có thể lưu trữ dữ liệu của toàn thế giới, Giải trình tự, dịch mã, Thông điệp từ ngoài hành tinh, lưu trữ dài hạn, Flash memory, silicon memory chip, nanochip, ổ cứng, bộ nhớ, Bits, trits, EBI, Microsoft, Ewan Birney, George Church, Nick Goldman, PCR, CRISPR-Cas9,

RUNNING THE FILM: Các nhà nghiên cứu tại Đại học Harvard đã mã hóa một GIF thể hiện một con ngựa đang phi nhanh (trái) vào DNA của vi khuẩn bằng CRISPR. Giải trình tự genome của quần thể vi khuẩn cho phép họ khôi phục lại thông tin như hình bên phải. Lưu trữ dữ liệu bằng DNA (phần 2)

>> Nguồn:

Đọc thêm: Lưu trữ thông tin trong DNA phần 1

Iceberg (tổng hợp)

Tapchisinhhoc.com

5/5 - (6 votes)

Leave a Reply