Nội dung
Lưu trữ dữ liệu bằng DNA (phần 2)
DNA có thể cất giữ dữ liệu của toàn thế giới
Những công nghệ lưu trữ hiện nay không thể đuổi kịp sự phát triển vũ bão của các đơn vị thông tin. Nhưng tự nhiên có thể nắm giữ câu trả lời cho vấn đề này rồi.
Lưu trữ dài hạn
Người đầu tiên đưa 1 và 0 của dữ liệu kỹ thuật số vào 4 cặp base của DNA là Joe Davis, trong một nghiên cứu hợp tác năm 1988 với các nhà khoa học từ Harvard. Trình tự DNA mà họ đã chèn vào E.coli chỉ mã hóa 35 bits. Khi được mô phỏng thành ma trận 5×7, với 1 tương ứng với điểm ảnh tối và 0 ứng với điểm ảnh sáng, họ đã tạo nên một bức tranh về một mật mã Đức cổ huyền bí phản ánh sự sống. Lưu trữ dữ liệu bằng DNA (phần 2) .
Ngày nay, David được nhận làm thành viên trong phòng thí nghiệm của Church, bắt đầu khám khá việc lưu trữ DNA từ 2011. Nhóm nghiên cứu Harvard hy vọng ứng dụng của nó có thể làm giảm giá thành tổng hợp DNA, như thể lĩnh vực genomic làm giảm giá thành giải trình tự. Church đã thực hiện các thí nghiệm bảo vệ quan điểm cùng với Sri Kosuri, nay thuộc Đại học California và chuyên gia về genomic Yuan Gao tại Đại học Johns Hopkins. Nhóm đã sử dụng các đoạn trình tự DNA ngắn để mã hóa một phiên bản 659 kb của một cuốn sách mà Church làm đồng tác giả. Bộ phận của mỗi chuỗi là một địa chỉ xác định các mảnh cần được sắp xếp như thế nào sau khi giải trình tự, với phần còn lại chứa dữ liệu. Một 0 nhị nhân có thể được mã hóa bởi A hoặc C, và 1 nhị phân có thể được biểu diễn qua G và T. Tính tùy biến này giúp nhóm nghiên cứu thiết kế các trình tự mà các lỗi đọc được hạn chế, điều mà có thể xảy ra ở các vùng chứa nhiều GC, các trình tự lặp, các đoạn bám nhau. Họ vẫn chưa có một cách sửa lỗi thực thụ, thay vào đó dựa vào sự phong phú của từng đoạn nhỏ trình tự. Hệ quả là, sau khi giải trình tự các đoạn, Kosuri, Church và Gao đã thấy 22 lỗi – quá nhiều để lưu trữ dữ liệu một cách đáng tin cậy.
Trong khi đó tại EBI, Goldman, Birney và cộng sự cũng đang sử dụng nhiều mảnh DNA để mã hóa cho dữ liệu lưu trữ 739 kb của họ, bao gồm một ảnh, một đoạn mã ASCII, các file audio và một bản PDF về bài báo minh họa của Watson và Crick về cấu trúc kép. Để tránh lặp lại các base hoặc các nguồn lỗi khác, nhóm dẫn đầu EBI đã dùng một quy trình phức tạp hơn (xem phần ‘Making memories’). Một khía cạnh liên quan đến mã hóa dữ liệu không chỉ là các số 0 và 1, mà là dựa vào bộ ba – 0, 1 và 2.
Các kết quả của Goldman rằng DNA có tiềm năng trở thành một thứ lưu trữ DNA dài hạn mà cần ít năng lượng. Ông cũng nhắc lại một công bố 2013 về hệ gen ngựa được giải mã từ một mẫu xương bị đóng băng vĩnh cửu 700.000 năm. “Ở một trung tâm lưu trữ, không ai tin một chiếc đĩa cứng sau 3 năm,” ông nói. “Không ai tin một cuốn băng sau tối đa 10 năm. Ở chỗ mà bạn muốn sao chép một cách an toàn trong thời gian lâu hơn thế, ngay khi chúng tôi có thể làm cho chúng có thể được viết bằng mã DNA, bạn có thể dán nó lên hạng động và quên nó đi cho đến khi muốn đọc lại.”
Một lĩnh vực chớm nở
Khả năng đó đã tóm được trí tưởng tượng của các nhà khoa học máy tính Luis Ceze, từ Đại học Washington, và Karin Strauss, từ Microsoft Research ở Redmond, Washington, kể từ khi họ nghe Goldman thảo luận về công việc của EBI khi họ đến Vương quốc Anh vào năm 2013. “Mật độ, sự ổn định và độ chín của nó đã làm chúng tôi vui mừng,” Strauss nói.
Và khi quay trở lại Washington, Strauss và Ceze bắt đầu nghiên cứu với cộng tác viên của Đại học Washington, Georg Seelig. Một trong những mối quan ngại chính của họ là một nhược điểm lớn khác còn trầm trong hơn cả vấn đề lỗi đọc. Sử dụng các phương pháp giải trình tự tiêu chuẩn, không có cách nào để truy suất dữ liệu từ bất kỳ mảnh nào mà không phải truy suất toàn bộ dữ liệu: tất cả các đoạn DNA đều phải được đọc. Điều này có thể sẽ phức tạp hơn nhiều so với bộ nhớ máy tính thông thường, vốn có khả năng truy cập ngẫu nhiên tùy theo yêu cầu người dùng.
Nhóm đã vạch ra giải pháp cho vấn đề đó tại một hội nghị tại Atlanta, Georgia. Các nhà nghiên cứu bắt đầu bằng cách lấy ra các mẫu nhỏ từ dữ liệu lưu trữ DNA. Họ sau đó sử dụng PCR để xác định và tạo nhiều bản sao của các đoạn chứa dữ liệu mà họ muốn giải nén. Việc tăng số bản sao làm cho giải trình tự nhanh hơn rẻ hơn và chính xác hơn cách tiếp cận trước đó. Nhóm cũng đã đặt ra một quy trình sửa lỗi khác mà theo nhóm là cho phép mã hóa dữ liệu gấp 2 lần của EBI nhưng độ tin cậy tương đương. Lưu trữ dữ liệu bằng DNA (phần 2)
Những kế hoạch để hiện thực hóa cuộc cách mạng
Tại Đại học Illinois, nhà khoa học máy tính Olgica Milenkovic và đồng nghiệp của cô đã phát triển một phương pháp truy cập ngẫu nhiên cũng cho phép viết lại các dữ liệu được mã hóa. Phương pháp của họ là lưu trữ dữ liệu dưới dạng các đoạn DNA dài có trình tự địa chỉ ở hai đầu. Các nhà nghiên cứu sau đó sử dụng các “địa chỉ” để chọn, khuếch đại và viết lại các chuỗi sử dụng kỹ thuật PCR hoặc công cụ chỉnh sửa gen CRISPR-Cas9.
Các địa chỉ cần phải tránh các trình tự khó đọc mà lại không đủ khác biệt với các trình tự khác. Và để tránh vấn đề như là các phân tử cuộn gập bởi chứa các đoạn tiếp nhận và bám vào đoạn khác, “lúc ban đầu chúng tôi sử dụng máy tính tìm kiếm bởi nó thực sự khó khăn để theo đuổi một cái gì đó có đủ các đặc điểm này,” Milenkovic nói. Nhóm của cô giờ đã đã thay thế quy trình tốn nhiều công sức bằng công thức toán học cho phép họ tạo ra một chương trình mã hóa nhanh hơn nhiều. Lưu trữ dữ liệu bằng DNA (phần 2)
Những thách thức khác cho việc lưu trữ bằng DNA là quy mô và tốc độ tổng hợp các phân tử, Kosuri cho biết. Trong suốt những thí nghiệm đầu tiên tại Harvard, ông nhắc lại, “chúng tôi đã có 700 kB. Kể cả có gấp 1000 lần con số đó cũng chỉ là 700 MB, tương đương một đĩa CD”. Thực tế tạo ra một sự khác biệt cho vấn đề lưu trữ của toàn cầu đòi hỏi lưu trữ thông tin ở mức độ tối thiểu là petabyte (1 triệu GB). “Không phải là không thể,”Kosuri nói, “nhưng mọi người cần phải hiểu ra là quy mô cần phải được cải thiện lên hàng triệu lần nữa.”
Điều đó sẽ không dễ dàng, Markowitz đồng tình. “Phương pháp sản xuất chiếm ưu thế là một quy trình hóa học 30 năm tuổi, tốn hơn 400 giây để thêm mỗi base”. Nếu như cách tiếp cận này được sử dụng, ông nói thêm, hàng tỉ đoạn khác nhau sẽ phải được tạo ra song song để việc ghi mã đủ nhanh. Mức tối đa hiện tại cho sản xuất đồng thời là hàng chục nghìn đoạn. Lưu trữ dữ liệu bằng DNA (phần 2)
Một yếu tố liên hệ rất chặt chẽ là giá thành tổng hợp DNA. Nó chiếm đến 98% chi phí thí nhiệm 12.660 đô-la của EBI. Giải trình tự chỉ chiếm 2%, nhờ vào sự giảm giá 2 triệu lần từ khi dự án giải trình tự hệ gen người (HGP) kết thúc 2003. Dù có tiền lệ này, Kosuri không tin tưởng rằng nền kinh tế có thể thúc đẩy tiến bộ tưng tự trong tổng hợp DNA. Ông thừa nhận rằng một số cải thiện về chi phí có thể là kết quả của Dự án HGP-write, một dự án đề xuất vào tháng 6 bởi Church và những người khác. Nếu được tài trợ, chương trình sẽ nhằm tổng hợp toàn bộ hệ gen của con người: 23 cặp nhiễm sắc thể chứa 3,2 tỷ nucleotide. Nhưng ngay cả khi HGP-write thành công, Kosuri nói, bộ gen của con người chỉ chứa 0,75 GB thông tin và sẽ bị thu hẹp bởi thách thức tổng hợp các kho dữ liệu thực tế.
Vào tháng Tư, Microsoft Research đã thực hiện một động thái đầu tiên có thể giúp tạo ra nhu cầu cần thiết, đặt hàng 10 triệu đoạn từ Twist Bioscience. Strauss và các đồng nghiệp nói rằng họ đã sử dụng các dây để đẩy cách tiếp cận lưu trữ truy cập ngẫu nhiên của họ lên 0.2 GB. Các chi tiết vẫn chưa được công bố, nhưng kho lưu trữ báo cáo bao gồm Tuyên ngôn thế giới về nhân quyền trong hơn 100 ngôn ngữ, 100 cuốn sách hàng đầu của Dự án Guttenberg và cơ sở dữ liệu hạt giống. mặc dù phương pháp như vậy ít bị thách thức đối với việc tổng hợp, Strauss nhấn mạnh về bước nhảy 250 lần về dung lượng lưu trữ. Lưu trữ dữ liệu bằng DNA (phần 2) (phần 2)
Bất kể tương lai của DNA trong những công nghệ phức tạp này, những ý tưởng như vậy là một minh chứng cho tiềm năng nhận thức của việc lưu trữ dữ liệu phân tử – và chỉ ra mức độ tiến triển của lĩnh vực này trong một khoảng thời gian rất ngắn sắp tới. Lưu trữ dữ liệu bằng DNA (phần 2)
>> Nguồn:
Đọc thêm: Lưu trữ thông tin trong DNA phần 1
Iceberg (tổng hợp)
No Responses