So sánh trình tự – BLAST online

Làm sao để so sánh trình tự: BLAST online

So sánh trình tự là gì và ý nghĩa của nó?

Đối với các nhà tin sinh học, tương đồng (homology) là dấu vết chủ yếu để dự đoán gen và chức năng protein.

Nhưng làm sao để một người có thể dự đoán được tính tương đồng?

Câu trả lời là xác định sự tương tự giữa hai hay nhiều trình tự, tức là việc so sánh trình tự (sequence alignment).

ARN được giải trình tự, như là các đoạn EST hay mARN đầy đủ có thể được so sánh với trình tự hệ gen để tìm xem ở đâu có gen, đồng thời thu được thông tin về việc cải biến hoặc chỉnh sửa ARN.

Một ứng dụng khác nữa là phân tích SNP (các khác biệt ở một nucleotide duy nhất), khi đó trình tự ADN của mỗi cá nhân được so với nhau để tìm ra các cặp base khác biệt phổ biến trong quần thể.

Có nhiều công cụ khác nhau để giúp ta làm công việc ở trên,  được phân loại theo thuật toán và kiểu so sánh (xem chi tiết ở đây) nhưng các công cụ phổ biến được dùng để so sánh trình tự nói chung bao gồm ClustalW2, T-Coffee, BLAST và FASTA3x. BLAST và FASTA vừa so sánh trình tự, vừa tìm kiếm trình tự trong CSDL. Các công cụ phải trả phí có thể kể đến như  DNASTAR Lasergene, Geneious, và PatternHunter.

Basic Local Alignment Search Tool (BLAST) tìm kiếm các vùng tương đồng cục bộ giữa các trình tự.

Chương trình so sánh các trình tự nucleotide hoặc protein với cơ sở dữ liệu và tính toán ra mức độ trùng khớp có ý nghĩa về mặt thống kê (chứ không phải trùng khớp ngẫu nhiên).

BLAST thường được dùng để kết luận mối quan hệ về chức năng và tiến hóa giữa các trình tự cũng như giúp xác định các thành viên trong họ.

Giới thiệu BLAST online để so sánh trình tự ADN

Truy cập đường link https://blast.ncbi.nlm.nih.gov/Blast.cgi,  chúng ta có:

blast, so sánh trình tự, ncbi

Hình 1.1. Giao diện chính của công cụ BLAST online

Tại đây, chúng ta có thể thấy các công cụ cơ bản:

Protein blast (blastp) để so sánh cấu trúc chuỗi amino axit cần phân tích với cấu trúc chuỗi protein trong ngân hàng dữ liệu.

Nucleotide blast (blastn): để so sánh cấu trúc chuỗi nucleotide cần phân tích với cấu trúc chuỗi nucleotide trong ngân hàng dữ liệu.

tblastn: để so sánh cấu trúc chuỗi amino axit cần phân tích với các cấu trúc protein tương ứng được dịch mã bảo toàn từ trình tự chuỗi nucleotide trong ngân hàng dữ liệu.

blastx để so sánh cấu trúc chuỗi nucleotide cần phân tích (dưới dạng được dịch đầy đủ sang cấu trúc chuỗi amino axit) với cấu trúc chuỗi protein trong ngân hàng dữ liệu. Phương án so sánh này được sử dụng để tìm hiểu đặc điểm của sản phẩm sẽ được tạo ra khi lựa chọn chuỗi này.

Tiếp đó là các công cụ mở rộng và nâng cao

so sánh trình tự, ncbi

Hình 1.2. Một số công cụ nâng cao khác bằng BLAST (online)

Ví dụ để so sánh trình tự ADN, chọn vào Nucleotide BLAST, giao diện của blastn như sau:

so sánh trình tự, ncbi

Hình 2.1 Giao diện làm việc của BLASTN online.

Recent Results: kết quả gần đây được lưu trữ tự động trong vòng 36h

Saved Strategies: các kết quả blast được lưu chủ động

From – to tại Query subrange cho phép giới hoạn một đoạn trình tự đầu vào (Query), thay vì đưa vào toàn bộ kích thước một đoạn nào đó.

Database cho phép chọn lựa CSDL chứa các trình tự sẽ được so sánh với trình tự đầu vào, đó có thể là hệ gene người/chuột, ARN (transcript) của người/chuột hay các CSDL khác trong đó Nucleotide collection (nr/nt) là CSDL lớn để tạo ra phạm vi so sánh rộng.

Chọn sinh vật trong ô Organism giúp giới hạn các trình tự nucleotide trong CSDL tương ứng với đối tượng đã chọn.

Lựa chọn chế độ so sánh trình tự

Tại Program Selection, chúng ta có thể thấy ba chế độ:

Megablast được dùng để so sánh truy vấn với các trình tự liên quan chặt chẽ và tốt nhất nếu nhận dạng phần trăm đích là 95% trở lên nhưng rất nhanh.

Discontinuous megablast sử dụng một đoạn tương đồng nhỏ ban đầu bỏ qua một số base (cho phép mismatches) và được sử dụng để so sánh giữa các loài họ hàng; mức độ tương đồng cao được kỳ vọng.

BlastN thực hiện chậm, nhưng cho phép word size giảm xuống đến 7 bases dành cho việc so sánh các trình tự không quá tương đồng.

Việc lựa chọn chế độ sẽ thay đổi một số thông số mặc định ở phần dưới.

so sánh trình tự, blast

Hình 2.2. Các thông số BLAST tương ứng với chế độ megablast – Algrorithm parameters và Filters and Masking

Tại Algorithm parameters

Short Queries. Nếu ta click vào, hệ thống tự động điều chỉnh word size và các thông số khác để cải thiện kết quả đối với các trình tự đưa vào ngắn.

Expect threshold. Giá trị này đặt ra ngưỡng ý nghĩa thống kê khi báo cáo các “trùng khớp” giữa trình tự truy vấn với CSDL. Giá trị mặc định threshold (T) là 10, tức là 10 bases trùng khớp được xem như không phải (hoặc ít khả năng) do ngẫu nhiên, theo hô hình của Karlin & Altschul (1990) (hãy nhớ rằng BLAST tìm kiếm các tương đồng có ý nghĩa thống kê). Chúng ta đặt giá trị T thấp thì kết quả so sánh càng chặt chẽ, dẫn tới ít cơ hội cho các trùng khớp ngẫu nhiên được báo cáo.

Word size: kích cỡ tối thiểu của đoạn tương đồng để bắt đầu tính điểm, do đó thay đổi độ nhạy và tốc độ tìm kiếm bằng cách tăng giảm word size. Theo mặc định, word size là 3 và 11 tương ứng khi so sánh protein, ADN. Trên trang web của NCBI cho phép các word size khác nhau, có thể tới 6 amino axit và 256 base. Về cơ bản, word size càng lớn thì tính chặt chẽ càng cao, nhưng sẽ tốn nhiều thời gian.

Filter. Các vùng trình tự có độ phức tạp thấp, tức là trình tự amino axit hay nucleotide lặp, có hàm lượng thông tin không nhiều, có thể có ý nghĩa thống kê, nhưng không có ý nghĩa sinh học. Ví dụ, ATATATATATATAT, PPPPPPPPPPPPPPPP hay các trình tự Alu. Chúng có thể ảnh hưởng tới kết quả, nhầm lẫn, ngộ nhận, vì thế hãy đánh dấu để lọc chúng tại “low complexity region filter”.

Max matches in a query range. Hữu ích khi nhiều trình tự CSDL rất khớp với một phần của trình tự đưa vào (query), điều này có thể ngăn cản BLAST xuất ra các đoạn khác ít trùng khớp hơn đối với một phần khác của trình tự đưa vào.

Match/Mismatch Scores: điểm cộng và điểm trừ tương ứng với mỗi base bắt cặp và không bắt cặp, chỉ áp dụng khi một đoạn dài hơn giá trị T. Tỉ lệ điểm cộng/trừ nên tăng lên khi chúng ta đang tìm kiếm hoặc kỳ vọng các trình tự có độ tương đồng cao. Tỉ lệ 0.33 (1;-3) là phù hợp cho các trình tự bảo thủ khoảng 99%; tỉ lệ 0.5 (1;-2) phù hợp hơn với các trình tự bảo thủ 95%; tỉ lệ 1 (1;-1) tốt nhất cho bảo thủ 75%. Điều này nghĩa là, nếu chúng ta đặt Match/Mismatch Scores là (1;-1) thì kết quả xuất ra sẽ bao gồm cả các trình tự có độ tương đồng khoảng 75% trở lên. Ở chế độ Megablast, giá trị này mặc định là (1;-2).

So sánh cơ bản bằng công cụ online

So sánh một trình tự với cả CSDL

Muốn so sánh phải có Query – trình tự đầu vào – là trình tự mà chúng ta đang sở hữu/đang quan tâm và muốn so sánh với trình tự khác. Các cách để đưa trình tự vào BLAST?

Hãy bắt đầu với việc tìm kiếm gene quan tâm trên CSDL Nucleotide của NCBI. Sao chép Accession hoặc GI ngay tại trang kết quả trả về.

Hình 3.1. Tìm kiếm mã truy cập của gene ở CSDL nucleotide

Cách 1. Dùng mã truy cập Accession number hoặc GI

so sánh trình tự, blast

Hình 3.2. Nhập vào trình tự Query bằng Accession number hoặc mã GI

Trong trường hợp này, chúng ta cần đặt ra giới hạn của đoạn trình tự mà ta quan tâm mà thôi, tại FromTo

Cách 2. Vào FASTA lấy trình tự

ncbi, fasta

Hình 3.3. Truy cập FASTA Nucleotide để lấy trình tự gene

Hãy dán trình tự đã sao chép vào Query

Xem thêm: cách tìm kiếm gene và lấy trình tự trên NCBI

Cách 3. Tải lên tệp tin text

so sánh trình tự, blast, ncbi

Hình 3.4. Nhập vào trình tự Query bằng tệp tin txt có sẵn

Lưu ý, file khả dụng có đuôi .txt hoặc .fasta; ngoài ra, dòng đầu tiên trong file cần có dòng định danh gene , ít nhất là phải có một ký tự ‘>’ (“>Accession number …”).

Sau khi đã nhập, chọn chế độ blast là megablast, chọn mở kết quả sang tab mới, bấm BLAST. Khi kết quả BLAST lần đầu hiện ra, chúng ta có thể vẫn cần chỉnh sửa một số thông số khác, vì thế mở kết quả sang tab mới để tránh làm mất kết quả lần đầu tiên.

Hình 4. Màn hình chờ khi đang Blast

so sánh trình tự, trình tự tương đồng

Hình 5.1. Phần đầu kết quả sau khi BLAST xong

Phần bên trên thể hiện các thông tin về trình tự nhập vào, bao gồm ID và độ dài. Lưu ý là kết quả so sánh này chỉ tồn tại trong một thời gian (36 h), nên nếu bạn có lưu trang lại mà sau đó không còn kết quả thì cũng dễ hiểu.

Graphic Summary. Thang màu thể hiện mức độ tương đồng của một trình tự trong CSDL và trình tự đem so sánh (query): màu đen thể hiện số bases tương đồng dưới 40, tăng dần đến trên 200 bases tương đồng thể hiện bằng màu đỏ.

Khi trỏ vào mỗi trình tự từ thứ 2 trở đi sẽ là thông tin về trình tự trong CSDL tương đồng với trình tự đem BLAST; bấm vào Aligment sẽ dẫn tới phần so sánh trình tự nu của 2 mạch (đề cập sau)

Các kết quả được liệt kê theo thứ tự giảm dần về sự tương đồng.

Descriptions: xem các mô tả về tất cả các trình tự có mức độ tương đồng.

Hình 5.2. Mô tả các thông số BLAST của từng bản ghi

Max score là điểm cao nhất khi BLAST trình tự truy vấn với CSDL, ứng với đoạn tương đồng nhất (dài nhất) giữa 2 trình tự, góp phần rất lớn vào Total score.

Total Score là tổng điểm khi BLAST, sinh ra từ những đoạn tương đồng giữa 2 trình tự. Với mỗi vùng tương đồng (lớn hơn hoặc bằng word size) thì BLAST bắt đầu tính điểm. Nếu Total score bằng Max score thì tức là chỉ có duy nhất một đoạn tương đồng; còn nếu Tatal score lớn hơn Max score thì tức là có nhiều đoạn tương đồng giữa 2 trình tự và Total score bằng tổng điểm của các đoạn ấy.

Query cover là tỉ lệ bao phủ (tính qua độ dài) của trình tự đưa vào so với trình tự tương đồng tìm thấy (hit) trong CSDL. Nếu dài bằng nhau tức là bao phủ 100%.

E value (liên quan tới Expect threshold) là mức độ giống nhau ngẫu nhiên của các đoạn tương đồng giữa 2 trình tự. E value trong BLAST sẽ tính đến cả chiều dài và thành phần đoạn tương đồng cùng với tỉ lệ phần trăm tương đồng. E value càng nhỏ tức là các hit tìm thấy càng có ý nghĩa thống kê – tính ngẫu nhiên là càng thấp. Cùng một trình tự nhưng tìm kiếm trên các CSDL khác nhau sẽ cho E khác nhau, là bởi số trình tự có sẵn (tham chiếu) trong CSDL. Tóm lại, E-value là một chỉ số đại diện cho ý nghĩa thống kê.

Identity là mức độ tương đồng giữa 2 trình tự – kết quả chúng ta mong đợi nhất khi thực hiện phép so sánh trình tự.

Trong nhiều trường hợp, chúng ta nên quan tâm nhất đến tỉ lệ bao phủ và mức độ tương đồng. Hai trình tự phải không quá ngắn, có mức độ bao phủ càng nhiều và mức tương đồng càng cao thì càng chỉ ra tính giống nhau giữa chúng.

Tiếp theo, dựa vào các bản ghi để xem gene đang so sánh có thể là gene gì hoặc có vai trò gì. Bấm vào mỗi bản ghi để thấy chức năng. Điều này là hữu ích khi chúng ta vừa giải trình tự một gene: chúng ta được gợi ý được vai trò của gene đó hoặc kiểm tra xem gene đó có đúng là gene mong muốn.

Hình 5.3. BLAST tree view

Cuối cùng tại Aligment, xem so sánh chi tiết trình tự nucleotide Query với các hit tìm thấy. Tại đây chúng ta thấy được các khác biệt nhỏ giữa hai trình tự, như mismatch, gap và vị trí tương đồng.

so sánh trình tự

Hình 5.4. So sánh Query với một hit dưới dạng trình tự nucleotide

So sánh gene tương đồng trên hai sinh vật bằng BLAST

Đầu tiên, chúng ta chỉ việc chọn Align two or more sequences. Phần tiếp theo cũng khá tương tự như trên, ta có 3 cách để đưa trình tự vào so sánh. Việc lựa chọn CSDL là không cần thiết nữa, tuy nhiên chúng ta vẫn có thể tùy chỉnh các thông số BLAST bên dưới. Kết quả so sánh 2 trình tự:

Hình 6. Graphic Summary và Dot matrix (ma trận tính điểm) khi BLAST 2 trình tự mRNA

Một vài lời khuyên khác

Đừng bất ngờ và hãy nhớ rằng chúng ta có thể không thu được cùng một kết quả khi bạn chạy blast (cùng các thông số đó) ở các thơi điểm khác nhau.

Các bản cập nhật đối với CSDL có thể làm thay đổi kết quả so sánh, ví dụ CSDL ban đầu chỉ có 100 trình tự thì giờ đây con số là 250, nên nhiều khả năng số kết quả sau blast có thể sẽ phong phú hơn.Tốt hơn là cứ thiết đặc các thông số ở dạng mặc định, chỉ khi điều đó không khả thi, hãy sử dụng những gì bạn đọc được ở đây, biết đâu lại tìm ra một kết quả phù hợp hơn.Ngoài ra, cũng không có giá trị “thần thánh” nào khẳng định kết quả mà CSDL trả cho bạn thực sự khớp với trình tự truy vấn của bạn. Để là một người dùng linh hoạt, hãy học cách tùy chỉnh các tham số mà chúng tôi thảo luận ở trên.

Nguồn tham khảo chính: NCBI BLAST help page.

iceberg (tổng hợp và trình bày)

tapchisinhhoc.com

5/5 - (4 votes)