Tin sinh học cơ bản – vài thao tác ban đầu với NCBI

Tin sinh học cơ bản

Tin sinh học cơ bản – vài thao tác ban đầu với NCBI

Nếu bạn đã bắt tay vào nghiên cứu một lĩnh vực nào đó của sinh học hay y học, nhiều khả năng bạn đã nghe và đã sử dụng đến các tài nguyên của NCBI. Nó mang lại gì và bạn đã biết khai thác tối ưu các thông tin sẵn có trên trang web này hay chưa? Sẽ có một loạt bài để giúp các bạn hiểu biết thêm về NCBI nhằm hỗ trợ tốt hơn trong công việc nghiên cứu, hướng đến chủ đề tin sinh học cơ bản.

NCBI là gì?

NCBI là ký tự viết tắt của The National Center for Biotechnology Information, một nhánh của  National Institutes of Health (NIH, một viện của Mỹ), được thành lập từ năm 1988.

NCBI quản lý hàng loạt cơ sở dữ liệu liên quan đến công nghệ sinh học và y sinh, và là một nguồn quan trọng đối với các dịch vụ và công cụ tin sinh học. Các cơ sở dữ liệu chính bao gồm GenBank – thông tin về các trình tự ADN, PubMed – cơ sở dữ liệu trích dẫn các tài liệu hàn lâm về y – sinh học.

Nơi đây cũng “lưu trữ” cơ sở dữ liệu về biểu hiện gen, protein, biến dị cũng như các công cụ phân tích nhiều đối tượng của sinh học. Ngoài ra còn có một mảng các tư liệu về các công bố và hợp chất hóa học. Chúng ta sẽ cùng khai thác kho dữ liệu khổng lồ này dần dần.

Giới thiệu chung về giao diện của NCBI

Truy cập trang chủ của NCBI theo đường link https://www.ncbi.nlm.nih.gov/, sẽ có giao diện như sau:

Tin sinh học cơ bản

Hình 1. Giao diện trang chủ NCBI

Ở màn hình trang chủ, thứ đập vào mắt chúng ta là “Submit”, “Research , Develop”… tuy nhiên những người dùng cơ bản chưa cần quan tâm đến những mục này. Thứ mà chúng ta cần khai thác chính là danh mục các “tài nguyên” phổ biến như chúng ta có thể thấy ở cột bên trái và bên phải. Để có thể thấy tất cả các cơ sở dữ liệu, hãy bấm vào “All database”.

Khai thác thông tin trong PubMed

Chúng ta sẽ thử khai thác cơ sở dữ liệu về các công bố y sinh học tại cơ sở dữ liệu PubMed. Tại giao diện trang chủ, bấm vào All Databases để tìm loại cơ sở dữ liệu là PubMed

PunMed, công bố khoa học

Hình 2. Hướng dẫn tìm kiếm công bố khoa học trong cơ sở dữ liệu PubMed của NCBI

Tại ô tìm kiếm, hãy gõ một từ khóa quan tâm và Enter hoặc bấm Search ngay bên cạnh. Ví dụ, mình đang quan tâm và muốn có những ý tưởng để bắt đầu một nghiên cứu về protein ức chế khối u p53, hãy vào PubMed xem người khác đã nghiên cứu gì về nó, bằng cách tìm theo từ khóa ‘p53’ và kết quả trả về là tất cả các công bố có liên quan đến p53.

Tin sinh học cơ bản

Hình 3. Phân tích các thông tin hiển thị trên trang kết quả tìm kiếm trong cơ sở dữ liệu PubMed

+ 1 – Đang tìm kiếm loại cơ sở dữ liệu là PubMed

+ 2 – Từ khóa tìm kiếm là “p53”

+ 3 – Tổng số kết quả trả về có liên quan tới từ khóa

+ 4 – Phân loại bài báo trong tất cả các kết quả trả về : thử nghiệm lâm sàng, tổng quan hoặc tùy chọn …

+ 5 – Khả năng truy cập vào bài  các bài báo, chia làm 3 mức độ xem : xem Abstract, xem Full text free hoặc xem Full text (cần đăng nhập/trả phí)

+ 6 – Thu hẹp phạm vi tìm kiếm theo thời gian công bố: 5 năm, 10  năm hoặc tùy chọn

+ 7 (Species) – chọn đối tượng nghiên cứu

+ 8 – Format của kết quả đang hiển thị trên trang (trên hình đang thể hiện dạng Summary tức Tóm tắt thông tin bài báo). Có nhiều tùy chọn khác.

+ 9 – Sắp xếp kết quả trả về trên trang này : công bố gần đây nhất, phù hợp từ khóa nhất, …

+ 10 – Số kết quả trả về trên mỗi trang (hiện tại là 20 kết quả)

+ 11 – Tên bào báo được công bố

+ 12 – Tên (các) tác giả

+ 13 – Tạp chí mà công trình này được công bố hoặc lĩnh vực nghiên cứu

+ 14 – Năm công bốbài báo

+ 15 – Số DOI (A digital object identifier (DOI) tạm dịch là mã nhận dạng đối tượng số – một chuỗi chữ và số được chỉ định bởi cơ quan đăng ký (Tổ chức Sở hữu trí tuệ Quốc tế) để xác định nội dung và cung cấp liên kết liên tục đến vị trí của nó trên Internet. Nhà xuất bản chỉ định một DOI khi bài báo được công bố và cung cấp dưới dạng điện tử.)

+ 16 – Số PMID (Số được chỉ định bởi Thư viện Y học Quốc gia NIH cho các tài liệu được lập chỉ mục trong PubMed)

+ 17 – Liệt kê các nghiên cứu liên quan cũng chứa từ khóa

+ 18 – Tìm kiếm nâng cao, cho phép tìm nhanh hơn nếu biết tên tác giả, ngày công bố, v.v… Giao diện khi lựa chọn nâng cao:

+ 19 – Đăng ký nhận thông báo các kết quả mới nhất liên quan đến từ khóa (hình )

Hình 4. Đăng ký nhận thông báo về các cập nhật các công bố về đối tượng/từ khóa đang quan tâm

Khi click chọn một bài báo trong số kết quả trả về, chúng ta được chuyển sang trang sau

Hình 5.

Tìm kiếm thông tin trình tự Nucleotide

Một ví dụ tiếp theo là cơ sở dữ liệu về trình tự ADN. Vẫn Tại giao diện trang chủ mục All Database chọn loại dữ liệu là Nucleotide. Gõ từ khóa cần tìm và Enter hoặc Search.

nucleotide, NCBI, trình tự ADN, Tin sinh học cơ bản

Hình 6. Màn hình kết quả tìm kiếm từ khóa ‘beta globin’  ở cơ sở dữ liệu Nucleotide

+ 1 – Các kết quả trả về là các bài báo liên quan đến các giới sinh vật khác nhau được phân loại riêng

+ 2 – Loại phân tử được đề cập trong tất cả các kết quả

+ 3 – Nguồn cấp dữ liệu (hầu hết là Genbank)

+ 4 – Độ dài trình tự của đoạn cần tìm kiếm

+ 5 – Lọc kết quả theo từng loài

+ 6 – Tiêu đề của tệp tin

+ 7 – Dạng phân tử DNA và kích cỡ

+ 8 – Mã số truy cập trình tự này trong GenBank

+ 9 – Xem thông tin về gen này trong GenBank, hoặc xem trình tự bằng ngôn ngữ FASTA (Hình) hoặc xem bản đồ nhiễm sắc thể chứa gen quan tâm (Hình)

Hình 7a. Trình tự của gen quan tâm được hiển thị dưới định dạng FASTA (trình tự nucleotide)

Tin sinh học cơ bản

Hình 7b. Trình tự của gen quan tâm được hiển thị dưới định dạng Graphic (bản đồ gen)

Khi click chọn vào tiêu đề tệp tin hoặc chọn xem trong GenBank đều ra kết quả như sau (ví dụ chọn bài báo đầu tiên):

Tin sinh học cơ bản

Hình 8a. Thông tin chú giải cho gen quan tâm, hiển thị trong Genbank

Kéo tiếp xuống dưới …

Tin sinh học cơ bản

Hình 8b

Tin sinh học cơ bản

Hình 8c

Nếu bấm vào phần màu xanh gạch chân sẽ tìm đến một trình tự ở dưới. Ví dụ khi bấm vào một “exon” nào đó trong phần FEATURE sẽ cho ra như hình

Tin sinh học cơ bản

Hình 8d. Thông tin chú giải cho gen quan tâm, hiển thị trong Genbank. Xem thông tin về “FEATURE” đồng thời với trình tự nucleotide.

Kéo xuống dưới nữa, từ đây xuống đến hết (//) là trình tự của gene. Chúng ta có thể sao chép trình tự nucleotide này để nghiên cứu kỹ hơn bằng các công cụ khác.

Tin sinh học cơ bản

Hình 8e. Phần cuối cùng chú giải về gen, trình tự nucleotide.

Mời các bạn tham khảo các bài hướng dẫn tiếp theo với chủ đề Tin sinh học cơ bản thông qua việc khai thác cơ sở dữ liệu khổng lồ nhưng miễn phí của NCBI.

iceberg (biên tập)

tapchisinhhoc.com

Có thể bạn quan tâm: Phần mềm xem giải phẫu 3D miễn phí

Các bệnh Chăm Sóc Răng Miệng Dinh dưỡng Sống khỏe Sức Khỏe Giới Tính Sức Khỏe Nam Giới Sức Khỏe Phụ Nữ
Samonella
Tổng quan về vi khuẩn Salmonella
Bacillus cereus
Bacillus cereus: Vi khuẩn gây ra ‘Hội chứng cơm chiên’
Mỡ và ung thư liên quan như thế nào?
Hỏi Đáp Hướng dẫn Kinh nghiệm Sáng tạo
Sinh học Campbell (Biology) bản tiếng Việt và tiếng Anh
Quy định về Thực hành tốt sản xuất thuốc và nguyên liệu làm thuốc
Ba điều ngộ nhận về giá trị p (p-value) trong thống kê sinh học
Kỹ thuật mới Phát minh khoa học Vật liệu mới
Công cụ chỉnh sửa gen mới có thể vượt trội CRISPR
10 hướng tiềm năng của công nghệ sinh học nông nghiệp
Giải trình tự ARN đơn tế bào (scRNA-seq)
Dược phẩm Giải thưởng Nobel Giáo dục Nông nghiệp Sự kiện tiêu biểu Thủy sản Y học
Nobel Y Sinh 2019 cho những phát hiện về cách tế bào cảm nhận và đáp ứng với nồng độ oxy
Các quy trình tách dòng không sử dụng các enzyme giới hạn hoặc ligase
Đột biến gen thứ hai liên quan đến tính kháng HIV