Trần Văn Lăng
Phân viện Công nghệ thông tin tại TP Hồ Chí Minh
Tóm tắt: Việc xây dựng các ứng dụng hỗ trợ nghiên cứu và huấn luyện về sinh tin học là
vô cùng cần thiết, qua đó giúp chúng ta nhanh chóng hòa nhập với cộng đồng thế giới,
mở ra cơ hội hợp tác với các nước trong khu vực. Bài báo trình bày một số kết quả có
được trong những năm vừa qua của nhóm nhiên cứu về Sinh tin học của Phân viện Công
nghệ thông tin tại TP.Hồ Chí Minh. Bài báo gồm ba phần, phần thứ nhất trình bày một số
bài toán cơ bản về Sinh tin hoc như: thiết kế mồi, tìm các enzym cắt, vẽ cây sinh loài,
chẩn đoán cấu trúc protein, Phần thứ hai trình bày những kết quả hiện thực các bài
toán trên vào trong ứng dụng Sinh tin hoc có tên gọi HiBio của nhóm và các nghiên cứu
đang tập trung phát triển khác. Phần cuối cùng nêu một số kết luận, so sánh kết quả đạt
được so với một số phần mềm khác cùng lĩnh vực. Đồng thời nêu lên một số kiến nghị.
11 trang |
Chia sẻ: aloso | Lượt xem: 2569 | Lượt tải: 1
Bạn đang xem nội dung tài liệu Xây dựng ứng dụng hỗ trợ phát triển sinh tin học, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
1
XÂY DỰNG ỨNG DỤNG HỖ TRỢ PHÁT TRIỂN SINH TIN HỌC
Trần Văn Lăng1
Phân viện Công nghệ thông tin tại TP Hồ Chí Minh
Tóm tắt: Việc xây dựng các ứng dụng hỗ trợ nghiên cứu và huấn luyện về sinh tin học là
vô cùng cần thiết, qua đó giúp chúng ta nhanh chóng hòa nhập với cộng đồng thế giới,
mở ra cơ hội hợp tác với các nước trong khu vực. Bài báo trình bày một số kết quả có
được trong những năm vừa qua của nhóm nhiên cứu về Sinh tin học của Phân viện Công
nghệ thông tin tại TP.Hồ Chí Minh. Bài báo gồm ba phần, phần thứ nhất trình bày một số
bài toán cơ bản về Sinh tin hoc như: thiết kế mồi, tìm các enzym cắt, vẽ cây sinh loài,
chẩn đoán cấu trúc protein,.... Phần thứ hai trình bày những kết quả hiện thực các bài
toán trên vào trong ứng dụng Sinh tin hoc có tên gọi HiBio của nhóm và các nghiên cứu
đang tập trung phát triển khác. Phần cuối cùng nêu một số kết luận, so sánh kết quả đạt
được so với một số phần mềm khác cùng lĩnh vực. Đồng thời nêu lên một số kiến nghị.
1. Mở đầu
Trong vài thập kỷ qua, sinh học phân tử đã có nhiều bước phát triển mạnh mẽ, một loạt các
công cụ ứng dụng sinh học ra đời góp phần thúc đẩy quá trình giải mã một số lượng lớn trình
tự bộ gene ở nhiều loài sinh vật. Cho đến nay, nhiều bộ gene vi khuẩn đã được giải mã gần
như hoàn toàn. Dự án giải trình tự tất cả 24 nhiễm sắc thể của bộ gene người cũng đã hoàn
thành từ cuối năm 2000. Có thể nói chưa bao giờ thông tin sinh hoc trở nên phong phú và đa
dạng như hiện nay. Để ứng phó với khối lượng thông tin đồ sộ như vậy, công nghệ thông tin
đã được ứng dụng vào sinh học một cách khá triệt để. Từ đó, một ngành khoa học hoàn toàn
mới ra đời, đó là Sinh tin hoc (Bioinformatics).
Thực chất Sinh tin hoc gắn liền với nhiều ngành khoa học khác nhau, nghiên cứu trên nhiều
lĩnh vực khác nhau. Nhằm thu thập, lưu trữ và phân tích các dữ liệu sinh học. Khi đó, vai trò
của các thuật toán, hệ thống xử lý dữ liệu, môi trường mạng hết sức quan trọng. Kết quả của
những nghiên cứu này là tạo ra các phần mềm giúp giải quyết một số vấn đề xung quanh việc
tìm hiểu về gene, protein và một số vấn đề khác liên quan đến sinh học phân tử. Những thành
tựu của lĩnh vực này hỗ trợ mạnh mẽ đến việc đưa sinh học, y học vào giải quyết của những
công việc của thực tiễn. Đặc biệt đóng góp nhiều thành tựu khoa học mới, như việc tìm ra các
giống cây trồng và vật nuôi mới cho năng suất cao; thúc đẩy nhanh quá trình chẩn đoán bệnh,
tìm ra các loại thuốc chữa bệnh mới, ... Bên cạnh đó, với khối lượng lớn dữ liệu sinh học tác
động qua lại lẫn nhau cũng đặt ra nhiều vấn đề. Chẳng hạn, bộ gene người đã được giải mã,
tuy nhiên để hiểu và sử dụng được bộ mã này cần phải có những kiến thức về cấu trúc, chức
năng của protein, từ đó mới vận dụng được những kiến thức của bộ gene vào thực tế, tác động
vào sự di truyền. Bên cạnh đó số protein trong cơ thể người gấp nhiều lần số gene. Bộ gene
được lưu giữ như nhau trong các tế bào nhưng kết quả mã hoá, biểu hiện của nó là bộ protein
trong mỗi bộ phận, tế bào lại không giống nhau. Bộ protein thay đổi theo tình trạng của tế bào
và phản ứng lại với những tác động bên ngoài. Bản đồ gene có thể ghi chép lại trong những
tài liệu in ấn, nhưng bản đồ protein không thể ghi chép. Chỉ có thể ghi lại bản đồ protein như
một tài liệu điện tử, do không phải vì quá lớn mà do sự liên lạc giữa protein này với protein
khác chỉ mang tính ước lệ và liên tục xảy ra trong sự tiến hoá ([4],[5],[6],[7],[8]).
1 Email: lang@hcmc.netnam.vn
1 Mạc Đĩnh Chi, Q1, TPHCM
2
Chính vì vậy việc đưa Tin học vào Sinh học đã và đang được quan tâm bởi hầu hết các nước
phát triển trên thế giới. Trong khu vực Châu Á, các nước như Trung Quốc, Hàn Quốc, Nhật
Bản đã có những đột phá trong lĩnh vực này. Chính phủ của họ đã huy động nguồn nhân lực
hoạt động trong các lĩnh vực khác nhau để tham gia nghiên cứu. Đặc biệt, thế giới đã có
những ngân hàng dữ liệu nổi tiếng như:
NCBI - Trung tâm Quốc gia về Thông tin Công nghệ Sinh học (National Center for
Biotechnology Information) của Mỹ [9].
EMBL - Phòng thí nghiệm Sinh học phân tử (European Molecular Biology
Laboratory) của Châu Âu [10], hoặc một phần của nó là EBI - Viện Sinh tin hoc
Châu Âu đặt ở Anh (European Bioinformatics Institute [11]).
DDBJ - Ngân hàng dữ liệu DNA, Nhật Bản (DNA Data Bank of Japan [12]).
Về phần mềm, hiện nay có khá nhiều phần mềm giúp xử lý các trình tự sinh học DNA và
Protein như: Phần mềm FastA, Blast, Cn3D, Phylip, PepTool, GeneTool, ClustalX, BioEdit,
SeqVISTA, SAGA, Primer3, PC-Genes, Discovery Studio Gene, DNASIS, DNAMAN,
VECTOR NTI, AnnHyb, DNA Club, Plasmid Processor, Oligos, v.v... Những phần mềm này
có một số chức năng:
Chuyển mã trình tự DNA sang RNA.
Hiển thị cặp trình tự chính và trình tự bắt cặp.
Tìm vị trí của một enzyme giới hạn trong một trình tự.
Vẽ bản đồ plasmid, hỗ trợ thiết kế phân tử
Tìm kiếm các đoạn mồi (primer)
So sánh mức độ tương đồng (similarity) giữa các trình tự
Vẽ cây biểu diễn mức độ tương đồng giữa các trình tự (biểu đồ dendogram)
Tìm kiếm các trình tự, các đoạn lặp (motif), các enzyme trong cơ sở dữ liệu.
Đối với Việt Nam chúng ta, lĩnh vực này cũng chỉ xuất hiện ở các viện nghiên cứu, trong một
vài trường đại học lớn, và cũng chỉ dừng lại ở trong giới nghiên cứu về Công nghệ sinh học.
Hoạt động của Khoa Công nghệ Sinh học, trường Đại học Khoa học tự nhiên TP. Hồ Chí
Minh; Viện Công nghệ sinh học, Viện Khoa học và Công nghệ Việt Nam; Trường Đại học Y
Dược TP. Hồ Chí Minh là những minh chứng.
2. Phương pháp và kết quả
2.1 Xử lý về gene và protein
Lĩnh vực Sinh tin hoc vô cùng phát triển trên thế giới. Tuy nhiên ở Việt Nam, sự tham gia của
những người làm Tin học vô cùng hiếm hoi, việc tạo ra các sản phẩm phân mềm để đưa vào
áp dụng không thấy có. Phân
viện Công nghệ thông tin tại
TP. Hồ Chí Minh, trong những
năm qua đã hợp tác với một số
nhà nghiên cứu của Viện Công
nghệ Sinh học; của
NCBI/NLM/NIH và
NIAID/NIH, đã xây dựng một
hướng nghiên cứu với hai mục
tiêu chính [1]:
Xây dựng Website về ngân hàng dữ liệu cung cấp thông tin di truyền phục vụ công
tác huấn luyện và nghiên cứu Công nghệ Sinh học.
3
Xây dựng phần mềm phục vụ việc nghiên cứu Công nghệ Sinh học để có thể xử lý và
phân tích các trình tự sinh học, qua đó nắm được nguyên lý thiết kế cũng như bước
đầu tạo ra sản phẩm phần mềm mang thương hiệu Việt Nam trong lĩnh vực Sinh tin
hoc.
Nhóm thực hiện đã tạo ra sản phẩm phần mềm với tên gọi HiBio. Sản phẩm phần mềm HiBio
này có những tính năng cần thiết cho việc tìm hiểu về sinh học phân tử. Những chức năng từ
đơn giản như kiểm tra trình tự có đúng là một trình tự sinh học DNA hay Protein không;
chuyển đổi trình tự từ DNA sang RNA, rồi sang Protein với một số bảng mã, dịch Frame khác
nhau, v.v... Bên trong phần mềm HiBio cũng có một số chức năng phức tạp hơn. Chẳng hạn,
Thiết kế mồi để hiễn thị cặp mồi tốt nhất, các đoạn mồi xuôi, các đoạn mồi ngược,
hoặc sắp xếp theo các quality;
Thiết kế bản đồ plasmid với các tính năng cần thiết ở các dạng khác nhau, trong đó
có cả việc đề xuất những enzym cắt;
Có thể sử dụng để dự đoán cấu trúc protein bậc 2, xem cấu trúc bậc 3 của một protein
nào đó;
Sử dụng để vẽ cây sinh loài theo hai dạng có gốc và không gốc;
Vấn đề tìm kiếm motif cũng được đặt ra trong HiBio;
Bên cạnh đó các sản phẩm nguồn mở như ClustalX, RasTop, Blastn cũng được tích
hợp vào hệ thống với sự bản địa hóa cao.
Phần mềm HiBio là tập hợp gồm các module chương trình độc lập, trong đó mỗi module thực
hiện một chức năng riêng như: module nhập và soạn thảo dữ liệu trình tự, module so sánh bắt
cặp trình tự, module tạo vector cắt, ...
2.1.1 Chuyển đổi trình tự
DNA động thực vật được cấu thành
chủ yếu từ 4 base cơ bản A, T, G, C, có
khả năng tạo nên 64 codon (mỗi codon
gồm 3 base), được gói gọn thành 20
amino acid. Các amino acid này lại góp
phần hình thành nên các protein đặc
trưng. Tuy nhiên, các sinh vật không
giống nhau nên sự hình thành amino
acid cũng không giống nhau. Có những
loài với codon này thì tạo nên amino
acid này nhưng đối với loài khác thì lại
là một acid amin khác. Chẳng hạn, bộ
ba (codon) “CTT” ở động vật có xương
sống hình thành nên Leucine thì ở nấm
men là Threonine. Do đó, cũng có
tương ứng nhiều bảng dịch mã khác nhau cho từng loài, từng trường hợp khác nhau. Trong hệ
thống HiBio hiện có 17 bảng dịch mã từ DNA sang Protein.
Thuật toán Six Frame, như tên gọi của nó, dựa trên nguyên lý hợp thành bộ 3 chuyển mã để
đưa ra 6 khả năng phân tích có thể. Theo đó, chúng ta có 3 frame theo chiều thuận và 3 frame
còn lại theo chiều nghịch. Chỉ 1 trong 6 frame này được xem là sản phẩm dịch mã đúng.
2.1.2 Thiết kế mồi
4
Thông thường, việc triển khai các
ứng dụng sinh học phân tử thường
vấp phải trở ngại về số lượng vật chất
di truyền cần có. Trong các phương
pháp tạo dòng phản ứng khuếch đại
trình tự (Polymerase Chain Reaction
- PCR) được sử dụng rộng rãi. Nhưng
để thực hiện được phương pháp này,
nhà sinh học cần phải biết thông tin
về trình tự cần nhân bản và từ đó phải
xác định được cần các mồi - một đoạn
DNA ngắn, có khả năng bắt cặp bổ
sung với một đầu của mạch khuôn -
bổ sung chuyên biệt nào.
Thiết kế mồi trong HiBio cho phép
thống kê có bao nhiêu đoạn mồi thoả yêu cầu người dùng và mô tả các yếu tố kỹ thuật về các
đoạn mồi đó. Từ đó, có thể thiết lập thuộc tính đoạn mồi cần tìm trong trình tự DNA thông
qua giao diện chương trình. Đoạn mồi được chọn dựa trên các thông số như:
Chiều dài đoạn mồi
Vị trí bắt cặp duy nhất
Phần trăm loại nucleotid G, C
Nhiệt độ annealing
Các đoạn mồi khó tự bắt cặp với nhau.
2.1.3 Tìm kiếm trình tự
Hai giải thuật tìm kiếm trong cơ sở dữ liệu phổ biến trên thế giới hiện nay là BLAST và FastA.
Giải thuật BLAST được đánh giá nhanh hơn và hiện đang được sử dụng rộng rãi. BLAST
(Basic Local Alignment Search Tool) là giải thuật tìm kiếm heuristic. Giải thuật này được hiện
thực qua các chương trình: blastp, blastn, blastx, tblastn và tblastx của NCBI với các chức
năng như sau:
blastp: so sánh chuỗi amino acid với cơ sở dữ liệu là các chuỗi protein
blastn: so sánh chuỗi nucleotid với cơ sở dữ liệu là các chuỗi nucleotid
blastx: so sánh biến đổi six-frame của chuỗi nucleotid với cơ sở dữ liệu protein
blastn: so sánh chuỗi protein với cơ sở dữ liệu nucleotid
tblastx: so sánh biến đổi six-frame của một chuỗi nucleotid với biến đổi six-frame
của các chuỗi trong cơ sở dữ
liệu nucleotid
Mục đích chính của việc tìm kiếm trên
cơ sở dữ liệu là tìm các gene có trong
cơ sở dữ liệu có chứa một chuỗi trình
tự cho trước. Thông thường cức năng
này được hiện thực thông qua ứng
dụng Web.
Dữ liệu trong trường hợp này là một
trình tự DNA. Từ đó, HiBio sẽ tìm
kiếm những gene đã biết có thông tin
giống hoặc tương tự với trình tự đưa
vào. Ngoài thông số chính là trình tự
5
DNA, chương trình còn nhận thêm các thông số như E (expect value), đây là giá trị mong đợi
khi so sánh; W (word) là số nucleotid trong một từ dùng đề so sánh.
2.1.4 So sánh trình tự
Khi so sánh trình tự sinh học, có hai vấn đề đặt ra, đó là việc so sánh đối xứng toàn cục và so
sánh đối xứng cục bộ. So sánh đối xứng toàn cục là quá trình so sánh đối xứng cho toàn bộ
các phần tử của hai trình tự. Mỗi một phần tử của một trình tự sẽ được so sánh đối xứng với
một phần tử của trình tự kia hoặc ứng với một ký tự trống (gap). Trong HiBioClustalX việc so
sánh đối xứng đa trình tự dựa trên cơ sở sử dụng giải thuật Needleman - Wunsch, giải thuật
này có những đặc điểm sau [1]:
Tìm so sánh đối xứng toàn cục tốt nhất giữa hai trình tự bất kỳ. Số phần tử so khớp
giữa hai trình tự lớn nhất và cho phép chèn ký tự trống.
Tất cả các phần tử của hai trình tự sẽ được sử dụng để tạo ma trận hai chiều. Mọi khả
năng so sánh đối xứng đều có thể biểu diễn thông qua ma trận này
Khác với giải thuật so sánh đối xứng toàn cục, giải thuật so sánh đối xứng cục bộ chỉ thực
hiện việc so sánh đối xứng trên một số phần của các trình tự được so sánh. So sánh đối xứng
cục bộ có ý nghĩa sinh học hơn so
sánh toàn cục vì thông thường
không phải tất cả các phần tử trong
trình tự tham gia vào việc xác định
đặc tính sinh học của trình tự. Giải
thuật so sánh đối xứng cục bộ
thường được sử dụng hiện nay là
Smith-Waterman. Các bước của
giải thuật Smith-Waterman tương
tự như các bước của giải thuật
Needleman - Wunsch.
Chức năng so sánh này nằm trong
module HiBioClustalX - là phiên
bản được hiện thực trên cơ sở phần mềm ClustalX 1.83. Công dụng của chương trình cho
phép nhập và so sánh các đoạn trình tự hoặc các tập tin so sánh dạng fasta, phylip, v.v...
2.1.5 Xác định enzym cắt giới hạn
Enzyme giới hạn (RE) là loại
enzyme có khả năng thuỷ giải
DNA mạch đôi ở các vị trí xác
định. Một số vấn đề sau đây của
công nghệ sinh học liên quan đến
enzyme cắt giới hạn:
Quá trình phân tích trình
tự chỉ thực hiện lần lượt
với từng đoạn ngắn, vì
vậy cần phải cắt bộ gene
khổng lồ ra thành những
phần nhỏ.
Phân định các đoạn gene
chính xác nhằm phục vụ
6
cho việc nhân bản các đoạn gene với số lượng lớn để cấy ghép, phục vụ ngành y
dược, nghiên cứu biểu hiện gene, tạo các gene bảo vệ cho các vi khuẩn có ích, ...
Lập bản đồ enzyme cắt giới hạn để các nhà sinh học có thể phân tích và nhận biết
đúng các vùng gene quan tâm.
Enzyme cắt giới hạn có đặc tính cơ bản là khả năng nhận biết và cắt một trình tự xác định trên
DNA. Các điểm mà có tác động của enzyme được gọi là điểm cắt giới hạn. Mỗi enzyme nhận
biết một trình tự nucleotide đặc trưng. Các trình tự này thường bao gồm 4 - 8 nucleotide. Các
RE khác nhau có cùng một trình tự nhận biết được gọi là các isoschizomers. Còn với một số
RE, trình tự nhận biết không có tính chuyên biệt tuyệt đối vì nó nhận diện các vùng trình tự có
dạng đặc trưng (trong đó các một số vị trí có thể là bất cứ ký tự nào cũng được) không hoàn
toàn là một chuỗi duy nhất. Chức năng tìm enzyme cắt trong HiBio cho phép xác định các
điểm cắt trong các đoạn trình tự nhập vào bằng cách so trùng với cơ sở dữ liệu các enzyme cắt
giới hạn thông dụng. Kết quả trả về mô tả vị trí cắt trên trình tự này, tên của các enzym và
dạng cắt của chúng (thẳng hay chéo).
2.1.6 Thiết kế Plasmid
Đây cũng là một chức năng quan
trọng trong quá trình nghiên cứu
sông nghệ sinh học. Thiết kế
Plasmid trong HiBio thể hiện cho cả
DNA thẳng và tròn, trên cơ sở định
nghĩa các điểm cắt giới hạn
(restriction site), các gene và vị trí tạo
dòng đa năng (multiple cloning site).
2.1.7 Dự đoán cấu trúc bậc hai
Dự đoán cấu trúc protein là một
trong những nhiệm vụ quan trọng,
nhằm xây dựng cơ sở dữ liệu
protein, phục vụ cho việc tìm hiểu chức năng và ý nghĩa của các protein, hiểu được bản chất
của sự sống từ đó cải thiện môi trường sống. Tìm ra cấu trúc protein thông qua quá trình phân
tích thực nghiệm đòi hỏi nhiều thời gian và công sức. Nhiệm vụ quan trọng của Sinh tin hoc
là giúp dự đoán cấu trúc protein từ một chuỗi các amino acid đã biết hình thành nên protein
đó. Tuy nhiên các phương pháp dự đoán
cấu trúc protein hiện vẫn chưa thể có độ
chính xác tuyệt đối. Tỉ lệ chính xác của
các phương pháp chẩn đoán cấu trúc
protein hiện nay vẫn chưa vượt quá con
số 80%. Việc tìm hiểu chức năng của
protein thường dựa vào cấu trúc bậc ba
của protein đó. Tuy nhiên, việc áp dụng
các phương pháp thí nghiệm hoá lý để
tìm ra cấu trúc bậc ba của protein vẫn
còn gặp nhiều khó khăn và phức tạp. Do
đó, đa số các phương pháp xác định cấu
trúc bậc ba của một protein phải trải qua
một bước trung gian quan trọng là xác
định cấu trúc bậc hai của protein đó. Việc xác định được cấu trúc bậc hai của protein sẽ làm
tăng thêm độ chính xác trong việc xác định cấu trúc bậc ba lên từ 25 cho đến 50 phần trăm.
7
Phương pháp thí nghiệm hoá lý được sử dụng để xác định cấu trúc bậc hai protein cũng gặp
nhiều khó khăn và tốn kém thời gian. Chính những khó khăn này đã thúc đẩy các nhà nghiên
cứu tìm cách chẩn đoán cấu trúc bậc hai của các protein mới dựa trên cấu trúc bậc hai của
những protein đã biết. Nhiều thuật toán khác nhau được phát triển như thuật toán sử dụng hệ
chuyên gia, sử dụng các lý thuyết về đồ thị, sử dụng các phương pháp thống kê, thuật toán
người láng giềng gần nhất, sử dụng mạng neural, ...
Để giải quyết bài toán trên, phương pháp thông thường là chia chuỗi amino acid thành nhiều
đoạn, mỗi đoạn là một cửa sổ chứa từ 13 đến 21 amino acid. Các amino acid trong cùng một
cửa sổ sẽ có cấu trúc bậc 2 giống nhau. Khi đó bài toán được đơn giản hóa từ việc chẩn đoán
cấu trúc bậc 2 của mỗi amino acid trong protein thành việc chẩn đoán cấu trúc bậc 2 của một
amino acid trung tâm trong mỗi cửa sổ nói trên. Sau đó xây dựng mô hình để ánh xạ từ các
cửa sổ amino acid trong chuỗi sang trạng thái cấu trúc bậc 2 tương ứng.
Độ chính xác của kỹ thuật dự đoán cấu trúc bậc 2 của protein được cải tiến đáng kể sau khi áp
dụng mạng neural nhân tạo để huấn luyện quá trình chẩn đoán. Mạng sau khi được huấn luyện
sẽ được ghi nhớ để chuẩn bị dự đoán
cấu trúc bậc 2 của các chuỗi protein
mới. Mạng neural thường được xây
dựng trên 3 lớp và áp dụng với số
lượng lớn thông tin để tăng độ chi tiết
của thông tin huấn luyện, nhằm tăng độ
chính xác của giải thuật dự đoán. Độ
chính xác của phương pháp dự đoán
cấu trúc bậc 2 sử dụng mạng neural
hiện là 78%.
2.1.8 Tìm Motif
Motif được phân thành 2 loại. Thứ nhất
là motif trình tự (sequence motif), đây
là một đoạn trình tự đặc trưng được tìm
thấy ở 2 hay nhiều trình tự. Bản thân nó đại diện cho chức năng, cấu trúc hoặc thành viên
trong họ. Các motif có thể được tìm thấy ở DNA, RNA, và Protein. Thứ hai là motif cấu trúc
(structural motif), là một nhóm cấu trúc gần kề nhau kết hợp lại tạo thành một cấu trúc 3D
chuyên biệt, còn được gọi là siêu cấu trúc bậc 2.
2.2 Ngân hàng dữ liệu Sinh
tin hoc
Ngoài ra, nhóm thực hiện cũng
đã xây dựng một website Sinh
tin hoc đặt tại địa chỉ
Nhằm cung cấp những phần
mềm do nhóm xây dựng và cả
những phần mềm khác do
nhóm thu thập được trên
Internet. Tại website này cũng
có thể sử dụng để tìm kiếm các
trình tự sinh học như một số
website hiện có trên thế giới.
8
Đặc biệt có thể thực hiện một số chức như vẽ plasmid, thiết kế mồi, v.v... ngay trên giao diện
của web browser.
Mô hình dữ liệu được thiết kế để lưu trữ các thông tin nucleotide của nhiều loài sinh vật. Cơ
sở dữ liệu hiện nay chứa thông tin các loài: tôm sú (Penaeus monodon), cá ba sa (Pangasius),
cây lúa nước (Oryza sativa), và muỗi gây bệnh sốt rét (Anopheles gambiae). Khi đó, hệ thống
thu thập một cách tự động để cập nhật vào ngân hàng dữ liệu và thông qua các công cụ như
FastA, Blast để tìm kiếm một đoạn gene nào đó.
PDB là một trong những cơ sở dữ liệu sinh học phân tử đầu tiên trên thế giới được thành lập
trước cả những cơ sở dữ liệu DNA. Kể từ khi cấu trúc protein đầu tiên được công bố năm
1950 thì mãi đến những năm 1970 thế giới vẫn không có một sự biến động nào đáng kể về số
lượng cấu trúc protein. Năm 1971, PDB được thành lập ở Brookhaven National Laboratory.
Nhiệm vụ chính của PDB là lưu trữ dữ liệu cấu trúc protein trên máy tính [17]. Một định dạng
dữ liệu chuẩn được PDB phát triển đó là dạng tập tin .pdb. Hiện nay, cơ sở dữ liệu PDB lên
đến 34065 cấu trúc (cập nhật ngày 06/12/2005, theo nguồn Hệ
thống thiết kế nhằm đáp ứng việc lưu trữ dữ liệu trong tập tin pdb hỗ trợ cho thao tác tìm
kiếm thông tin.
2.3 Bài toán Sinh tin hoc trên môi trường tính toán lưới
Trên thế giới cũng có nhiều dự án về tính toán lưới (Grid Computing) liên quan đến Sinh tin
hoc. Chẳng hạn, các dự án sau đây của những trung tâm nghiên cứu lớn.
myGrid của UK e-Science được hỗ trợ các trường đại học Anh, Viện Sinh tin hoc
Châu Âu (EBT) và nhiều phòng thí nghiệm công nghiệp lớn trên thế giới. Dự án
nhằm xây dựng các phần mềm dạng Middleware để giải quyết các bài toán Sinh học
[13].
Dự án BioGrid Project of Indiana University, USA với tên gọi “Bioinformatics data
and compute grids for bioscientists” được thực hiện từ 12/2002 đến 11/2006. Nhằm
qua đó tạo môi trường tính toán lưới cho các nhà nghiên cứu Sinh học. Cũng tại Đại
học Indiana này có dự án 1 triệu USD thực hiện trong 4 năm nhằm xây dựng mạng
lưới tính toán với tên gọi “An e-Science Grid for Indiana University” [14].
Đề án North Carolina BioGrid nhằm nghiên cứu và hiện thực các công nghệ mạng
lưới phục vụ cho các nhà nghiên cứu, đào tạo có điều kiện nghiên cứu cơ chế bộ
gene [15].
Khu vực Châu á Thái Bình dương, có sáng kiến “Asia Pacific BioGrid” nhằm tạo ra
ảnh của cơ sở dữ liệu phân tán phát triển từ các khuôn mẫn của dự án DataGrid [16].
Trong nước việc triển khai các bài toán sinh học trên hệ thống tính toán lưới hoàn toàn mới
mẽ. Nhóm thực hiện đã triển khai “Tính toán lưới trong việc giải quyết một số vấn đề của tin
sinh học”, với Bioinformatics Grid Portal đặt tại địa chỉ Hệ
thống Grid của Phân viện Công nghệ thông tin tại TPHCM cũng đã kết nối với hệ thống Grid
của KISTI (Korea Institute of Science and Technology Information) trong hệ thống K*Grid
của Hàn Quốc.
3. So sánh và đánh giá với một sốn phần mềm khác
3.1 Về Plasmid
Một số so sánh với các phần mềm thiết kế Plasmid được xem là khá hiệu quả hiện nay.
Phần mềm
STT Chức năng HiBio SimVector Visual Cloning
1 Tự vẽ Plasmid khi không có nội dung đoạn DNA Có Có Có
9
2 Nhập Plasmid từ tập tin DNA Có Có Có
3 Nhập Plasmid từ tập tin mô tả cấu trúc gen Không Không Có
4 Thêm bớt và hiển thị các enzym cắt trong đoạn gen Có Có Có
5 Hiển thị các đoạn mã tương ứng khi nhấp vào thành phần trong hình vẽ Có Có Không
6 Tương tác và kéo dãn các nhãn đã thiết kế trên plasmid Có Có Có
7 Sửa màu sắc, hình dạng và nhãn của các thành phần đã thêm vào Có Có Có
8 Chèn, xóa sửa đoạn mới hoặc đoạn mã DNA vào plasmid Có Có Có
9 Chèn, xóa sửa đoạn đã được đánh dấu trên plasmid Có Có Có
10 Chuyển đổi hình dạng tròn và thẳng Có Có Có
11 Tạo đoạn mã vẽ Plasmid trên web Có Không Không
12 Xuất Plasmid ra tập tin lưu trữ Có Có Có
3.2 Chuyển đổi trình tự
Trong những phần mềm chuyển đổi trình tự Biology WorkBench, Molecular Toolkit, exPASy
và HiBio, đều có khả năng phân tích và cho ra các kết quả ORF (Open Reading Frame) như
nhau đối với gene cây lúa (Oryza sativa) và bảng mã chuẩn. Trong đó, duy nhất Biology
WorkBench có hỗ trợ việc chọn lọc ra ORF dài nhất.
Tuy nhiên, trong 4 công cụ dịch mã trên, chỉ có chương trình HiBio và công cụ trên web của
ExPASy là có xem xét đến các khả năng khác ngoài acid amin M (Met). Chẳng hạn, chương
trình HiBio cho ra hai kết quả ORF dài nhất khác nhau đối với L (Leu) và M (Met) trong kết
quả phân tích từ Frame +3. Từ đó cho thấykết quả của ORF bắt đầu bằng acid amin L như
trên là dài nhất và có khả năng là protein nhiều nhất.
3.3 Tìm Enzym cắt
Qua nhiều thử nghiệm, chức năng tìm các Enzym cắt có một số ưu và khuyết điểm sau đây,
ưu điểm:
Có giao diện trực quan tốt khi hiển thị kết quả xác định các điểm cắt giới hạn. Cho
phép được dễ dàng chọn lọc các enzyme cắt giới hạn cần xét.
Có báo cáo thống kê đầy đủ thông tin về các điểm cắt, vị trí cắt, số lượng, … theo
thứ tự và từng khía cạnh quan tâm.
Cho phép cắt lưu hình ảnh kết quả.
Kết quả chính xác cho việc tìm kiếm điểm cắt.
Khuyết điểm:
Kết quả hiển thị chưa đẹp bằng một số phần mềm thương mại như VectorNTI,
GeneTool, PepTool, ...
Cơ sở dữ liệu về enzyme chưa thực sự đầy đủ và cần thiết.
3.4 Dự đoán cấu trúc protein bậc 2
Kết quả dự đoán được đánh giá dựa trên công thức Q3 với tập mẫu protein có kết quả thực
nghiệm là CASP3. Công thức Q3 đánh giá xác suất chuẩn đoán đúng đối với lớp cấu trúc bậc
hai i ∈ C theo công thức sau:
10
100*%
i
icpred
Ci N
N
Q =∈
trong đó Ni là số lượng các axít amin được chẩn đoán thuộc lớp cấu trúc bậc hai i, còn Nic là
số lượng các axít amin trong số Ni axít amin trên được chẩn đoán đúng. Xác xuất chẩn đoán
đúng đối với cả ba lớp cấu trúc bậc hai {E, H, C-L} được tính theo công thức sau:
100* 3
LHE
LcHcEc
NNN
NNNQ ++
++=
Kết quả thực nghiệm trên bộ dữ liệu mẫu CASP3 cho thấy chức năng của phần mềm có khả
năng dự đoán tương đối tốt so với các phương pháp khác như bảng sau:
Phần mềm Q3
HiBio 73.4%
PhD 66.7%
JPred 72.4%
DSC 67.3
Qua các thực nghiệm kiểm chứng, chức năng dự đoán của chương trình có những ưu điểm sau:
Dự đoán có kết quả khá tốt so với các công cụ thong dụng hiện nay.
Có giao diện trực quan, rất dễ quan sát và sao lưu lại cho các báo cáo.
Khiếm khuyết hiện tại của chức năng là chưa thể dự đoán chính xác đủ tám loại cấu trúc của
từng axit amin.
4. Kết luận
Trên thế giới, Sinh tin hoc là một lĩnh vực tương đối phát triển, nhưng với Việt Nam chúng ta,
lĩnh vực này cũng chỉ xuất hiện ở các viện nghiên cứu hoặc các trường đại học lớn. Đặc biệt,
việc tạo ra các sản phẩm phân mềm để đưa vào áp dụng lại vô cùng ít ỏi. HiBio là một trong
những sản phẩm đáp ứng yêu cầu đặt ra của những nghiên cứu và huấn luyện sinh học phân tử.
Tuy nhiên, để hoàn thiện và có những kết quả khả quan hơn, chắc chắn cần phải có những
nghiên cứu chuyên sâu. Với kết quả bước đầu, nhóm thực hiện đang kết hợp với các nhà
nghiên cứu của viện NIAID/NIH (National Institute of Allergy and Infectious
Diseases/National Institutes of Health, USA) để xây dựng dự án hoàn thiện phần mềm
PCBioInf. Qua hội thảo, nhóm nghiên cứu mong muốn những người làm tin học cần tập trung
nhiều hơn nữa cho những sản phẩm dạng này. Đẩy nhanh hơn nữa các hoạt động tính toán
khoa học tại TPHCM.
Tài liệu tham khảo
[1] Trần Văn Lăng, et al., Xây dựng ứng dụng hỗ trợ phát triển tin sinh học, Hội thảo quốc
gia lần VIII về CNTT và TT, Hải Phòng, 8/2005.
[2] Trần Văn Lăng, et al. , Một số kết quả trong nghiên cứu và ứng dụng, triển khai tin sinh
học, Hội nghị Khoa học kỹ niệm 30 năm Viện Khoa học và Công nghệ Việt Nam, Hà
Nội, 5/2005.
[3] Trần Văn Lăng và cộng sự, Nghiên cứu để xây dựng công cụ tin học xử lý thông tin về
gene và protein, Đề tài cấp Viện Khoa học và Công nghệ Việt Nam, 2003 – 2004.
[4] Dao Van Tuyet, Le Phuoc Loc, et al., Vietnamese tool for studying on Bioinformatics,
Workshop on Computational Biology: "From sequence to function", HCMC, September
2004.
11
[5] Le Phuoc Loc, Tran Van Lang, Ngo Phuoc Hau, Some common methods for protein
structure prediction, Workshop on Computational Biology: "From sequence to
function", HCMC, September 2004.
[6] Dan E. Krane, Michael L. Raymer, Fundamental concepts of Bioinformatics, Benjamin
Cummings, 2003.
[7] Teresa K. Attwood, David J. Parry Smith, Introduction to Bioinformatics, Prentice Hall,
1999.
[8] Mark Gerstein, Bioinformatics introduction, Yale University Press, 2002.
[9] Peter Clote, Rolf Backofen, Computational Molecular Biology, An Introduction, John
Wiley & Sons, 2000.
[10] Ian Korf, Mark Yandell, Josept BedelL, BLAST, O’reilly, 2003.
[11] Jean Michel Claverie, Cedric Notredame, Bioinformatics for dummies, Wiley Pulishing,
Inc., 2003.
[12] NCBI - National Center for Biotechnology Information, .
[13] EMBL - European Molecular Biology Laboratory,
[14] EBI - European Bioinformatics Institute,
[15] DDBJ - DNA Data Bank of Japan,
[16] myGrid của UK e-Science - Engineering and Physics for Science Reearch Council,
[17] The North Carolina BioGrid project,
[18] BITS - Bioinformatics Resources,
[19] Asia Pacific BioGRID Initiative,
[20] PDB - Protein Data Bank,
BUILDING THE APPLICATIONS FOR SUPPORT TO DEVELOP THE
BIOINFORMATICS
Tran Van Lang
HCMC Institute of Information Technology
Abstract: The building the applications support the research and training on bioinformatics is
very essential. Since then we can fall in line with the world on bioinformatics, and create the
chance for the cooperation with other countries. In this paper we present some of the results of
the bioinformatics research group, HCMC Institute of Information Technology in the last
years. The paper consist three the part. In the first part, we consider the fundamental problems
for analysis the biology sequence: primer design, restriction enzyme determination, protein
structure prediction, inferring phylogenies, etc. In the second part, we introduce to our
bioinformatics software HiBio and some of fields that bioinformatics research group are
studying. In the final part, we present the conclusion and petition.
Các file đính kèm theo tài liệu này:
- Xây dựng ứng dụng hỗ trợ phát triển sinh tin học.pdf