Xây dựng ứng dụng hỗ trợ phát triển sinh tin học

Trần Văn Lăng Phân viện Công nghệ thông tin tại TP Hồ Chí Minh Tóm tắt: Việc xây dựng các ứng dụng hỗ trợ nghiên cứu và huấn luyện về sinh tin học là vô cùng cần thiết, qua đó giúp chúng ta nhanh chóng hòa nhập với cộng đồng thế giới, mở ra cơ hội hợp tác với các nước trong khu vực. Bài báo trình bày một số kết quả có được trong những năm vừa qua của nhóm nhiên cứu về Sinh tin học của Phân viện Công nghệ thông tin tại TP.Hồ Chí Minh. Bài báo gồm ba phần, phần thứ nhất trình bày một số bài toán cơ bản về Sinh tin hoc như: thiết kế mồi, tìm các enzym cắt, vẽ cây sinh loài, chẩn đoán cấu trúc protein, Phần thứ hai trình bày những kết quả hiện thực các bài toán trên vào trong ứng dụng Sinh tin hoc có tên gọi HiBio của nhóm và các nghiên cứu đang tập trung phát triển khác. Phần cuối cùng nêu một số kết luận, so sánh kết quả đạt được so với một số phần mềm khác cùng lĩnh vực. Đồng thời nêu lên một số kiến nghị.

11 trang | Chia sẻ: aloso | Lượt xem: 3021 | Lượt tải: 1Free

Bạn đang xem nội dung tài liệu Xây dựng ứng dụng hỗ trợ phát triển sinh tin học, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

1 XÂY DỰNG ỨNG DỤNG HỖ TRỢ PHÁT TRIỂN SINH TIN HỌC Trần Văn Lăng1 Phân viện Công nghệ thông tin tại TP Hồ Chí Minh Tóm tắt: Việc xây dựng các ứng dụng hỗ trợ nghiên cứu và huấn luyện về sinh tin học là vô cùng cần thiết, qua đó giúp chúng ta nhanh chóng hòa nhập với cộng đồng thế giới, mở ra cơ hội hợp tác với các nước trong khu vực. Bài báo trình bày một số kết quả có được trong những năm vừa qua của nhóm nhiên cứu về Sinh tin học của Phân viện Công nghệ thông tin tại TP.Hồ Chí Minh. Bài báo gồm ba phần, phần thứ nhất trình bày một số bài toán cơ bản về Sinh tin hoc như: thiết kế mồi, tìm các enzym cắt, vẽ cây sinh loài, chẩn đoán cấu trúc protein,.... Phần thứ hai trình bày những kết quả hiện thực các bài toán trên vào trong ứng dụng Sinh tin hoc có tên gọi HiBio của nhóm và các nghiên cứu đang tập trung phát triển khác. Phần cuối cùng nêu một số kết luận, so sánh kết quả đạt được so với một số phần mềm khác cùng lĩnh vực. Đồng thời nêu lên một số kiến nghị. 1. Mở đầu Trong vài thập kỷ qua, sinh học phân tử đã có nhiều bước phát triển mạnh mẽ, một loạt các công cụ ứng dụng sinh học ra đời góp phần thúc đẩy quá trình giải mã một số lượng lớn trình tự bộ gene ở nhiều loài sinh vật. Cho đến nay, nhiều bộ gene vi khuẩn đã được giải mã gần như hoàn toàn. Dự án giải trình tự tất cả 24 nhiễm sắc thể của bộ gene người cũng đã hoàn thành từ cuối năm 2000. Có thể nói chưa bao giờ thông tin sinh hoc trở nên phong phú và đa dạng như hiện nay. Để ứng phó với khối lượng thông tin đồ sộ như vậy, công nghệ thông tin đã được ứng dụng vào sinh học một cách khá triệt để. Từ đó, một ngành khoa học hoàn toàn mới ra đời, đó là Sinh tin hoc (Bioinformatics). Thực chất Sinh tin hoc gắn liền với nhiều ngành khoa học khác nhau, nghiên cứu trên nhiều lĩnh vực khác nhau. Nhằm thu thập, lưu trữ và phân tích các dữ liệu sinh học. Khi đó, vai trò của các thuật toán, hệ thống xử lý dữ liệu, môi trường mạng hết sức quan trọng. Kết quả của những nghiên cứu này là tạo ra các phần mềm giúp giải quyết một số vấn đề xung quanh việc tìm hiểu về gene, protein và một số vấn đề khác liên quan đến sinh học phân tử. Những thành tựu của lĩnh vực này hỗ trợ mạnh mẽ đến việc đưa sinh học, y học vào giải quyết của những công việc của thực tiễn. Đặc biệt đóng góp nhiều thành tựu khoa học mới, như việc tìm ra các giống cây trồng và vật nuôi mới cho năng suất cao; thúc đẩy nhanh quá trình chẩn đoán bệnh, tìm ra các loại thuốc chữa bệnh mới, ... Bên cạnh đó, với khối lượng lớn dữ liệu sinh học tác động qua lại lẫn nhau cũng đặt ra nhiều vấn đề. Chẳng hạn, bộ gene người đã được giải mã, tuy nhiên để hiểu và sử dụng được bộ mã này cần phải có những kiến thức về cấu trúc, chức năng của protein, từ đó mới vận dụng được những kiến thức của bộ gene vào thực tế, tác động vào sự di truyền. Bên cạnh đó số protein trong cơ thể người gấp nhiều lần số gene. Bộ gene được lưu giữ như nhau trong các tế bào nhưng kết quả mã hoá, biểu hiện của nó là bộ protein trong mỗi bộ phận, tế bào lại không giống nhau. Bộ protein thay đổi theo tình trạng của tế bào và phản ứng lại với những tác động bên ngoài. Bản đồ gene có thể ghi chép lại trong những tài liệu in ấn, nhưng bản đồ protein không thể ghi chép. Chỉ có thể ghi lại bản đồ protein như một tài liệu điện tử, do không phải vì quá lớn mà do sự liên lạc giữa protein này với protein khác chỉ mang tính ước lệ và liên tục xảy ra trong sự tiến hoá ([4],[5],[6],[7],[8]). 1 Email: [email protected] 1 Mạc Đĩnh Chi, Q1, TPHCM 2 Chính vì vậy việc đưa Tin học vào Sinh học đã và đang được quan tâm bởi hầu hết các nước phát triển trên thế giới. Trong khu vực Châu Á, các nước như Trung Quốc, Hàn Quốc, Nhật Bản đã có những đột phá trong lĩnh vực này. Chính phủ của họ đã huy động nguồn nhân lực hoạt động trong các lĩnh vực khác nhau để tham gia nghiên cứu. Đặc biệt, thế giới đã có những ngân hàng dữ liệu nổi tiếng như: NCBI - Trung tâm Quốc gia về Thông tin Công nghệ Sinh học (National Center for Biotechnology Information) của Mỹ [9]. EMBL - Phòng thí nghiệm Sinh học phân tử (European Molecular Biology Laboratory) của Châu Âu [10], hoặc một phần của nó là EBI - Viện Sinh tin hoc Châu Âu đặt ở Anh (European Bioinformatics Institute [11]). DDBJ - Ngân hàng dữ liệu DNA, Nhật Bản (DNA Data Bank of Japan [12]). Về phần mềm, hiện nay có khá nhiều phần mềm giúp xử lý các trình tự sinh học DNA và Protein như: Phần mềm FastA, Blast, Cn3D, Phylip, PepTool, GeneTool, ClustalX, BioEdit, SeqVISTA, SAGA, Primer3, PC-Genes, Discovery Studio Gene, DNASIS, DNAMAN, VECTOR NTI, AnnHyb, DNA Club, Plasmid Processor, Oligos, v.v... Những phần mềm này có một số chức năng: Chuyển mã trình tự DNA sang RNA. Hiển thị cặp trình tự chính và trình tự bắt cặp. Tìm vị trí của một enzyme giới hạn trong một trình tự. Vẽ bản đồ plasmid, hỗ trợ thiết kế phân tử Tìm kiếm các đoạn mồi (primer) So sánh mức độ tương đồng (similarity) giữa các trình tự Vẽ cây biểu diễn mức độ tương đồng giữa các trình tự (biểu đồ dendogram) Tìm kiếm các trình tự, các đoạn lặp (motif), các enzyme trong cơ sở dữ liệu. Đối với Việt Nam chúng ta, lĩnh vực này cũng chỉ xuất hiện ở các viện nghiên cứu, trong một vài trường đại học lớn, và cũng chỉ dừng lại ở trong giới nghiên cứu về Công nghệ sinh học. Hoạt động của Khoa Công nghệ Sinh học, trường Đại học Khoa học tự nhiên TP. Hồ Chí Minh; Viện Công nghệ sinh học, Viện Khoa học và Công nghệ Việt Nam; Trường Đại học Y Dược TP. Hồ Chí Minh là những minh chứng. 2. Phương pháp và kết quả 2.1 Xử lý về gene và protein Lĩnh vực Sinh tin hoc vô cùng phát triển trên thế giới. Tuy nhiên ở Việt Nam, sự tham gia của những người làm Tin học vô cùng hiếm hoi, việc tạo ra các sản phẩm phân mềm để đưa vào áp dụng không thấy có. Phân viện Công nghệ thông tin tại TP. Hồ Chí Minh, trong những năm qua đã hợp tác với một số nhà nghiên cứu của Viện Công nghệ Sinh học; của NCBI/NLM/NIH và NIAID/NIH, đã xây dựng một hướng nghiên cứu với hai mục tiêu chính [1]: Xây dựng Website về ngân hàng dữ liệu cung cấp thông tin di truyền phục vụ công tác huấn luyện và nghiên cứu Công nghệ Sinh học. 3 Xây dựng phần mềm phục vụ việc nghiên cứu Công nghệ Sinh học để có thể xử lý và phân tích các trình tự sinh học, qua đó nắm được nguyên lý thiết kế cũng như bước đầu tạo ra sản phẩm phần mềm mang thương hiệu Việt Nam trong lĩnh vực Sinh tin hoc. Nhóm thực hiện đã tạo ra sản phẩm phần mềm với tên gọi HiBio. Sản phẩm phần mềm HiBio này có những tính năng cần thiết cho việc tìm hiểu về sinh học phân tử. Những chức năng từ đơn giản như kiểm tra trình tự có đúng là một trình tự sinh học DNA hay Protein không; chuyển đổi trình tự từ DNA sang RNA, rồi sang Protein với một số bảng mã, dịch Frame khác nhau, v.v... Bên trong phần mềm HiBio cũng có một số chức năng phức tạp hơn. Chẳng hạn, Thiết kế mồi để hiễn thị cặp mồi tốt nhất, các đoạn mồi xuôi, các đoạn mồi ngược, hoặc sắp xếp theo các quality; Thiết kế bản đồ plasmid với các tính năng cần thiết ở các dạng khác nhau, trong đó có cả việc đề xuất những enzym cắt; Có thể sử dụng để dự đoán cấu trúc protein bậc 2, xem cấu trúc bậc 3 của một protein nào đó; Sử dụng để vẽ cây sinh loài theo hai dạng có gốc và không gốc; Vấn đề tìm kiếm motif cũng được đặt ra trong HiBio; Bên cạnh đó các sản phẩm nguồn mở như ClustalX, RasTop, Blastn cũng được tích hợp vào hệ thống với sự bản địa hóa cao. Phần mềm HiBio là tập hợp gồm các module chương trình độc lập, trong đó mỗi module thực hiện một chức năng riêng như: module nhập và soạn thảo dữ liệu trình tự, module so sánh bắt cặp trình tự, module tạo vector cắt, ... 2.1.1 Chuyển đổi trình tự DNA động thực vật được cấu thành chủ yếu từ 4 base cơ bản A, T, G, C, có khả năng tạo nên 64 codon (mỗi codon gồm 3 base), được gói gọn thành 20 amino acid. Các amino acid này lại góp phần hình thành nên các protein đặc trưng. Tuy nhiên, các sinh vật không giống nhau nên sự hình thành amino acid cũng không giống nhau. Có những loài với codon này thì tạo nên amino acid này nhưng đối với loài khác thì lại là một acid amin khác. Chẳng hạn, bộ ba (codon) “CTT” ở động vật có xương sống hình thành nên Leucine thì ở nấm men là Threonine. Do đó, cũng có tương ứng nhiều bảng dịch mã khác nhau cho từng loài, từng trường hợp khác nhau. Trong hệ thống HiBio hiện có 17 bảng dịch mã từ DNA sang Protein. Thuật toán Six Frame, như tên gọi của nó, dựa trên nguyên lý hợp thành bộ 3 chuyển mã để đưa ra 6 khả năng phân tích có thể. Theo đó, chúng ta có 3 frame theo chiều thuận và 3 frame còn lại theo chiều nghịch. Chỉ 1 trong 6 frame này được xem là sản phẩm dịch mã đúng. 2.1.2 Thiết kế mồi 4 Thông thường, việc triển khai các ứng dụng sinh học phân tử thường vấp phải trở ngại về số lượng vật chất di truyền cần có. Trong các phương pháp tạo dòng phản ứng khuếch đại trình tự (Polymerase Chain Reaction - PCR) được sử dụng rộng rãi. Nhưng để thực hiện được phương pháp này, nhà sinh học cần phải biết thông tin về trình tự cần nhân bản và từ đó phải xác định được cần các mồi - một đoạn DNA ngắn, có khả năng bắt cặp bổ sung với một đầu của mạch khuôn - bổ sung chuyên biệt nào. Thiết kế mồi trong HiBio cho phép thống kê có bao nhiêu đoạn mồi thoả yêu cầu người dùng và mô tả các yếu tố kỹ thuật về các đoạn mồi đó. Từ đó, có thể thiết lập thuộc tính đoạn mồi cần tìm trong trình tự DNA thông qua giao diện chương trình. Đoạn mồi được chọn dựa trên các thông số như: Chiều dài đoạn mồi Vị trí bắt cặp duy nhất Phần trăm loại nucleotid G, C Nhiệt độ annealing Các đoạn mồi khó tự bắt cặp với nhau. 2.1.3 Tìm kiếm trình tự Hai giải thuật tìm kiếm trong cơ sở dữ liệu phổ biến trên thế giới hiện nay là BLAST và FastA. Giải thuật BLAST được đánh giá nhanh hơn và hiện đang được sử dụng rộng rãi. BLAST (Basic Local Alignment Search Tool) là giải thuật tìm kiếm heuristic. Giải thuật này được hiện thực qua các chương trình: blastp, blastn, blastx, tblastn và tblastx của NCBI với các chức năng như sau: blastp: so sánh chuỗi amino acid với cơ sở dữ liệu là các chuỗi protein blastn: so sánh chuỗi nucleotid với cơ sở dữ liệu là các chuỗi nucleotid blastx: so sánh biến đổi six-frame của chuỗi nucleotid với cơ sở dữ liệu protein blastn: so sánh chuỗi protein với cơ sở dữ liệu nucleotid tblastx: so sánh biến đổi six-frame của một chuỗi nucleotid với biến đổi six-frame của các chuỗi trong cơ sở dữ liệu nucleotid Mục đích chính của việc tìm kiếm trên cơ sở dữ liệu là tìm các gene có trong cơ sở dữ liệu có chứa một chuỗi trình tự cho trước. Thông thường cức năng này được hiện thực thông qua ứng dụng Web. Dữ liệu trong trường hợp này là một trình tự DNA. Từ đó, HiBio sẽ tìm kiếm những gene đã biết có thông tin giống hoặc tương tự với trình tự đưa vào. Ngoài thông số chính là trình tự 5 DNA, chương trình còn nhận thêm các thông số như E (expect value), đây là giá trị mong đợi khi so sánh; W (word) là số nucleotid trong một từ dùng đề so sánh. 2.1.4 So sánh trình tự Khi so sánh trình tự sinh học, có hai vấn đề đặt ra, đó là việc so sánh đối xứng toàn cục và so sánh đối xứng cục bộ. So sánh đối xứng toàn cục là quá trình so sánh đối xứng cho toàn bộ các phần tử của hai trình tự. Mỗi một phần tử của một trình tự sẽ được so sánh đối xứng với một phần tử của trình tự kia hoặc ứng với một ký tự trống (gap). Trong HiBioClustalX việc so sánh đối xứng đa trình tự dựa trên cơ sở sử dụng giải thuật Needleman - Wunsch, giải thuật này có những đặc điểm sau [1]: Tìm so sánh đối xứng toàn cục tốt nhất giữa hai trình tự bất kỳ. Số phần tử so khớp giữa hai trình tự lớn nhất và cho phép chèn ký tự trống. Tất cả các phần tử của hai trình tự sẽ được sử dụng để tạo ma trận hai chiều. Mọi khả năng so sánh đối xứng đều có thể biểu diễn thông qua ma trận này Khác với giải thuật so sánh đối xứng toàn cục, giải thuật so sánh đối xứng cục bộ chỉ thực hiện việc so sánh đối xứng trên một số phần của các trình tự được so sánh. So sánh đối xứng cục bộ có ý nghĩa sinh học hơn so sánh toàn cục vì thông thường không phải tất cả các phần tử trong trình tự tham gia vào việc xác định đặc tính sinh học của trình tự. Giải thuật so sánh đối xứng cục bộ thường được sử dụng hiện nay là Smith-Waterman. Các bước của giải thuật Smith-Waterman tương tự như các bước của giải thuật Needleman - Wunsch. Chức năng so sánh này nằm trong module HiBioClustalX - là phiên bản được hiện thực trên cơ sở phần mềm ClustalX 1.83. Công dụng của chương trình cho phép nhập và so sánh các đoạn trình tự hoặc các tập tin so sánh dạng fasta, phylip, v.v... 2.1.5 Xác định enzym cắt giới hạn Enzyme giới hạn (RE) là loại enzyme có khả năng thuỷ giải DNA mạch đôi ở các vị trí xác định. Một số vấn đề sau đây của công nghệ sinh học liên quan đến enzyme cắt giới hạn: Quá trình phân tích trình tự chỉ thực hiện lần lượt với từng đoạn ngắn, vì vậy cần phải cắt bộ gene khổng lồ ra thành những phần nhỏ. Phân định các đoạn gene chính xác nhằm phục vụ 6 cho việc nhân bản các đoạn gene với số lượng lớn để cấy ghép, phục vụ ngành y dược, nghiên cứu biểu hiện gene, tạo các gene bảo vệ cho các vi khuẩn có ích, ... Lập bản đồ enzyme cắt giới hạn để các nhà sinh học có thể phân tích và nhận biết đúng các vùng gene quan tâm. Enzyme cắt giới hạn có đặc tính cơ bản là khả năng nhận biết và cắt một trình tự xác định trên DNA. Các điểm mà có tác động của enzyme được gọi là điểm cắt giới hạn. Mỗi enzyme nhận biết một trình tự nucleotide đặc trưng. Các trình tự này thường bao gồm 4 - 8 nucleotide. Các RE khác nhau có cùng một trình tự nhận biết được gọi là các isoschizomers. Còn với một số RE, trình tự nhận biết không có tính chuyên biệt tuyệt đối vì nó nhận diện các vùng trình tự có dạng đặc trưng (trong đó các một số vị trí có thể là bất cứ ký tự nào cũng được) không hoàn toàn là một chuỗi duy nhất. Chức năng tìm enzyme cắt trong HiBio cho phép xác định các điểm cắt trong các đoạn trình tự nhập vào bằng cách so trùng với cơ sở dữ liệu các enzyme cắt giới hạn thông dụng. Kết quả trả về mô tả vị trí cắt trên trình tự này, tên của các enzym và dạng cắt của chúng (thẳng hay chéo). 2.1.6 Thiết kế Plasmid Đây cũng là một chức năng quan trọng trong quá trình nghiên cứu sông nghệ sinh học. Thiết kế Plasmid trong HiBio thể hiện cho cả DNA thẳng và tròn, trên cơ sở định nghĩa các điểm cắt giới hạn (restriction site), các gene và vị trí tạo dòng đa năng (multiple cloning site). 2.1.7 Dự đoán cấu trúc bậc hai Dự đoán cấu trúc protein là một trong những nhiệm vụ quan trọng, nhằm xây dựng cơ sở dữ liệu protein, phục vụ cho việc tìm hiểu chức năng và ý nghĩa của các protein, hiểu được bản chất của sự sống từ đó cải thiện môi trường sống. Tìm ra cấu trúc protein thông qua quá trình phân tích thực nghiệm đòi hỏi nhiều thời gian và công sức. Nhiệm vụ quan trọng của Sinh tin hoc là giúp dự đoán cấu trúc protein từ một chuỗi các amino acid đã biết hình thành nên protein đó. Tuy nhiên các phương pháp dự đoán cấu trúc protein hiện vẫn chưa thể có độ chính xác tuyệt đối. Tỉ lệ chính xác của các phương pháp chẩn đoán cấu trúc protein hiện nay vẫn chưa vượt quá con số 80%. Việc tìm hiểu chức năng của protein thường dựa vào cấu trúc bậc ba của protein đó. Tuy nhiên, việc áp dụng các phương pháp thí nghiệm hoá lý để tìm ra cấu trúc bậc ba của protein vẫn còn gặp nhiều khó khăn và phức tạp. Do đó, đa số các phương pháp xác định cấu trúc bậc ba của một protein phải trải qua một bước trung gian quan trọng là xác định cấu trúc bậc hai của protein đó. Việc xác định được cấu trúc bậc hai của protein sẽ làm tăng thêm độ chính xác trong việc xác định cấu trúc bậc ba lên từ 25 cho đến 50 phần trăm. 7 Phương pháp thí nghiệm hoá lý được sử dụng để xác định cấu trúc bậc hai protein cũng gặp nhiều khó khăn và tốn kém thời gian. Chính những khó khăn này đã thúc đẩy các nhà nghiên cứu tìm cách chẩn đoán cấu trúc bậc hai của các protein mới dựa trên cấu trúc bậc hai của những protein đã biết. Nhiều thuật toán khác nhau được phát triển như thuật toán sử dụng hệ chuyên gia, sử dụng các lý thuyết về đồ thị, sử dụng các phương pháp thống kê, thuật toán người láng giềng gần nhất, sử dụng mạng neural, ... Để giải quyết bài toán trên, phương pháp thông thường là chia chuỗi amino acid thành nhiều đoạn, mỗi đoạn là một cửa sổ chứa từ 13 đến 21 amino acid. Các amino acid trong cùng một cửa sổ sẽ có cấu trúc bậc 2 giống nhau. Khi đó bài toán được đơn giản hóa từ việc chẩn đoán cấu trúc bậc 2 của mỗi amino acid trong protein thành việc chẩn đoán cấu trúc bậc 2 của một amino acid trung tâm trong mỗi cửa sổ nói trên. Sau đó xây dựng mô hình để ánh xạ từ các cửa sổ amino acid trong chuỗi sang trạng thái cấu trúc bậc 2 tương ứng. Độ chính xác của kỹ thuật dự đoán cấu trúc bậc 2 của protein được cải tiến đáng kể sau khi áp dụng mạng neural nhân tạo để huấn luyện quá trình chẩn đoán. Mạng sau khi được huấn luyện sẽ được ghi nhớ để chuẩn bị dự đoán cấu trúc bậc 2 của các chuỗi protein mới. Mạng neural thường được xây dựng trên 3 lớp và áp dụng với số lượng lớn thông tin để tăng độ chi tiết của thông tin huấn luyện, nhằm tăng độ chính xác của giải thuật dự đoán. Độ chính xác của phương pháp dự đoán cấu trúc bậc 2 sử dụng mạng neural hiện là 78%. 2.1.8 Tìm Motif Motif được phân thành 2 loại. Thứ nhất là motif trình tự (sequence motif), đây là một đoạn trình tự đặc trưng được tìm thấy ở 2 hay nhiều trình tự. Bản thân nó đại diện cho chức năng, cấu trúc hoặc thành viên trong họ. Các motif có thể được tìm thấy ở DNA, RNA, và Protein. Thứ hai là motif cấu trúc (structural motif), là một nhóm cấu trúc gần kề nhau kết hợp lại tạo thành một cấu trúc 3D chuyên biệt, còn được gọi là siêu cấu trúc bậc 2. 2.2 Ngân hàng dữ liệu Sinh tin hoc Ngoài ra, nhóm thực hiện cũng đã xây dựng một website Sinh tin hoc đặt tại địa chỉ Nhằm cung cấp những phần mềm do nhóm xây dựng và cả những phần mềm khác do nhóm thu thập được trên Internet. Tại website này cũng có thể sử dụng để tìm kiếm các trình tự sinh học như một số website hiện có trên thế giới. 8 Đặc biệt có thể thực hiện một số chức như vẽ plasmid, thiết kế mồi, v.v... ngay trên giao diện của web browser. Mô hình dữ liệu được thiết kế để lưu trữ các thông tin nucleotide của nhiều loài sinh vật. Cơ sở dữ liệu hiện nay chứa thông tin các loài: tôm sú (Penaeus monodon), cá ba sa (Pangasius), cây lúa nước (Oryza sativa), và muỗi gây bệnh sốt rét (Anopheles gambiae). Khi đó, hệ thống thu thập một cách tự động để cập nhật vào ngân hàng dữ liệu và thông qua các công cụ như FastA, Blast để tìm kiếm một đoạn gene nào đó. PDB là một trong những cơ sở dữ liệu sinh học phân tử đầu tiên trên thế giới được thành lập trước cả những cơ sở dữ liệu DNA. Kể từ khi cấu trúc protein đầu tiên được công bố năm 1950 thì mãi đến những năm 1970 thế giới vẫn không có một sự biến động nào đáng kể về số lượng cấu trúc protein. Năm 1971, PDB được thành lập ở Brookhaven National Laboratory. Nhiệm vụ chính của PDB là lưu trữ dữ liệu cấu trúc protein trên máy tính [17]. Một định dạng dữ liệu chuẩn được PDB phát triển đó là dạng tập tin .pdb. Hiện nay, cơ sở dữ liệu PDB lên đến 34065 cấu trúc (cập nhật ngày 06/12/2005, theo nguồn Hệ thống thiết kế nhằm đáp ứng việc lưu trữ dữ liệu trong tập tin pdb hỗ trợ cho thao tác tìm kiếm thông tin. 2.3 Bài toán Sinh tin hoc trên môi trường tính toán lưới Trên thế giới cũng có nhiều dự án về tính toán lưới (Grid Computing) liên quan đến Sinh tin hoc. Chẳng hạn, các dự án sau đây của những trung tâm nghiên cứu lớn. myGrid của UK e-Science được hỗ trợ các trường đại học Anh, Viện Sinh tin hoc Châu Âu (EBT) và nhiều phòng thí nghiệm công nghiệp lớn trên thế giới. Dự án nhằm xây dựng các phần mềm dạng Middleware để giải quyết các bài toán Sinh học [13]. Dự án BioGrid Project of Indiana University, USA với tên gọi “Bioinformatics data and compute grids for bioscientists” được thực hiện từ 12/2002 đến 11/2006. Nhằm qua đó tạo môi trường tính toán lưới cho các nhà nghiên cứu Sinh học. Cũng tại Đại học Indiana này có dự án 1 triệu USD thực hiện trong 4 năm nhằm xây dựng mạng lưới tính toán với tên gọi “An e-Science Grid for Indiana University” [14]. Đề án North Carolina BioGrid nhằm nghiên cứu và hiện thực các công nghệ mạng lưới phục vụ cho các nhà nghiên cứu, đào tạo có điều kiện nghiên cứu cơ chế bộ gene [15]. Khu vực Châu á Thái Bình dương, có sáng kiến “Asia Pacific BioGrid” nhằm tạo ra ảnh của cơ sở dữ liệu phân tán phát triển từ các khuôn mẫn của dự án DataGrid [16]. Trong nước việc triển khai các bài toán sinh học trên hệ thống tính toán lưới hoàn toàn mới mẽ. Nhóm thực hiện đã triển khai “Tính toán lưới trong việc giải quyết một số vấn đề của tin sinh học”, với Bioinformatics Grid Portal đặt tại địa chỉ Hệ thống Grid của Phân viện Công nghệ thông tin tại TPHCM cũng đã kết nối với hệ thống Grid của KISTI (Korea Institute of Science and Technology Information) trong hệ thống K*Grid của Hàn Quốc. 3. So sánh và đánh giá với một sốn phần mềm khác 3.1 Về Plasmid Một số so sánh với các phần mềm thiết kế Plasmid được xem là khá hiệu quả hiện nay. Phần mềm STT Chức năng HiBio SimVector Visual Cloning 1 Tự vẽ Plasmid khi không có nội dung đoạn DNA Có Có Có 9 2 Nhập Plasmid từ tập tin DNA Có Có Có 3 Nhập Plasmid từ tập tin mô tả cấu trúc gen Không Không Có 4 Thêm bớt và hiển thị các enzym cắt trong đoạn gen Có Có Có 5 Hiển thị các đoạn mã tương ứng khi nhấp vào thành phần trong hình vẽ Có Có Không 6 Tương tác và kéo dãn các nhãn đã thiết kế trên plasmid Có Có Có 7 Sửa màu sắc, hình dạng và nhãn của các thành phần đã thêm vào Có Có Có 8 Chèn, xóa sửa đoạn mới hoặc đoạn mã DNA vào plasmid Có Có Có 9 Chèn, xóa sửa đoạn đã được đánh dấu trên plasmid Có Có Có 10 Chuyển đổi hình dạng tròn và thẳng Có Có Có 11 Tạo đoạn mã vẽ Plasmid trên web Có Không Không 12 Xuất Plasmid ra tập tin lưu trữ Có Có Có 3.2 Chuyển đổi trình tự Trong những phần mềm chuyển đổi trình tự Biology WorkBench, Molecular Toolkit, exPASy và HiBio, đều có khả năng phân tích và cho ra các kết quả ORF (Open Reading Frame) như nhau đối với gene cây lúa (Oryza sativa) và bảng mã chuẩn. Trong đó, duy nhất Biology WorkBench có hỗ trợ việc chọn lọc ra ORF dài nhất. Tuy nhiên, trong 4 công cụ dịch mã trên, chỉ có chương trình HiBio và công cụ trên web của ExPASy là có xem xét đến các khả năng khác ngoài acid amin M (Met). Chẳng hạn, chương trình HiBio cho ra hai kết quả ORF dài nhất khác nhau đối với L (Leu) và M (Met) trong kết quả phân tích từ Frame +3. Từ đó cho thấykết quả của ORF bắt đầu bằng acid amin L như trên là dài nhất và có khả năng là protein nhiều nhất. 3.3 Tìm Enzym cắt Qua nhiều thử nghiệm, chức năng tìm các Enzym cắt có một số ưu và khuyết điểm sau đây, ưu điểm: Có giao diện trực quan tốt khi hiển thị kết quả xác định các điểm cắt giới hạn. Cho phép được dễ dàng chọn lọc các enzyme cắt giới hạn cần xét. Có báo cáo thống kê đầy đủ thông tin về các điểm cắt, vị trí cắt, số lượng, … theo thứ tự và từng khía cạnh quan tâm. Cho phép cắt lưu hình ảnh kết quả. Kết quả chính xác cho việc tìm kiếm điểm cắt. Khuyết điểm: Kết quả hiển thị chưa đẹp bằng một số phần mềm thương mại như VectorNTI, GeneTool, PepTool, ... Cơ sở dữ liệu về enzyme chưa thực sự đầy đủ và cần thiết. 3.4 Dự đoán cấu trúc protein bậc 2 Kết quả dự đoán được đánh giá dựa trên công thức Q3 với tập mẫu protein có kết quả thực nghiệm là CASP3. Công thức Q3 đánh giá xác suất chuẩn đoán đúng đối với lớp cấu trúc bậc hai i ∈ C theo công thức sau: 10 100*% i icpred Ci N N Q =∈ trong đó Ni là số lượng các axít amin được chẩn đoán thuộc lớp cấu trúc bậc hai i, còn Nic là số lượng các axít amin trong số Ni axít amin trên được chẩn đoán đúng. Xác xuất chẩn đoán đúng đối với cả ba lớp cấu trúc bậc hai {E, H, C-L} được tính theo công thức sau: 100* 3 LHE LcHcEc NNN NNNQ ++ ++= Kết quả thực nghiệm trên bộ dữ liệu mẫu CASP3 cho thấy chức năng của phần mềm có khả năng dự đoán tương đối tốt so với các phương pháp khác như bảng sau: Phần mềm Q3 HiBio 73.4% PhD 66.7% JPred 72.4% DSC 67.3 Qua các thực nghiệm kiểm chứng, chức năng dự đoán của chương trình có những ưu điểm sau: Dự đoán có kết quả khá tốt so với các công cụ thong dụng hiện nay. Có giao diện trực quan, rất dễ quan sát và sao lưu lại cho các báo cáo. Khiếm khuyết hiện tại của chức năng là chưa thể dự đoán chính xác đủ tám loại cấu trúc của từng axit amin. 4. Kết luận Trên thế giới, Sinh tin hoc là một lĩnh vực tương đối phát triển, nhưng với Việt Nam chúng ta, lĩnh vực này cũng chỉ xuất hiện ở các viện nghiên cứu hoặc các trường đại học lớn. Đặc biệt, việc tạo ra các sản phẩm phân mềm để đưa vào áp dụng lại vô cùng ít ỏi. HiBio là một trong những sản phẩm đáp ứng yêu cầu đặt ra của những nghiên cứu và huấn luyện sinh học phân tử. Tuy nhiên, để hoàn thiện và có những kết quả khả quan hơn, chắc chắn cần phải có những nghiên cứu chuyên sâu. Với kết quả bước đầu, nhóm thực hiện đang kết hợp với các nhà nghiên cứu của viện NIAID/NIH (National Institute of Allergy and Infectious Diseases/National Institutes of Health, USA) để xây dựng dự án hoàn thiện phần mềm PCBioInf. Qua hội thảo, nhóm nghiên cứu mong muốn những người làm tin học cần tập trung nhiều hơn nữa cho những sản phẩm dạng này. Đẩy nhanh hơn nữa các hoạt động tính toán khoa học tại TPHCM. Tài liệu tham khảo [1] Trần Văn Lăng, et al., Xây dựng ứng dụng hỗ trợ phát triển tin sinh học, Hội thảo quốc gia lần VIII về CNTT và TT, Hải Phòng, 8/2005. [2] Trần Văn Lăng, et al. , Một số kết quả trong nghiên cứu và ứng dụng, triển khai tin sinh học, Hội nghị Khoa học kỹ niệm 30 năm Viện Khoa học và Công nghệ Việt Nam, Hà Nội, 5/2005. [3] Trần Văn Lăng và cộng sự, Nghiên cứu để xây dựng công cụ tin học xử lý thông tin về gene và protein, Đề tài cấp Viện Khoa học và Công nghệ Việt Nam, 2003 – 2004. [4] Dao Van Tuyet, Le Phuoc Loc, et al., Vietnamese tool for studying on Bioinformatics, Workshop on Computational Biology: "From sequence to function", HCMC, September 2004. 11 [5] Le Phuoc Loc, Tran Van Lang, Ngo Phuoc Hau, Some common methods for protein structure prediction, Workshop on Computational Biology: "From sequence to function", HCMC, September 2004. [6] Dan E. Krane, Michael L. Raymer, Fundamental concepts of Bioinformatics, Benjamin Cummings, 2003. [7] Teresa K. Attwood, David J. Parry Smith, Introduction to Bioinformatics, Prentice Hall, 1999. [8] Mark Gerstein, Bioinformatics introduction, Yale University Press, 2002. [9] Peter Clote, Rolf Backofen, Computational Molecular Biology, An Introduction, John Wiley & Sons, 2000. [10] Ian Korf, Mark Yandell, Josept BedelL, BLAST, O’reilly, 2003. [11] Jean Michel Claverie, Cedric Notredame, Bioinformatics for dummies, Wiley Pulishing, Inc., 2003. [12] NCBI - National Center for Biotechnology Information, . [13] EMBL - European Molecular Biology Laboratory, [14] EBI - European Bioinformatics Institute, [15] DDBJ - DNA Data Bank of Japan, [16] myGrid của UK e-Science - Engineering and Physics for Science Reearch Council, [17] The North Carolina BioGrid project, [18] BITS - Bioinformatics Resources, [19] Asia Pacific BioGRID Initiative, [20] PDB - Protein Data Bank, BUILDING THE APPLICATIONS FOR SUPPORT TO DEVELOP THE BIOINFORMATICS Tran Van Lang HCMC Institute of Information Technology Abstract: The building the applications support the research and training on bioinformatics is very essential. Since then we can fall in line with the world on bioinformatics, and create the chance for the cooperation with other countries. In this paper we present some of the results of the bioinformatics research group, HCMC Institute of Information Technology in the last years. The paper consist three the part. In the first part, we consider the fundamental problems for analysis the biology sequence: primer design, restriction enzyme determination, protein structure prediction, inferring phylogenies, etc. In the second part, we introduce to our bioinformatics software HiBio and some of fields that bioinformatics research group are studying. In the final part, we present the conclusion and petition.

Các file đính kèm theo tài liệu này:

Xây dựng ứng dụng hỗ trợ phát triển sinh tin học.pdf