Bài giảng môn Tin sinh học

Mục tiêu của môn học: - Giới thiệu khái quát cách tìm kiếm nguồn thông tin trên Internet, phục vụ cho việc học tập, nghiên cứu, viết luận văn. - Trang bị kiến thức cơ bản và một số công cụ thông dụng của tin sinh học để: - Khai thác và xử lý các thông tin sinh học - Ứng dụng trong lĩnh vực nghiên cứu, trong phòng thí nghiệm và thực tiễn.

pdf90 trang | Chia sẻ: Tiểu Khải Minh | Ngày: 17/02/2024 | Lượt xem: 50 | Lượt tải: 0download
Bạn đang xem trước 20 trang tài liệu Bài giảng môn Tin sinh học, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
M KIẾM VÀ QUẢN LÝ TÀI LIỆU NGHIÊN CỨU 2.1. Các công cụ tìm kiếm thông tin To help protect your privacy, PowerPoint prevented this external picture from being automatically downloaded. To download and display this picture, click Options in the Message Bar, and then click Enable external content. Cuộc chiến của các search engine và thị phần tương ứng Nguyên lý hoạt động của các search engine • Web crawling Các bước tìm kiếm • Indexing • Searching Web crawling/robot/spider 1. Là một chương trình tự động duyệt qua các siêu liên kết (hyperlink) để thu thập tài liệu. Sau đó nó nhận về tất cả tài liệu có liên kết với tài liệu này. 2. Search engine điều khiển robot đi thu thập thông tin trên mạng thông qua các siêu liên kết Khi robot phát hiện ra một site mới, nó gởi địa chỉ trang web về cho server chính để tạo cơ sở dữ liệu chỉ mục phục vụ cho nhu cầu tìm kiếm thông tin. 3. Bởi vì thông tin trên mạng luôn thay đổi nên robots phải liên tục cập nhật các site cũ. Mật độ cập nhật phụ thuộc vào từng hệ thống search engine. Khi search engine nhận câu truy vấn từ user, nó sẽ tiến hành phân tích, tìm trong cơ sở dữ liệu chỉ mục & trả về những tài liệu thoả yêu cầu. Indexing • Hệ thống lập chỉ mục hay còn gọi là hệ thống phân tích và xử lý dữ liệu, thực hiện việc phân tích, trích chọn những thông tin cần thiết (thường là các từ đơn, từ ghép, cụm từ quan trọng) từ những dữ liệu mà robot thu thập được và tổ chức thành cơ sở dữ liệu riêng để có thể tìm kiếm trên đó một cách nhanh chóng, hiệu quả. • Hệ thống chỉ mục là danh sách các từ khoá, chỉ rõ các từ khoá nào xuất hiện ở trang nào, địa chỉ nào. Searching • Tìm kiếm từ là tìm kiếm các trang mà những từ trong câu truy vấn (query) xuất hiện nhiều nhất. • Ngoài chiến lược tìm chính xác theo từ khoá, các search engine còn cố gắng ‘ hiểu ‘ ý nghĩa thực sự của câu hỏi thông qua những câu chữ do người dùng cung cấp. Điều này được thể hiện qua chức năng sửa lỗi chính tả, tìm cả những hình thức biến đổi khác nhau của một từ. • Ví dụ : search engine sẽ tìm những từ như speaker, speaking, spoke khi người dùng nhập vào từ speak Cách tìm kiếm tài liệu phục vụ nghiên cứu, luận văn Cách quản lý và trích dẫn tài liệu • Lập CSDL tài liệu tham khảo • Quản lý và tìm kiếm tài liệu trong CSDL • Cách trích dẫn tài liệu • Chương trình Endnote Chương 4 • Xác định trình tự • Đăng ký trình tự vào ngân hàng gene To help protect your privacy, PowerPoint prevented this external picture from being automatically downloaded. To download and display this picture, click Options in the Message Bar, and then click Enable external content. Classical sequencing methods • Maxam-Gilber sequencing • Sanger sequencing Lắp ráp trình tự Nguyên lý của quá trình lắp ráp trình tự Các phần mềm hỗ trợ lắp ráp trình tự To help protect your privacy, PowerPoint prevented this external picture from being automatically downloaded. To download and display this picture, click Options in the Message Bar, and then click Enable external content. Next generation sequencing • 454 pyrosequencing • Illumina (Solexa) sequencing • SOLiD sequencing • Ion semiconductor sequencing • DNA nanoball sequencing • Future techniques Nguyên lý lắp ráp trình tự • Lắp ráp trình tự là sự sắp xếp và nối các mảnh trình tự DNA theo trật tự đúng để tái lập lại trình tự ban đầu của sợi DNA ban đầu. Chúng ta biết rằng một NST thực chất là một sợi DNA rất dài. Người ta phải cắt ra thành những đoạn nhỏ vừa đủ với các công nghệ xác định trình tự hiện nay (từ 200-1000 base). Những mảnh ngắn thường được gọi là “read”, là kết quả của phương pháp xác định trình tự DNA bằng phương pháp shotgun (shotgun sequencing genomic DNA) hoặc các bản phiên mã của gene (ESTs). • Các trình tự ngắn được sắp xếp theo đúng vị trí của chúng trong sợi DNA ban đầu. Cắt sợi DNA ra thành nhiều mảnh một cách ngẫu nhiên, sao cho một số mảnh có những phần chung (overlapping) để làm cơ sở cho việc sắp xếp. Nguyên lý cơ bản: gồm 3 bước • Tất cả các trình tự overlap của các cặp trình tự được xác định. • Sắp các mảnh vào những vị trí tương đối (xấp xỉ) với một hướng lựa chọn cho mỗi mảnh sao cho các đoạn trình tự overlap bây giờ được dùng để quyết định trình tự. • Căn, so sánh nhiều mảnh sử dụng kết quả bước 2 để suy diên ra trình tự gốc Phần mềm hỗ trợ lắp ráp trình tự • Các phần mềm hỗ trợ lắp ráp trình tự • CAP3 là phần mềm hỗ trợ lắp ráp dùng phổ biến ở quy mô genome nhỏ (thực hành), các công cụ khác tham khảo (wikipedia: embly). Các chương trình lắp ráp quan trọng • TIGR Assembler - Assembly program developed at the Institute for Genomic Research (TIGR). • phrap - Assembly program developed at the University of Washington. . Celera Assembler - Assembly program developed at Celera Genomics. . Arachne - Program developed at the Broad Institute of MIT, widely used in genome projects both at the Broad Institute and other research organizations. Phusion - The main workhorse for assembly at the Sanger Center, one of the leading genomic centers in the world. . Atlas - Assembly program developed at the Baylor College of Medicine. . Shotgun sequencing Shotgun sequencing Problems!!! Scaffolding techniques • Quá trình nhờ đó mà thông tin từ so sánh cặp các “read” để định hướng và sắp đặt trật tự cho các contig dọc theo NST được gọi là scaffolding. Scaffold của 3 contig (mũi tên đậm) được giữ với nhau bởi các cặp so sánh. Đường liền nối các đầu cặp đôi với nhau. Đăng ký trình tự 1/6/2019 1 CHƯƠNG 4 CƠ SỞ DỮ LIỆU SINH HỌC (Biological databases) CSDL sinh học là gì? Knowledge is unlimited → No border for database CSDL sinh học là gì? • CSDL Sinh học là các thư viện chứa thông tin về khoa học sự sống • Nguồn gốc dữ liệu: Từ các thí nghiệm khoa học, các bài báo tạp chí công trình nghiên cứu, các thí nghiệm ở quy mô lớn (high through put), kết quả xử lý số liệu, phân tích • Loại thư viện: ✓ genomics ✓ proteomics ✓ metabolomics ✓ microarray gene expression ✓ phylogenetics ✓ gene function, structure, localization ✓ clinical effects of mutations ✓ similarities of biological sequences and structures Ý nghĩa của CSDL sinh học • Là công cụ quan trọng hỗ trợ các nhà nghiên cứu hiểu và giải thích các hiện tượng sinh học, cấu trúc và sự tương tác giữa các cấu trúc phân tử, sự trao đổi chất ở tế bào, cơ thể, mối quan hệ tiến hóa loài và giữa các loài. • CDLD giúp nhà nghiên cứu có thể: ✓ Tìm thông tin ✓ Khai thác, xử lý thông tin theo mục đích nghiên cứu ✓ Phát hiện bệnh tât, phát triển các thuốc, trị liệu ✓ Điều khiển, cải biến các quá trình sinh học ✓ Tạo ra các quá trình mới, sinh vật mới mang đặc tính mong muốn Phân loại CSDL sinh học • Primary nucleotide sequence databases • Metadatabases • Genome databases • Protein sequence databases • Proteomics databases • Protein structure databases • Protein model databases • RNA databases • Carbohydrate structure databases • Protein-protein interactions • Signal transduction pathway databases • Metabolic pathway databases • Microarray databases • Exosomal databases • Mathematical model databases • PCR / real time PCR primer databases • Specialized databases • Taxonomic databases 1/6/2019 2 1. Các cơ sở dữ liệu trình tự nucleotide sơ cấp • International Nucleotide Sequence Database (INSD) ( bao gồm NCBI, EBI và DDBJ • Tất cả trình tự DNA của các SV đều tìm thấy ở 1 trong 3 ngân hàng trên. • Cả 3 CSDL này, ngoại trừ việc đăng ký trình tự có khác nhau như các dữ liệu đều được đồng bộ hóa. • 3 CSDL này là những CSDL sơ cấp, lưu trữ các dữ liệu trình tự gốc. International Nucleotide Sequence Database Collaboration 2. Metadatabases 3. Genome databases • Các CSDL này lưu trữ các trình tự genome của các sinh vật, mô tả, giải thích, phân tích và cho phép truy cập miễn phí. • Các CSDL genome có thể lữu trữ genome của 1 loài hoặc nhiều loài 3. Genome databases • SNPedia: Information about the effect of variations in DNA • CAMERA Resource for microbial genomics and metagenomics • Corn, the Maize Genetics and Genomics Database • EcoCyc a database that describes the genome and the biochemical machinery of the model organism E. coli K-12 • Ensembl provides automatic annotation databases for human, mouse, other vertebrate and eukaryote genomes. • Ensembl Genomes provides genome-scale data for bacteria, protists, fungi, plants and invertebrate metazoa, through a unified set of interactive and programmatic interfaces (using the Ensembl software platform). • Flybase, genome of the model organism Drosophila melanogaster • MGI Mouse Genome (Jackson Lab.) • JGI Genomes of the DOE-Joint Genome Institute provides databases of many eukaryote and microbial genomes. • National Microbial Pathogen Data Resource. A manually curated database of annotated genome data for the pathogens Campylobacter, Chlamydia, Chlamydophila, Haemophilus, Listeria, Mycoplasma, Neisseria, Staphylococcus, Streptococcus, Treponema, Ureaplasma, and Vibrio. • Saccharomyces Genome Database, genome of the yeast model organism. • Viral Bioinformatics Resource Center Curated database containing annotated genome data for eleven virus families. • The SEED platform for microbial genome analysis includes all complete microbial genomes, and most partial genomes. The platform is used to annotate microbial genomes using subsystems. • Xenbase, genome of the model organism Xenopus tropicalis and Xenopus laevis • Wormbase, genome of the model organism Caenorhabditis elegans • Zebrafish Information Network, genome of this fish model organism. • TAIR, The Arabidopsis Information Resource. • UCSC Malaria Genome Browser, genome of malaria causing species (Plasmodium falciparumata and others) • RGD Rat Genome Database: Genomic and phenotype data for Rattus norvegicus • INTEGRALL: Database dedicated to integrons, bacterial genetic elements involved in the antibiotic resistance • Fourmidable ant genome database provides ant genome blast search and sequence download. • VectorBase The NIAID Bioinformatics Resource Center for Invertebrate Vectors of Human Pathogens 1/6/2019 3 4. Protein sequence databases • UniProt: Universal Protein Resource (UniProt Consortium: EBI, Expasy, PIR) • PIR: Protein Information Resource (Georgetown University Medical Center (GUMC)) • Swiss-Prot: Protein Knowledgebase (Swiss Institute of Bioinformatics) • PEDANT Protein Extraction, Description and ANalysis Tool (Forschungszentrum f. Umwelt & Gesundheit) • PROSITE: Database of Protein Families and Domains • DIP: Database of Interacting Proteins (Univ. of California) • Pfam: Protein families database of alignments and HMMs (Sanger Institute) 4. Protein sequence databases • PRINTS: a compendium of protein fingerprints (Manchester University) • ProDom: Comprehensive set of Protein Domain Families (INRA/CNRS) • SignalP 3.0: Server for signal peptide prediction (including cleavage site prediction), based on artificial neural networks and HMMs • SUPERFAMILY Library of HMMs representing superfamilies and database of (superfamily and family) annotations for all completely sequenced organisms • Annotation Clearing House a project from the National Microbial Pathogen Data Resource • InterPro Classifies proteins into families and predicts the presence of domains and sites. 5. Proteomics databases • Proteomics Identifications Database (PRIDE) là CSDL proteomic chứa các thông tin nhận dạng protein và peptide và thông tin về cải biến sau dịch mã 1/6/2019 4 6. Protein structure databases • Protein Data Bank (PDB) chứa: Protein DataBank in Europe (PDBe) ProteinDatabank in Japan (PDBj) Research Collaboratory for Structural Bioinformatics (RCSB) 6. Protein structure databases 7. Protein model databases • SWISS-MODEL Server and Repository for Protein Structure Models • ModBase Database of Comparative Protein Structure Models (Sali Lab, UCSF) • Protein Model Portal (PMP) Meta database that combines several databases of protein structure models (Biozentrum, Basel, Switzerland) 8. RNA databases • Rfam, a database of RNA families • mirBase, the microRNA database • snoRNAdb, a database of snoRNAs 9. Carbohydrate structure databases • EuroCarbDB: A repository for both carbohydrate sequences/structures and experimental data. 1/6/2019 5 10. Protein-protein interactions • BIND: Biomolecular Interaction Network Database • BioGRID A General Repository for Interaction Datasets (Samuel Lunenfeld Research Institute) • CCSB Interactome • DIP Database of Interacting Proteins • IntAct molecular interaction database: a central, standards-compliant repository of molecular interactions, including protein–protein, protein– small molecule and protein–nucleic acid interactions. • NetPro • STRING: a database of known and predicted protein-protein interactions. (EMBL) 11. Signal transduction pathway databases • Cancer Cell Map • Netpath: A curated resource of signal transduction pathways in humans • NCI-Nature Pathway Interaction Database • Reactome: Navigable map of human biological pathways, ranging from metabolic processes to hormonal signalling. • SignaLink Database • WikiPathways 12. Metabolic pathway databases • BioCyc Database Collection including EcoCyc and MetaCyc • KEGG PATHWAY Database (Univ. of Kyoto) • MANET database (University of Illinois) • Metabolights Metabolomics experiments and derived information: metabolite structures, reference spectra, biological roles, locations and concentrations. (European Bioinformatics Institute) • Reactome: Navigable map of human biological pathways, ranging from metabolic processes to hormonal signalling. (Cold Spring Harbor Laboratory, European Bioinformatics Institute, Gene Ontology Consortium) 12. Metabolic pathway databases • Metabolic pathways (catabolic và anabolic) : tập hợp các chuỗi phản ứng hóa học xảy ra trong tế bào (enzymes, vitamin, cofactor, các ion kim loại). • Các chuỗi phản ứng hóa học liên kết với nhau thành mạng lưới (network). • A metabolic pathway: tạo ra các sản phẩm: để dùng ngay, làm tiền chất cho các con đường khác, được dự trữ trong tế bào. 1/6/2019 6 13. UniGene • Xác định gene trong các bản transcript ở các locus. • Phân tích sự biểu hiện gene ở các mô, tuổi, tình trạng sức khỏe • Thông tin về các protein có mối liên hệ với nhau (protEST). 13. UniGene 14. UniSTS • UniSTS là một CSDL gồm các trình tự đánh dấu vị trí (sequence tagged sites) xuất phát từ các bản đồ STS và các thí nghiệm khác. • STS được xác định bởi các cặp mồi PCR và kết hợp với những thông tin về vị trí trong geome, các gene, các trình tự. 14. UniSTS 15. PubChem Substance Cung cấp thông tin về các phản ứng hóa học, sinh học. 16. Microarray databases • Chứa CSDL biểu hiện gene (microarray gene expression data) • CSDL chia thành 2 nhóm riêng biệt: Các dữ liệu được các chuyên gia thẩm định (peer reviewed): Gene Expression Omnibus (GEO) ở NCBI và ArrayExpress ở EBI. Các dữ liệu chuyên biệt: mang đặc thù phòng thí nghiệm, công ty, trường ĐH 1/6/2019 7 16. Specialized databases • Antibody Central Antibody information database and search resource. • BIOMOVIE (ETH Zurich) movies related to biology and biotechnology • CGAP Cancer Genes (National Cancer Institute) • Clone Registry Clone Collections (National Center for Biotechnology Information) • Connectivity map Transcriptional expression data and correlation tools for drugs • CTD The Comparative Toxicogenomics Database describes chemical- gene-disease interactions • DBGET H.sapiens (Univ. of Kyoto) • DiProDB A database to collect and analyse thermodynamic, structural and other dinucleotide properties. • Drug2Gene Provides integrated information for identified and reported relations between genes/proteins and drugs/compounds • Dryad a repository of data underlying scientific publications in the basic and applied biosciences. • Edinburgh Mouse Atlas • GreenPhylDB (A phylogenomic database for plant comparative genomics) • GDB Hum. Genome Db (Human Genome Organisation) • HGMD disease-causing mutations (HGMD Human Gene Mutation Database) • HUGO (Official Human Genome Database: HUGO Gene Nomenclature Committee) • HvrBase++ Human and primate mitochondrial DNA • INTERFEROME The Database of Interferon Regulated Genes • List with SNP-Databases 16. Specialized databases • Minimotif Miner -Database of short contiguous functional peptide motifs • NCBI-UniGene (National Center for Biotechnology Information) • Oncogenomic databases A compilation of databases that serve for cancer research. • OMIM Inherited Diseases (Online Mendelian Inheritance in Man) • OrthoMaM (A database of Orthologous Mammalian Markers) • p53 The p53 Knowledgebase • PhenCode linking human mutations with phenotype • PhenomicDB multi-organism database linking genotype to phenotype • Plasma Proteome Database Human plasma proteins along with their isoforms • SHMPD The Singapore Human Mutation and Polymorphism Database 16. Specialized databases • SciClyc An Open-access database to shared antibodies, cell cultures, and documents for biomedical research. • SNPSTR database A database of SNPSTRs - compound genetic markers consisting of a microsatellite (STR) and one tightly linked SNP - in human, mouse, rat, dog and chicken. • TDR Targets A chemogenomics database focused on drug discovery in tropical diseases. • TRANSFAC A database about eukaryotic transcription factors, their genomic binding sites and DNA- binding profiles. • TreeBASE An open-access database of phylogenetic trees and the data behind them • Treefam TreeFam (Tree families database) is a database of phylogenetic trees of animal genes • XTractor Discovering Newer Scientific Relations Across PubMed Abstracts. A tool to obtain manually annotated relationships for Proteins, Diseases, Drugs and Biological Processes as they get published in PubMed. 16. Specialized databases 17. Taxonomic databases • Taxonomy Database là CSDL chính xác về định tên, vị trí của sinh vật trong đã biết. • Hiện nay có khoảng 10% số loài được xác định trên hành tin này. 17. Taxonomic databases 1/6/2019 8 18. Wiki-style databases • 1.CHDwiki • 2.EcoliWiki • 3.Gene Wiki • 4.GyDB • 5.NeuroLex • 6.OpenWetWare • 7.PDBWiki • 8.Proteopedia • 9.Topsan • 10.WikiGenes • 11.WikiPathways • 12.WikiProfessional • 13.YTPdb Entrez NCBI 19. PubMed • PubMed comprises more than 22 million citations for biomedical literature from MEDLINE, life science journals, and online books. Citations may include links to full-text content from PubMed Central and publisher web sites. 19. PubMed GSS • Genome survey sequence database • The GSS database is a collection of unannotated short single-read primarily genomic sequences from GenBank including random survey sequences clone-end sequences and exon-trapped sequences. 20. dbSNP • Database of single nucleotide polymorphisms (SNPs) and multiple small-scale variations that include insertions/deletions, microsatellites, and non- polymorphic variants. • Application: Rice breeding/ SNP nanochip 1/6/2019 9 21. CDD • The Conserved Domain Database is a resource for the annotation of functional units in proteins. Its collection of domain models includes a set curated by NCBI, which utilizes 3D structure to provide insights into sequence/structure/function relationships. CDD 22. dbEST • dbEST (Nature Genetics 4:332-3;1993) is a division of GenBank that contains sequence data and other information on "single-pass" cDNA sequences, or "Expressed Sequence Tags", from a number of organisms. 23. HomoloGene • HomoloGene is a system for automated detection of homologs among the annotated genes of several completely sequenced eukaryotic genomes. 1/6/2019 10 24. SRA • The Sequence Read Archive (SRA) stores raw sequencing data from the next generation of sequencing platforms including Roche 454 GS System®, Illumina Genome Analyzer®, Applied Biosystems SOLiD® System, Helicos Heliscope®, Complete Genomics®, and Pacific Biosciences SMRT®. 25. Probe • Probe Database is a public registry of nucleic acid reagents designed for use in a wide variety of biomedical research applications, together with information on reagent distributors, probe effectiveness, and computed sequence similarities. • Giải thích probe, SNP new generation? Probe 26. DbVar • Database of genomic structural variation 27. Epigenetics • Explore, view, and download genome-wide maps of DNA and histone modifications from our diverse collection of epigenomic data sets. 1/6/2019 11 27. Epigenetics 28. OMIM • OMIM is a comprehensive, authoritative, and timely compendium of human genes and genetic phenotypes. • The full-text, referenced overviews in OMIM contain information on all known mendelian disorders and over 12,000 genes. • OMIM focuses on the relationship between phenotype and genotype. • It is updated daily, and the entries contain copious links to other genetics resources. 29. OMIA • Online Mendelian Inheritance in Animals (OMIA) is a database of genes, inherited disorders and traits in more than 135 animal species (other than human and mouse). 30. Protein cluster • This collection of related protein sequences (clusters) consists of Reference Sequence proteins encoded by complete genomes. This database contains both curated and non-curated clusters. • The Protein Clusters database provides easy access to annotation information, publications, domains, structures, and external links and analysis tools including multiple alignments, phylogenetic trees, and genomic neighborhoods (ProtMap). • Protein Clusters can be searched like any other Entrez database. 1/6/2019 12 31. Bookshelf • Bookshelf provides free access to books and documents in life science and healthcare. • A vital node in the data-rich resource network at NCBI, Bookshelf enables users to easily browse, retrieve, and read content, and spurs discovery of related information. 31. Bookshelf 32. dbGaP • The database of Genotypes and Phenotypes (dbGaP) was developed to archive and distribute the results of studies that have investigated the interaction of genotype and phenotype. 33. PMC • PMC is a free full-text archive of biomedical and life sciences journal literature at the U.S. National Institutes of Health's National Library of Medicine (NIH/NLM). • PubMed Central® (PMC) is a free archive of biomedical and life sciences journal literature at the U.S. National Institutes of Health's National Library of Medicine (NIH/NLM). In keeping with NLM’s legislative mandate to collect and preserve the biomedical literature, PMC serves as a digital counterpart to NLM’s extensive print journal collection. 1/6/2019 13 34. Popset • A PopSet is a set of DNA sequences that have been collected to analyse the evolutionary relatedness of a population. The population could originate from different members of the same species, or from organisms from different species 35. Popset • Genome assembly organization and additional information. 1/6/2019 1 CHƯƠNG 5 Dữ liệu trình tự, xác định trình tự Thế nào là xác định trình tự DNA • Xác định trình tự một đoạn DNA là quá trình xác định trật tự sắp xếp của các nucleotide trong chuỗi trình tự đó. 3 thế hệ xác định trình tự – Phương pháp hóa học của Maxam-Gilbert và tổng hợp enzyme của Sanger – Xác định trình tự tự động – xác định trình tự thế hệ mới FIRST GENERATION Maxam- Gilbert sequencing Các bước của phương pháp • Công trình công bố sau 2 năm so với phương pháp của Sanger • Quá trình gồm 6 bước 1/6/2019 2 Giới thiệu • 1976-1977, Allan Maxam và Walter Gilbert phát triển kỹ thuật xác định trình tự DNA dựa vào cải biến hóa học phân tử DNA và sau đó cắt DNA ở những nucleotide nhất định. • Mặc dù phương pháp công bố chậm hơn so với Sanger 2 năm, tuy nhiên, do giới hạn về mặt kỹ thuật tại thời điểm đó (tạo dòng các DNA sợi đơn), phương pháp của Maxam và Gilbert đã được dùng khá phổ biến. • Sau khi kỹ thuật chain-termination method ra đời, phương pháp của Maxam và Gilbert đã đi vào quá khứ do không thể áp dụng khi xác định nhiều trình tự ở quy mô lớn, sự nguy hiểm về hóa chất sử dụng và phóng xạ. 1. Tinh sạch trình tự Nhiều đoạn DNA giống nhau được tinh sạch (nguồn genome, kết hợp với sử dụng RE) 2. Gắn P phóng xạ • Đầu 5’ sẽ được gắn 32P • Enzyme phosphatase cắt nhóm phosphate, enzyme kinasse sẽ gắn nhóm phosphate đánh dấu phóng xạ 3. Chuẩn bị đoạn DNA cần xác định trình tự • Phân tử DNA sẽ được phân tách riêng rẽ thành 2 sợi. • Chỉ một sợi đánh dấu phóng xạ được giữ lại để chuẩn bị xác định trình tự Xác định các base • 4 mẫu DNA giống nhau được xử lý hóa chất – Phản ứng G: – Phản ứng C: – Phản ứng A với một số G – Phản ứng T với một số C • Chạy điện di phân tách các mảnh • Đưa lên máy đọc phóng xạ 1/6/2019 3 Sanger method Chain-termination methods • Sanger sequencing còn gọi là phản ứng xác định trình tự bằng cách kết thúc chuỗi phản ứng tổng hợp. • Phương pháp này được Frederick Sanger phát triển vào năm 1977. • Phương pháp này dựa vào việc khuếch đại một đoạn DNA bằng DNA polymerase và kết hợp với việc sử dụng một loại nucleotide đặc biệt: dideoxynucleotides. Sanger method • Hỗn hợp phản ứng: một phân tử DNA sợi đơn, primer, DNA pol, các dNTP bình thường và các nucleotide bị cải biến (ddNTP). • Các phân tử ddNTP có thể đánh dấu phóng xạ hoặc huỳnh quang • Mẫu DNA được chia thành 4 phản ứng riêng rẽ, mỗi phản ứng chứa tất cả các thành phần (dATP, dGTP, dCTP và dTTP), DNA polymerase. • Mỗi phản ứng được bổ sung 1 trong 4 loại ddNTP (ddATP, ddGTP, ddCTP, hoặc ddTTP). • Phản ứng tổng hợp được thực hiện • Sau phản ứng tổng hợp, mỗi ống phản ứng được điện di phân tách các băng. Các băng DNA có thể được quan sát bằng phóng xạ trên phim nhạy với tia X. • Vị trí của các băng sẽ được đọc từ cuối cùng lên trên→ suy ra trình tự DNA. 1/6/2019 4 Dye-terminator sequencing Automated DNA sequencing Nguyên lý • Đánh dấu huỳnh quang vào ddNTPs • Mỗi ddNTP được đánh dấu bởi 1 chất phát huỳnh quang khác nhau → sau khi bị kích thích sẽ giải phóng huỳnh quang ở các bước sóng khác nhau. • Dye-terminator sequencing đã được phát triển thành phương pháp xác định trình tự tự động phổ biến như ngày nay. SECOND GENERATION 1/6/2019 5 NEXT GENERATION Next generation • Roche/454 FLX Pyrosequencing (2004/5) • Illumina Solexa sequencing • Applied Biosystems SOLiDTM System (Solid sequencing) • Helicos HeliscopeTM (gần đây) • Pacific Biosciences SMRT (2010) 1/6/2019 6 Pyrosequencing • Pyrosequencing là phương pháp xác định trình tự DNA dựa trên nguyên lý tổng hợp. • Khác với Sanger sequencing ở chỗ: dựa vào việc xác định pyrophosphate giải phóng khi dNTP kết hợp vào chuỗi. • Phương pháp được Pål Nyrén và Mostafa Ronaghi ở viện nghiên cứu công nghệ hoàng gia Stockholm phát triển năm 1996. Nguyên lý Pyrosequencing Bước 1 • Một đoạn mồi được lai với một sợi DNA đơn (khuôn mẫu). • Phản ứng có sự tham gia của: – DNA polymerase, – ATP sulfurylase, – Luciferase, – Apyrase – Adenosine 5' phosphosulfate (APS): cơ chất – Luciferin. Bước 2 • Phản ứng được bắt đầu khi một loại dNTP được cho vào. • DNA pol xúc tác phản ứng kết hợp nucleotide vào chuỗi. Nếu nucleotide (dNTP) cho vào bổ sung với mạch khuôn, sẽ giải phóng pyrophosphate (Ppi). Bước 3 • ATP sulfurylase chuyển hóa PPi thành ATP với sự có mặt của adenosine 5' phosphosulfate (APS). • ATP được tạo ra sẽ giúp enzyme luciferase chuyển hóa luciferin thành oxyluciferin và tạo ra ánh sáng. Cường độ ánh sáng tỉ lệ thuận với lượng ATP. • Ánh sáng tạo ra bởi phản ứng xúc tác bởi luciferase được đo bởi một thiết bị đặc biệt (CCD), cường độ ánh sáng thu được sẽ được biểu hiện thành một đỉnh (pick), tập hợp các pick → pyrogram. • Độ cao của mỗi pick tỉ lệ với số nucleotide được gắn vào chuỗi 1/6/2019 7 Bước 4 • Apyrase, enzyme phân giải nucleotide sẽ được bổ sung vào sau mỗi phản ứng. Enzyme này có chức năng phân giải các nucleotide và ATP còn lại. • Sau khi phản ứng “dọn sạch” của Apyrase xong. Một đợt nucleotide tiếp theo lại được bổ sung vào. Các đợt nucleotide sẽ được bổ sung lần lượt đến khi phản ứng xảy ra. Bước 5 • Việc bổ sung dNTPs được thực hiện kế tiếp nhau. • Trong phản ứng của Sanger, 4 loại (dATP, dGTP, dCTP, dTTP). Pyrosequencing sử dụng dATP·S thay cho dATP. • Quá trình được thực hiện liên tục đến khi hết chuỗi DNA khuôn. Các đỉnh sẽ được ghi lại và suy diễn ra trình tự. MOVIE Illumina Solexa Nguyên lý Illumina Solexa 1/6/2019 8 Gắn DNA vào flow cell Khuếch đại nhờ cầu nối Tạo cụm DNA Sequencing by Synthesis 1/6/2019 9 MOVIE 1/6/2019 10 1/6/2019 11 SOLiD™ Sequencing Sequencing by Oligonucleotide Ligation and Detection SOLiD™ Sequencing • Giảm giá đọc từ $0.01/base vào năm 2004 xuống còn $0.0001/base vào năm 2006 • Tăng khả năng đọc từ 1,000,000 bases/máy/ngày vào năm 2004 đến hơn 5,000,000,000 bases/máy/ngày vào năm 2009. Chuẩn bị thư viện Library Preparation Emulsion PCR/Bead Enrichment Gắn hạt lên bề mặt thủy tinh (Bead Deposition) Xác định trình tự bằng cách lai (Sequencing by Ligation) 1/6/2019 12 Đổi các primer (primer reset) Độ chính xác • Phản ứng được lặp lại 5 lần với mỗi trình tự DNA. Như vậy mỗi base sẽ được kiểm tra và đọc 2 lần bởi 2 primer khác nhau. • Chẳng hạn, base ở vị trí số 5 sẽ được kiểm tra bằng primer 2 ở lần lai trong chu kỳ 2 và bởi primer 3 trong chu kỳ 1. Việc kiểm tra 2 lần sẽ tăng độ chính xác của SOLiD™ System. MOVIE Whole genome sequencing Sequence assembly • Không có kỹ thuật xác định trình tự nào có thể xác định toàn bộ trình tự của 1 đoạn DNA dài (NST, genome) • Mỗi mảnh trình tự DNA đọc được (read) thường có chiều dài từ 20 đến 1000 bp tùy thuộc vào kỹ thuật sử dụng. • Sequence assembly là quá trình sắp xếp và hòa nhập (merge) các mảnh trình tự thành trình tự DNA dài từ đó tái thiết lập lại trình tự ban đầu của NST hoặc genome. 1/6/2019 13 Ví dụ • 1 trang sách bị xé nhỏ→ khó sắp xếp lại • Mua 10 cuốn sách giống nhau→ xé thành nhiều mảnh • Nối các mảnh lại với nhau thành đoạn văn→ trang → chương→ cả cuốn sách. • Những khó khăn: nhiều đoạn văn lặp lại, nhiều mảnh bị xé vụn (trình tự quá ngắn), mất một số mảnh • STS, EST: giúp cho quá trình sắp xếp • EST: nhược điểm do alternative splicing 06/01/2019 1 CHƯƠNG 6 Genome Browsers WEBBROWSER GENOME BROWSER Genome Browsers 1. Khái niệm genome browser 2. Đặc điểm và ứng dụng của các genome browser 3. Genome browser đặc thù 4. Giới thiệu một số genome browser quan trọng Khái niệm genome browser • Internet Browser hoặc Webbrowser = Internet/Web + Browser • Genome browser = Genome + Browser • Là giao diện đồ họa cho phép: – Hiển thị thị thông tin về CSDL sinh học (genomic data) – Cho phép quan sát, quét toàn bộ genome – Cung cấp các thông tin đi kèm với hiển thị đồ họa (gene, cấu trúc, chức năng, protein do gene mã hóa, điều hòa biểu hiện gene, biến đổi về trình tự, so sánh) • Khác biệt với các CSDL sinh học ở chỗ: – Dữ liệu hiển thị bằng đồ họa – Vị trí trong genome, trên NST – Thông tin hiển thị có tọa độ (vị trí và khoảng cách của các gene) – Thông tin sinh học gắn liên với trình tự – Liên kết mạnh với nhiều CSDL liên quan Đặc điểm genome browser • Chứa CSDL genome, các bản lắp ráp, các contig • Chứa các công cụ hiển thị đồ họa: hiển thị gene và công thông tin trên bản đồ NST (vị trí, tọa độ) • Các công cụ search (tìm 1 gene trong genome, BLAT, xác định các SNP, ) • Các công cụ download (tải trình tự nucleotide genome) • Các công cụ phân tích trình tự (so sánh genome, gene, các vùng bảo thủ, chức năng, insilico-PCR) 06/01/2019 2 Ứng dụng của Genome browser • Tìm và xác định được các sinh vật đã được xác định trình tự • Hiển thị các gene, marker trên NST kèm theo thông tin mô tả về gene hoặc marker đó • Xác định được vị trí của một gene quan tâm trong genome • So sánh genome, đối chiếu vị trí (locus) của các gene trong các genome khác nhau • Xác định được các gene có mối quan hệ tiến hóa, các họ gene, các gene có cùng nguồn gốc • Xác định được các gene cùng tham gia trong một con đường chuyển hóa hoặc có liên quan với nhau Genome browser đặc thù • Là một Genome browser với các đặc điểm và công cụ cần thiết • Tập trung vào một CSDL mang tính đặc thù loài • Thông tin chi tiết về các NST, số lượng gene và sự phân bố các gene trên NST (gene đã biết và dự đoán). • Các công cụ phân tích đặc thù đi kèm Animal Browsers • 1000 Genomes A Deep Catalog of Human Genetic Variation • NONCODE genome browser. UCSC browser with special tracks for non-coding annotations. • Jim Watson genome browser at CSHL • Craig Venter genome data release • dbRIP - Retroposon Insertions Roswell Park Cancer Institute, MD • Vista Lawrence Berkeley Lab, CA • GARFIELD cat genome browser, Federick, MD • Panda genome resources • C. intestinalis: UCSC-based, Gbrowse • The JGI-browser for various species: Fugu, C.intestinalis, waterflea, sponge, amphioxus, snail, hydra, etc... • Bio2Rdf Semantic web atlas of postgenomic knowledge about human and mouse • Epigenomics Epigenomics Roadmap mirror at Washington University, St. Louis. • Eyebrowse specializing in eye tissue sequences • Aedes aegypti • Silkworm Bombyx mori, China • UNLV Las Vegas Genome Browser hosting: D. melanogaster and some plants • NRSP-8 National Animal Genome Research Program - Bioinformatics Coordination Program EnsemblPlants • Arabidopsis, rice, corn, tomato, soybean, Physcomitrella • Arabidopsis genome browser at UCLA • Arabidopsis genome browser at Dartmouth. • Arabidopsis arabidopsis.info Ensembl-based genome browser • UNLV Las Vegas Genome Browser hosting: Arabidopsis, rice, sorghum and soybean, as well as D. melanogaster • gramene.org many rice genomes and other grasses • Rice Genome Annotation Project hosts Oryza sativa browser • Rice-Map • RICE FPC Genome Browser from the Arizona Genomics Institute (AGI) • Zea mays Maize Genome Sequencing Project • Cannabis sativa Cannabis browser at U Toronto Fungi/Yeast Browsers • Saccharomyces cerevisiae database and genome browser from SGD/Stanford University • S. pombe (fission yeast) at NCI, NIH Other genome browser • Archaea browser from the Lowe Lab at UCSC • EnsemblBacteria • EnsemblProtists • Paramecium tetraurelia Genoscope, France • JPGV Jena Prokaryotic Genome Browser 06/01/2019 3 Watch movies and dicussion 1/6/2019 1 CHƯƠNG 7 CÔNG CỤ BLAST Basic local alignment search tool BLAST • Giới thiệu về BLAST • Ứng dụng BLAST • Bản chất của BLAST • Ý nghĩa và thông số của kết quả BLAST • Các biến thể của BLAST (PHI/PSI/Delta-Blast) Giới thiệu về BLAST • BLAST được Stephen Altschul, Warren Gish, Webb Miller, Eugene Myers, và David J. Lipman phát triển tại NIH. Công trình nghiên cứu được công bố trên Journal of Molecular Biology vào năm 1990. • Basic Local Alignment Search Tool/BLAST là một công cụ cho phép tìm các trình tự trong cơ sở dữ liệu giống với trình tự truy vấn dựa trên cơ sở so sánh trình tự cục bộ. Kết quả tìm được sắp xếp theo các tiêu chí điểm số (score), mức độ che phủ (query coverage), giá trị kì vọng (E-value), mức độ giống nhau (identity %). • Có nhiều loại BLAST khác nhau (tùy thuộc vào trình tự truy vấn và mục đích sử dụng). BLAST dùng để làm gì? • Tìm hiểu mối quan hệ của một trình tự protein hoặc DNA (query sequence) với các trình tự đã biết trong CSDL liệu. • (Những) loài SV nào có trình tự DNA/Protein giống với trình tự truy vấn. • Nguồn gốc của trình tự truy vấn • Trình tự protein do gene X mã hóa có chức năng gì? có những vùng hoạt động (domain), vung đặc thù (motif) gì? • Mối quan hệ tiến hóa giữa các sinh vật có các trình tự giống với trình tự truy vấn (paralog/ortholog) • Phát hiện trình tự DNA/ Protein mới BLAST dùng để làm gì? • Tìm trình tự giống với trình tự query theo phương thức căn trình tự cục bộ • Dự đoán cấu trúc: – 2D DNA/RNA, 3D Protein • Xác định các đặc điểm của sản phẩm gene: – Mw, pI, họ protein, – Vùng chức năng (motif, domain), concensus pattern • Dự đoán vị trí của sản phẩm gene – So sánh các concensus pattern • Dự đoán mối quan hệ tiến hóa • Multisequence alignment • Dự đoán gene trong genome – Các vùng exon, intron, promoter • Dự đoán các vùng điều hòa hoạt động gene • Nghiên cứu tiến hóa ở mức độ genome • Hỗ trợ lắp ráp trình tự Identical /Homology /Similarity • Nhiều người dùng 2 thuật ngữ này lẫn lộn • Similarity: đo mức độ giống nhau về trình tự • Homology: đo mối quan hệ tiến hóa dựa trên cơ sở đánh giá mức độ giống nhau giữa các trình tự • 2 trình tự có 68% Similar nhưng 2 trình tự có thể homologous hoặc không • Không có mức độ/thang để đo Homology. 2 trình tự hoặc là có mối liên hệ hoặc là không • Nếu kết luận X có 23% homologous với Y thì sai 1/6/2019 2 Bản chất của BLAST Bản chất của BLAST • Tìm các trình tự trong CSDL có cụm GTW • Mở rộng tìm kiếm cả hai phía của GTW • Đánh giá điểm số→ tiếp tục hoặc dừng lại • Ngưỡng điểm số quyết định tiếp tục hay dừng lại Mức tin cậy của BLAST • Tính toán thống kê • Giá trị E (E-value) tỉ lệ nghịch với điểm số (điểm số càng cao → giá trị E càng nhỏ) • E-value sẽ xác nhận trình tự tìm được giống với trình tự truy vấn là ngẫu nhiên hay có ý nghĩa thống kê. 4 bước BLAST • (1) Chọn trình tự truy vấn • (2) Chọn chương trình BLAST • (3) Chọn CSDL • (4) Chọn thông số (gap cost/ mismatch/matrix) • Cuối cùng click “BLAST” Biến thể của BLAST và chức năng • blastn: – Tốt: tìm các trình tự giống nhau với điểm số cao, – Không tốt: khi các trình tự có mối quan hệ xa • blastp: – Sử dụng substitution matrix để xác định khoảng cách mối quan hệ • blastx: – Áp dụng cho các trình tự DNA mới – Phân tích ESTs • tblastn: – Tìm các vùng mã hóa (Coding region) chưa xác định trong CSDL • tblastx: – Phân tích ESTs 1/6/2019 3 Nhận xét kết quả BLAST E-Value: Dừng lại e-10 Định dạng FAST cho query 1/6/2019 4 Lựa chọn chương trình BLAST Số khung đọc của 1 đoạn DNA Lựa chọn CSDL nucleotide CSDL Protein 1/6/2019 5 1/6/2019 1 CHƯƠNG 8 CÂY TIẾN HÓA & PHÂN TÍCH TIẾN HÓA Phylogenetic tree Câu hỏi 1. Tiến hóa là gì? 2. Quá trình tiến hóa là gì? 3. Loài là gì? Thế nào là dưới loài/loài phụ? 4. Quá trình phát sinh loài? 5. Nghiên cứu tiến hóa để làm gì? 6. Thế nào là cây tiến hóa? 7. Dữ liệu gì được dùng để xây dựng cây tiến hóa? 8. Đột biến nguồn dữ liệu để phân tích tiến hóa? 9. Phương pháp xây dựng cây tiến hóa? 10. Cách “đọc” cây tiến hóa? 11. Các phần mềm xây dựng cây tiến hóa? 1. Tiến hóa là gì? • The process by which different kinds of living organism are believed to have developed from earlier forms during the history of the earth. Definition of evolution in Oxford dictionary • The process by which different kinds of living organisms are thought to have developed and diversified from earlier forms during the history of the earth. Definition of evolution in US English dictionary 1. Tiến hóa là gì? 1. Evolution? • Evolution is the change in the inherited characteristics of biological populations over successive generations. • Evolution is a change in the gene pool of a population over time. 2. Quá trình tiến hóa • Quá trình tiến hóa là sự phát triển từ một nguồn gốc ban đầu tạo ra nhiều dạng khác nhau dưới các điều kiện khác nhau. • Tiến hóa là sự biến đổi nguồn gene (gene pool) trong quần thể qua các thế hệ. 1/6/2019 2 Species? • Trong sinh học, một loài là đơn vị phân loại cơ bản. • Loài là một nhóm các sinh vật có khả năng giao phối với nhau và sinh ra con cái qua nhiều thế hệ. Loài, dưới loài/loài phụ Species/subspecies/varieties • Các giống (variety) có sự khác biệt về kiểu hình với nhau nhưng vẫn có khả năng lai với nhau một cách tự do. • Thông thường sự phân cách địa lý sẽ tạo ra nhiều giống khác nhau. • Ví dụ: có nhiều giống lúa địa phương khác nhau hoặc giống lợn khác nhau • Loài phụ: có sự khác biệt với nhau từ hai hoặc nhiều đặc điểm. Có thể giao phối tạo thế hệ con cái hữu thụ nhưng trong tự nhiên thường ít xảy ra. Nguyên nhân chủ yếu là do sự cách ly địa lý dẫn đến cách li sinh sản. Ví dụ ở lúa có hai loài phụ chính: indica và japonica. 4. Quá trình phát sinh loài? • Là một quá trình dẫn đến thay đổi kiểu gene của quần thể ban đầu tạo ra kiểu gene mới cách li sinh sản với quần thể gốc – Cách li sinh sản – Cách li địa lí – Đa bội hóa – Đột biến 5. Nghiên cứu tiến hóa để làm gì? • Lịch sử phát triển của sinh giới và hệ quả của những sự kiện xảy ra trong tự nhiên • Giải thích sự đa dạng sinh giới • Mối quan hệ giữa các loài và nguồn gốc tiến hóa • Cơ chế của quá trình hình thành loài mới • Vị trí của loài trong hệ thống sinh giới • Dự đoán chiều hướng tiến hóa 6. Thế nào là cây tiến hóa? Phylogenetic tree • Phylogenetic tree/ evolution tree • Root/ Branch/ Node/ Leaf • Operational taxonomic units (OTU) • Hypothetical taxonomic unit (HTU) • Common ancester • Rooted/ unrooted tree • Descendant • Relatedness/change • Time 1/6/2019 3 Phylogenetics • Phylogenetics là khoa học nghiên cứu mối quan hệ tiến hóa giữa các loài. • Để dự đoán được mối quan hệ tiến hóa, các cây tiến hóa được xây dựng để liên kết các loài với nhau. Phylogenetic tree • Một sơ đồ tiến hóa minh họa mối quan hệ giữa các thực thể (thường là các nhóm phân loại taxon) có cùng tổ tiên chung. • Một sơ đồ cây hiển thị mối quan hệ tiến hóa giữa các nhóm sinh vật. Phylogenetic tree • Là cây tiến hóa là sơ đồ nhánh hiển thị mối quan hệ tiến hóa giữa các loài dựa vào sự giống và khác nhau về các đặc điểm vật lý hoặc di truyền. • Các taxon được kết nối với nhau thành cây xuất phát từ tổ tiên chung. Mối quan hệ/ Mức độ thay đổi Th ờ ig ia n So sánh các đặc điểm giống nhau Tại sao phải nghiên cứu mối quan hệ tiến hóa • Tìm ra mối quan hệ tiến hóa giữa các sinh vật (phân tích những biến đổi xảy ra ở các sinh vật khác nhau trong quá trình tiến hóa). • Hiểu được mối quan hệ giữa một trình tự tổ tiên và các con cháu của nó (tiến hóa phân tử, tiến hóa trình tự). • Dự đoán thời gian phân li (tách nhau ra) giữa một nhóm các sinh vật cùng chia sẻ tổ tiên chung. 1/6/2019 4 Giả thuyết về đồng hồ phân tử (Molecular clock) • Tất cả các đột biến xảy ra với cùng một tốc độ như nhau ở tất cả các nhánh của cây. • Tốc độ đột biến là như nhau ở tất cả các vị trí dọc theo chiều dài trình tự. • Giả thuyết về đồng hồ sinh học phù hợp nhất đối với các loài có mối quan hệ gần gũi. Tuy nhiên đối với các loài có mối quan hệ xa thì việc áp dụng sẽ khó thuyết phục. • Cây dưới đây mô tả mỗi loài như một chiếc lá của một nhánh xuất phát từ một điểm gọi là node (tổ tiên chung gần nhất). Mối quan hệ giữa các loài được liên hệ coi như là cành. • Chiều dài của cành thể hiện thời gian tiến hóa hoặc mức độ biến đổi của trình tự. • Các cây (a) và (b) là những cây không gốc (dạng cladogram), chúng chỉ đơn thuần biểu diễn mối quan hệ giữa các taxon (A, B, C, D) trong cây tiến hóa. Các lá cây (1, 2, 3, 4, 5) được gọi là các OTU (operation taxon unit) Các điểm bên trong (internal node) là tổ tiên chung (6, 7, 8). Cây không gốc không chỉ ra tổ tiên mà từ đó các con cháu phát sinh. • Phương pháp tạo gốc là chỉ ra tổ tiên chung mà từ đó các con cháu được phát sinh. • Gốc là tổ tiên của tất cả các loài trong cây • Có n-1 cách tạo ra cây có gốc với n là số điểm (node). Cây tiến hóa • Có 2 loại cây tiến hóa: • Cây có gốc: những cây chỉ có một điểm duy nhất mà từ đó các điểm khác được phát sinh. • Cây không có gốc: là những cây không xác định được nguồn gốc từ một điểm duy nhất làm tổ tiên ban đầu mà từ đó phát sinh ra các loài hoặc tổ tiên tiếp đó. 1/6/2019 5 Xây dựng cây tiến hóa có gốc • Để xây dựng cây tiến hóa có một điểm làm tổ tiên chung cần đưa 1 loài mới vào để phân tích chung gọi là nhóm ngoại. Nhóm ngoại phải có đặc điểm có tổ tiên chung gần nhất với tất cả các OTU có trong cây tiến hóa nhưng phải có sự khác biệt đủ lớn để tách biệt với tất cả các OTU khác. • Một dấu hiện khác biệt rất dễ dàng nhận ra giữa cây có gốc và không có gốc là sự xuất hiện nhóm ngoại. Nhóm ngoại nằm ở vị trí gốc chung của tất cả các OTUs nhưng tách riêng ra một nhánh riêng biệt. • Nếu việc tìm nhóm ngoại hoặc bổ sung nhóm ngoại rất khó thì các biện pháp khác có thể được áp dụng để xác định gốc cho một cây chẳng hạn dùng điểm giữa (midpoint) của nhánh dài nhất của cành liên tiếp gần kề. Cách này chỉ có thể áp dụng nếu cây tiến hóa tuân theo cùng một đồng hồ phân tử. 7. Dữ liệu gì được dùng để xây dựng cây tiến hóa? • Các dữ liệu hình thái • Dữ liệu sinh lý hóa sinh • Các protein, enzyme • Các đoạn DNA đa hình (microsatellite, RFLP, SSR, RAPD) • Các vùng trình tự không mã hóa (16S, 18S, ITS, LSU) • Trình tự amino acid • Trình tự nucleotide • Trình tự DNA ti thể 8. Đột biến là nguồn dữ liệu hữu ích trong phân tích tiến hóa • Đột biến, lỗi xảy ra trong quá trình sao chép và sửa chữa DNA • Chỉ những đột biến xảy ra ở tế bào mầm (germline cells) đóng vai trò quan trọng trong tiến hóa. Tuy nhiên ở một số sinh vật không có sự phân biệt giữa tế bào mầm hay tế bào soma. • Chỉ những đột biến mà được cố định trong quần thể (tồn tại ở một mức tần số allele nhất định) được gọi là sự thay thế. 1/6/2019 6 • Phương pháp phổ biến và thông dụng nhất để xây dựng cây tiến hóa là dựa vào: khoảng cách và so sánh đặc điểm ký tự • Phương pháp khoảng cách đo khoảng cách của các cặp phân tích (cặp trình tự) trên cơ sở lập ra các ma trận khoảng cách. • Phương pháp so sánh ký tự xác định tất cả các cây có thể và tìm ra một cây phù hợp nhất trong tổng số các cây có thể. 8. Phương pháp phổ biến xây dựng cây tiến hóa? Phương pháp chính sử dụng để xây dựng cây tiến hóa • Phương pháp dựa vào khoảng cách – UPGMA (unweighted pair group method with arithmetic mean) – NJ (Neighbour Joining) • Phương pháp dựa vào ký tự trình tự – Parsimony methods – Maximum likelihood • Phương pháp kiểm định cây tiến hóa – Bootstrapping – Jack Knife 1/6/2019 7 Phương pháp UGPMA • Phương pháp này được xây dựng trên cơ sở theo một quy trình sau: – Giả thuyết ban đầu mỗi loài phân bố ở một điểm (OTU) – Ghép cặp các OTU, xác định khoảng cách của mỗi cặp trên cơ sở so sánh ma trận, chọn ra cặp có khoảng cách ngắn nhất. Khoảng cách giữa hai OTU này được tính bằng trung bình khoảng cách tính từ ma trận. – Các cặp có khoảng cách ngắn nhất được ghép lại thành các OTU mới. Các OTU lại được ghép với nhau để xác định khoảng cách. Lặp lại quá trình này cho tới khi tất cả các loài được nối với nhau trong một cụm duy nhất. • Thuật toán này mang tính phân loại theo ngoại hình (phenetic), không thể hiện được thế hệ, dòng dõi và mức độ phân ly của mối quan hệ tiến hóa. Thuật toán này chấp nhận giả thuyết của đồng hồ sinh học. • Ngoài phương pháp UGPMA còn có các phương pháp WPGMA và UPGMS với thuật toán tương tự. UPGMA 6 OTU: A, B, C, D, E Tính toán các cặp OTUs với khoảng cách nhỏ nhất. A và B tách nhau 1 khoảng cách = 2. Điểm phân nhánh giữa A và B tính bằng ½ khoảng cách giữa chúng→ sơ đồ nhánh của A và B. UPGMA Các phương pháp ma trận khoảng cách • ClustalW, Phylo_win, Paup • Paupsearch, distances (GCG software package) • DNADist, PROTDist, Fitch, Kitch, Neighbor (Phylip package) UPGMA & Neighbor Joining • UPGMA và Neighbor Joining sử dụng quy trình phân tích nhóm. • Các “node” được nhóm với nhau ở mỗi bước để tạo thành một “node” mới trên cây. Quá trình này được thực hiện liên tục từ The method works by clustering nodes at each stage and then forming a new node on a tree. This process continues from the bottom of the tree and in each step a new node is added, and the tree grows upward. • The length of the branch at each step is determined by the difference in heights of the nodes at each end of the branch. • UPGMA has built in assumptions that the tree is additive and that all nodes are equally distance from the root. • UPGMA is not used much today, but gave way to a very common approach now termed “Neighbor Joining” 1/6/2019 8 Gene tree vs phylogenetic tree • Sử dụng một vài trình tự DNA/Protein → cây tiến hóa • Liệu có đủ tin cậy? Multisequence alignment → phylogenetic tree 1/6/2019 9 Cách “đọc” cây tiến hóa? Cách “đọc” cây tiến hóa? • To some biologists, use of the term "cladogram" emphasizes that the diagram represents a hypothesis about the actual evolutionary history of a group, while "phylogenies" represent true evolutionary history • To other biologists, "cladogram" suggests that the lengths of the branches in the diagram are arbitrary, while in a "phylogeny," the branch lengths indicate the amount of character change. Phylogenetic tree • A phylogenetic tree, also known as a phylogeny, is a diagram that depicts the lines of evolutionary descent of different species, organisms, or genes from a common ancestor. • Phylogenies are useful for organizing knowledge of biological diversity, for structuring classifications, and for providing insight into events that occurred during evolution Những cây sau đây là tương đương nhau 1/6/2019 10 Trong các cây sau, các nhánh bên trong thay đổi dẫn đến làm thay đổi trật tự sắp xếp của các taxa Các chương trình xây dựng cây tiến hóa Các chương trình xây dựng cây tiến hóa Các chương trình xây dựng cây tiến hóa Các chương trình xây dựng cây tiến hóa 1/6/2019 11 Các chương trình xây dựng cây tiến hóa

Các file đính kèm theo tài liệu này:

  • pdfbai_giang_mon_tin_sinh_hoc.pdf