Mục tiêu của môn học:
- Giới thiệu khái quát cách tìm kiếm nguồn thông tin trên Internet, phục vụ cho việc học tập, nghiên cứu, viết luận văn.
- Trang bị kiến thức cơ bản và một số công cụ thông dụng của tin sinh học để:
- Khai thác và xử lý các thông tin sinh học
- Ứng dụng trong lĩnh vực nghiên cứu, trong phòng thí nghiệm và thực tiễn.
90 trang |
Chia sẻ: Tiểu Khải Minh | Ngày: 17/02/2024 | Lượt xem: 220 | Lượt tải: 0
Bạn đang xem trước 20 trang tài liệu Bài giảng môn Tin sinh học, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
M KIẾM VÀ QUẢN LÝ TÀI LIỆU NGHIÊN
CỨU
2.1. Các công cụ tìm kiếm thông tin
To help protect your privacy, PowerPoint prevented this external picture from being automatically downloaded. To download and display this picture, click Options in the Message Bar, and then click Enable external content.
Cuộc chiến của các search engine
và thị phần tương ứng
Nguyên lý hoạt động
của các search engine
• Web crawling
Các bước tìm kiếm
• Indexing
• Searching
Web crawling/robot/spider
1. Là một chương trình tự động duyệt qua các siêu liên kết
(hyperlink) để thu thập tài liệu. Sau đó nó nhận về tất cả tài liệu có
liên kết với tài liệu này.
2. Search engine điều khiển robot đi thu thập thông tin trên mạng
thông qua các siêu liên kết Khi robot phát hiện ra một site mới, nó
gởi địa chỉ trang web về cho server chính để tạo cơ sở dữ liệu chỉ
mục phục vụ cho nhu cầu tìm kiếm thông tin.
3. Bởi vì thông tin trên mạng luôn thay đổi nên robots phải liên tục
cập nhật các site cũ. Mật độ cập nhật phụ thuộc vào từng hệ thống
search engine. Khi search engine nhận câu truy vấn từ user, nó sẽ
tiến hành phân tích, tìm trong cơ sở dữ liệu chỉ mục & trả về những
tài liệu thoả yêu cầu.
Indexing
• Hệ thống lập chỉ mục hay còn gọi là hệ thống phân tích
và xử lý dữ liệu, thực hiện việc phân tích, trích chọn
những thông tin cần thiết (thường là các từ đơn, từ
ghép, cụm từ quan trọng) từ những dữ liệu mà robot thu
thập được và tổ chức thành cơ sở dữ liệu riêng để có
thể tìm kiếm trên đó một cách nhanh chóng, hiệu quả.
• Hệ thống chỉ mục là danh sách các từ khoá, chỉ rõ các
từ khoá nào xuất hiện ở trang nào, địa chỉ nào.
Searching
• Tìm kiếm từ là tìm kiếm các trang mà những từ trong câu truy vấn (query)
xuất hiện nhiều nhất.
• Ngoài chiến lược tìm chính xác theo từ khoá, các search engine còn cố
gắng ‘ hiểu ‘ ý nghĩa thực sự của câu hỏi thông qua những câu chữ do
người dùng cung cấp. Điều này được thể hiện qua chức năng sửa lỗi
chính tả, tìm cả những hình thức biến đổi khác nhau của một từ.
• Ví dụ : search engine sẽ tìm những từ như speaker, speaking, spoke khi
người dùng nhập vào từ speak
Cách tìm kiếm tài liệu phục vụ
nghiên cứu, luận văn
Cách quản lý và trích dẫn tài liệu
• Lập CSDL tài liệu tham khảo
• Quản lý và tìm kiếm tài liệu trong CSDL
• Cách trích dẫn tài liệu
• Chương trình Endnote
Chương 4
• Xác định trình tự
• Đăng ký trình tự vào ngân hàng gene
To help protect your privacy, PowerPoint prevented this external picture from being automatically downloaded. To download and display this picture, click Options in the Message Bar, and then click Enable external content.
Classical sequencing methods
• Maxam-Gilber sequencing
• Sanger sequencing
Lắp ráp trình tự
Nguyên lý của quá trình lắp ráp trình tự
Các phần mềm hỗ trợ lắp ráp trình tự
To help protect your privacy, PowerPoint prevented this external picture from being automatically downloaded. To download and display this picture, click Options in the Message Bar, and then click Enable external content.
Next generation sequencing
• 454 pyrosequencing
• Illumina (Solexa) sequencing
• SOLiD sequencing
• Ion semiconductor sequencing
• DNA nanoball sequencing
• Future techniques
Nguyên lý lắp ráp trình tự
• Lắp ráp trình tự là sự sắp xếp và nối các mảnh trình tự DNA theo trật tự đúng
để tái lập lại trình tự ban đầu của sợi DNA ban đầu. Chúng ta biết rằng một
NST thực chất là một sợi DNA rất dài. Người ta phải cắt ra thành những đoạn
nhỏ vừa đủ với các công nghệ xác định trình tự hiện nay (từ 200-1000 base).
Những mảnh ngắn thường được gọi là “read”, là kết quả của phương pháp
xác định trình tự DNA bằng phương pháp shotgun (shotgun sequencing
genomic DNA) hoặc các bản phiên mã của gene (ESTs).
• Các trình tự ngắn được sắp xếp theo đúng vị trí của chúng trong sợi DNA ban
đầu. Cắt sợi DNA ra thành nhiều mảnh một cách ngẫu nhiên, sao cho một số
mảnh có những phần chung (overlapping) để làm cơ sở cho việc sắp xếp.
Nguyên lý cơ bản: gồm 3 bước
• Tất cả các trình tự overlap của các cặp trình tự được xác định.
• Sắp các mảnh vào những vị trí tương đối (xấp xỉ) với một hướng
lựa chọn cho mỗi mảnh sao cho các đoạn trình tự overlap bây giờ
được dùng để quyết định trình tự.
• Căn, so sánh nhiều mảnh sử dụng kết quả bước 2 để suy diên ra
trình tự gốc
Phần mềm hỗ trợ lắp ráp trình tự
• Các phần mềm hỗ trợ lắp ráp trình tự
• CAP3 là phần mềm hỗ trợ lắp ráp dùng
phổ biến ở quy mô genome nhỏ (thực
hành), các công cụ khác tham khảo
(wikipedia:
embly).
Các chương trình lắp ráp quan trọng
• TIGR Assembler - Assembly program developed at the Institute for
Genomic Research (TIGR).
• phrap - Assembly program developed at the University of Washington. .
Celera Assembler - Assembly program developed at Celera Genomics. .
Arachne - Program developed at the Broad Institute of MIT, widely used in
genome projects both at the Broad Institute and other research
organizations.
Phusion - The main workhorse for assembly at the Sanger Center, one of
the leading genomic centers in the world. .
Atlas - Assembly program developed at the Baylor College of Medicine. .
Shotgun sequencing
Shotgun sequencing
Problems!!!
Scaffolding techniques
• Quá trình nhờ đó mà thông tin từ so sánh cặp
các “read” để định hướng và sắp đặt trật tự cho
các contig dọc theo NST được gọi là
scaffolding.
Scaffold của 3 contig (mũi tên đậm) được giữ với nhau bởi
các cặp so sánh. Đường liền nối các đầu cặp đôi với nhau.
Đăng ký trình tự
1/6/2019
1
CHƯƠNG 4
CƠ SỞ DỮ LIỆU SINH HỌC
(Biological databases)
CSDL sinh học là gì?
Knowledge is unlimited
→ No border for database
CSDL sinh học là gì?
• CSDL Sinh học là các thư viện chứa thông tin về khoa học sự sống
• Nguồn gốc dữ liệu: Từ các thí nghiệm khoa học, các bài báo tạp chí
công trình nghiên cứu, các thí nghiệm ở quy mô lớn (high through
put), kết quả xử lý số liệu, phân tích
• Loại thư viện:
✓ genomics
✓ proteomics
✓ metabolomics
✓ microarray gene expression
✓ phylogenetics
✓ gene function, structure, localization
✓ clinical effects of mutations
✓ similarities of biological sequences and structures
Ý nghĩa của CSDL sinh học
• Là công cụ quan trọng hỗ trợ các nhà nghiên cứu hiểu
và giải thích các hiện tượng sinh học, cấu trúc và sự
tương tác giữa các cấu trúc phân tử, sự trao đổi chất ở
tế bào, cơ thể, mối quan hệ tiến hóa loài và giữa các
loài.
• CDLD giúp nhà nghiên cứu có thể:
✓ Tìm thông tin
✓ Khai thác, xử lý thông tin theo mục đích nghiên cứu
✓ Phát hiện bệnh tât, phát triển các thuốc, trị liệu
✓ Điều khiển, cải biến các quá trình sinh học
✓ Tạo ra các quá trình mới, sinh vật mới mang đặc tính mong muốn
Phân loại CSDL sinh học
• Primary nucleotide sequence databases
• Metadatabases
• Genome databases
• Protein sequence databases
• Proteomics databases
• Protein structure databases
• Protein model databases
• RNA databases
• Carbohydrate structure databases
• Protein-protein interactions
• Signal transduction pathway databases
• Metabolic pathway databases
• Microarray databases
• Exosomal databases
• Mathematical model databases
• PCR / real time PCR primer databases
• Specialized databases
• Taxonomic databases
1/6/2019
2
1. Các cơ sở dữ liệu trình tự nucleotide
sơ cấp
• International Nucleotide Sequence Database
(INSD) ( bao gồm NCBI,
EBI và DDBJ
• Tất cả trình tự DNA của các SV đều tìm thấy ở 1
trong 3 ngân hàng trên.
• Cả 3 CSDL này, ngoại trừ việc đăng ký trình tự
có khác nhau như các dữ liệu đều được đồng
bộ hóa.
• 3 CSDL này là những CSDL sơ cấp, lưu trữ các
dữ liệu trình tự gốc.
International Nucleotide Sequence Database Collaboration
2. Metadatabases
3. Genome databases
• Các CSDL này lưu trữ các trình tự genome của các sinh
vật, mô tả, giải thích, phân tích và cho phép truy cập
miễn phí.
• Các CSDL genome có thể lữu trữ genome của 1 loài
hoặc nhiều loài
3. Genome databases
• SNPedia: Information about the effect of variations in DNA
• CAMERA Resource for microbial genomics and metagenomics
• Corn, the Maize Genetics and Genomics Database
• EcoCyc a database that describes the genome and the biochemical machinery of the model organism E. coli K-12
• Ensembl provides automatic annotation databases for human, mouse, other vertebrate and eukaryote genomes.
• Ensembl Genomes provides genome-scale data for bacteria, protists, fungi, plants and invertebrate metazoa,
through a unified set of interactive and programmatic interfaces (using the Ensembl software platform).
• Flybase, genome of the model organism Drosophila melanogaster
• MGI Mouse Genome (Jackson Lab.)
• JGI Genomes of the DOE-Joint Genome Institute provides databases of many eukaryote and microbial genomes.
• National Microbial Pathogen Data Resource. A manually curated database of annotated genome data for the
pathogens Campylobacter, Chlamydia, Chlamydophila, Haemophilus, Listeria, Mycoplasma, Neisseria,
Staphylococcus, Streptococcus, Treponema, Ureaplasma, and Vibrio.
• Saccharomyces Genome Database, genome of the yeast model organism.
• Viral Bioinformatics Resource Center Curated database containing annotated genome data for eleven virus families.
• The SEED platform for microbial genome analysis includes all complete microbial genomes, and most partial genomes.
The platform is used to annotate microbial genomes using subsystems.
• Xenbase, genome of the model organism Xenopus tropicalis and Xenopus laevis
• Wormbase, genome of the model organism Caenorhabditis elegans
• Zebrafish Information Network, genome of this fish model organism.
• TAIR, The Arabidopsis Information Resource.
• UCSC Malaria Genome Browser, genome of malaria causing species (Plasmodium falciparumata and others)
• RGD Rat Genome Database: Genomic and phenotype data for Rattus norvegicus
• INTEGRALL: Database dedicated to integrons, bacterial genetic elements involved in the antibiotic resistance
• Fourmidable ant genome database provides ant genome blast search and sequence download.
• VectorBase The NIAID Bioinformatics Resource Center for Invertebrate Vectors of Human Pathogens
1/6/2019
3
4. Protein sequence databases
• UniProt: Universal Protein Resource (UniProt Consortium: EBI, Expasy, PIR)
• PIR: Protein Information Resource (Georgetown University Medical Center
(GUMC))
• Swiss-Prot: Protein Knowledgebase (Swiss Institute of Bioinformatics)
• PEDANT Protein Extraction, Description and ANalysis Tool
(Forschungszentrum f. Umwelt & Gesundheit)
• PROSITE: Database of Protein Families and Domains
• DIP: Database of Interacting Proteins (Univ. of California)
• Pfam: Protein families database of alignments and HMMs (Sanger Institute)
4. Protein sequence databases
• PRINTS: a compendium of protein fingerprints (Manchester University)
• ProDom: Comprehensive set of Protein Domain Families (INRA/CNRS)
• SignalP 3.0: Server for signal peptide prediction (including cleavage site prediction),
based on artificial neural networks and HMMs
• SUPERFAMILY Library of HMMs representing superfamilies and database of
(superfamily and family) annotations for all completely sequenced organisms
• Annotation Clearing House a project from the National Microbial Pathogen Data
Resource
• InterPro Classifies proteins into families and predicts the presence of domains and
sites.
5. Proteomics databases
• Proteomics Identifications Database (PRIDE)
là CSDL proteomic chứa các thông tin nhận
dạng protein và peptide và thông tin về cải
biến sau dịch mã
1/6/2019
4
6. Protein structure databases
• Protein Data Bank (PDB) chứa:
Protein DataBank in Europe (PDBe)
ProteinDatabank in Japan (PDBj)
Research Collaboratory for Structural Bioinformatics (RCSB)
6. Protein structure databases
7. Protein model databases
• SWISS-MODEL Server and Repository for Protein Structure
Models
• ModBase Database of Comparative Protein Structure Models
(Sali Lab, UCSF)
• Protein Model Portal (PMP) Meta database that combines
several databases of protein structure models (Biozentrum,
Basel, Switzerland)
8. RNA databases
• Rfam, a database of RNA families
• mirBase, the microRNA database
• snoRNAdb, a database of snoRNAs
9. Carbohydrate structure databases
• EuroCarbDB: A repository for both
carbohydrate sequences/structures and
experimental data.
1/6/2019
5
10. Protein-protein interactions
• BIND: Biomolecular Interaction Network Database
• BioGRID A General Repository for Interaction Datasets (Samuel Lunenfeld
Research Institute)
• CCSB Interactome
• DIP Database of Interacting Proteins
• IntAct molecular interaction database: a central, standards-compliant
repository of molecular interactions, including protein–protein, protein–
small molecule and protein–nucleic acid interactions.
• NetPro
• STRING: a database of known and predicted protein-protein interactions.
(EMBL)
11. Signal transduction pathway databases
• Cancer Cell Map
• Netpath: A curated resource of signal transduction pathways in
humans
• NCI-Nature Pathway Interaction Database
• Reactome: Navigable map of human biological pathways,
ranging from metabolic processes to hormonal signalling.
• SignaLink Database
• WikiPathways
12. Metabolic pathway databases
• BioCyc Database Collection including EcoCyc and MetaCyc
• KEGG PATHWAY Database (Univ. of Kyoto)
• MANET database (University of Illinois)
• Metabolights Metabolomics experiments and derived information: metabolite
structures, reference spectra, biological roles, locations and concentrations.
(European Bioinformatics Institute)
• Reactome: Navigable map of human biological pathways, ranging from
metabolic processes to hormonal signalling. (Cold Spring Harbor Laboratory,
European Bioinformatics Institute, Gene Ontology Consortium)
12. Metabolic pathway databases
• Metabolic pathways (catabolic và anabolic) : tập hợp
các chuỗi phản ứng hóa học xảy ra trong tế bào
(enzymes, vitamin, cofactor, các ion kim loại).
• Các chuỗi phản ứng hóa học liên kết với nhau thành
mạng lưới (network).
• A metabolic pathway: tạo ra các sản phẩm: để dùng
ngay, làm tiền chất cho các con đường khác, được dự
trữ trong tế bào.
1/6/2019
6
13. UniGene
• Xác định gene trong các bản transcript ở các
locus.
• Phân tích sự biểu hiện gene ở các mô, tuổi, tình
trạng sức khỏe
• Thông tin về các protein có mối liên hệ với nhau
(protEST).
13. UniGene
14. UniSTS
• UniSTS là một CSDL gồm các trình tự đánh dấu
vị trí (sequence tagged sites) xuất phát từ các
bản đồ STS và các thí nghiệm khác.
• STS được xác định bởi các cặp mồi PCR và kết
hợp với những thông tin về vị trí trong geome,
các gene, các trình tự.
14. UniSTS
15. PubChem Substance
Cung cấp thông tin về các phản ứng hóa học, sinh học.
16. Microarray databases
• Chứa CSDL biểu hiện gene (microarray gene
expression data)
• CSDL chia thành 2 nhóm riêng biệt:
Các dữ liệu được các chuyên gia thẩm định (peer
reviewed): Gene Expression Omnibus (GEO) ở NCBI và
ArrayExpress ở EBI.
Các dữ liệu chuyên biệt: mang đặc thù phòng thí nghiệm,
công ty, trường ĐH
1/6/2019
7
16. Specialized databases
• Antibody Central Antibody information database and search resource.
• BIOMOVIE (ETH Zurich) movies related to biology and biotechnology
• CGAP Cancer Genes (National Cancer Institute)
• Clone Registry Clone Collections (National Center for Biotechnology
Information)
• Connectivity map Transcriptional expression data and correlation tools for
drugs
• CTD The Comparative Toxicogenomics Database describes chemical-
gene-disease interactions
• DBGET H.sapiens (Univ. of Kyoto)
• DiProDB A database to collect and analyse thermodynamic, structural and other dinucleotide
properties.
• Drug2Gene Provides integrated information for identified and reported relations between
genes/proteins and drugs/compounds
• Dryad a repository of data underlying scientific publications in the basic and applied biosciences.
• Edinburgh Mouse Atlas
• GreenPhylDB (A phylogenomic database for plant comparative genomics)
• GDB Hum. Genome Db (Human Genome Organisation)
• HGMD disease-causing mutations (HGMD Human Gene Mutation Database)
• HUGO (Official Human Genome Database: HUGO Gene Nomenclature Committee)
• HvrBase++ Human and primate mitochondrial DNA
• INTERFEROME The Database of Interferon Regulated Genes
• List with SNP-Databases
16. Specialized databases
• Minimotif Miner -Database of short contiguous functional peptide motifs
• NCBI-UniGene (National Center for Biotechnology Information)
• Oncogenomic databases A compilation of databases that serve for cancer
research.
• OMIM Inherited Diseases (Online Mendelian Inheritance in Man)
• OrthoMaM (A database of Orthologous Mammalian Markers)
• p53 The p53 Knowledgebase
• PhenCode linking human mutations with phenotype
• PhenomicDB multi-organism database linking genotype to phenotype
• Plasma Proteome Database Human plasma proteins along with their isoforms
• SHMPD The Singapore Human Mutation and Polymorphism Database
16. Specialized databases
• SciClyc An Open-access database to shared antibodies, cell cultures, and documents for biomedical
research.
• SNPSTR database A database of SNPSTRs - compound genetic markers consisting of a microsatellite
(STR) and one tightly linked SNP - in human, mouse, rat, dog and chicken.
• TDR Targets A chemogenomics database focused on drug discovery in tropical diseases.
• TRANSFAC A database about eukaryotic transcription factors, their genomic binding sites and DNA-
binding profiles.
• TreeBASE An open-access database of phylogenetic trees and the data behind them
• Treefam TreeFam (Tree families database) is a database of phylogenetic trees of animal genes
• XTractor Discovering Newer Scientific Relations Across PubMed Abstracts. A tool to obtain manually
annotated relationships for Proteins, Diseases, Drugs and Biological Processes as they get published in
PubMed.
16. Specialized databases
17. Taxonomic databases
• Taxonomy Database là CSDL chính xác về định tên, vị
trí của sinh vật trong đã biết.
• Hiện nay có khoảng 10% số loài được xác định trên
hành tin này.
17. Taxonomic databases
1/6/2019
8
18. Wiki-style databases
• 1.CHDwiki
• 2.EcoliWiki
• 3.Gene Wiki
• 4.GyDB
• 5.NeuroLex
• 6.OpenWetWare
• 7.PDBWiki
• 8.Proteopedia
• 9.Topsan
• 10.WikiGenes
• 11.WikiPathways
• 12.WikiProfessional
• 13.YTPdb
Entrez NCBI
19. PubMed
• PubMed comprises more than 22 million
citations for biomedical literature from
MEDLINE, life science journals, and online
books. Citations may include links to full-text
content from PubMed Central and publisher
web sites.
19. PubMed
GSS
• Genome survey sequence database
• The GSS database is a collection of
unannotated short single-read primarily
genomic sequences from GenBank including
random survey sequences clone-end
sequences and exon-trapped sequences.
20. dbSNP
• Database of single nucleotide polymorphisms (SNPs)
and multiple small-scale variations that include
insertions/deletions, microsatellites, and non-
polymorphic variants.
• Application: Rice breeding/ SNP nanochip
1/6/2019
9
21. CDD
• The Conserved Domain Database is a resource
for the annotation of functional units in
proteins. Its collection of domain models
includes a set curated by NCBI, which utilizes
3D structure to provide insights into
sequence/structure/function relationships.
CDD 22. dbEST
• dbEST (Nature Genetics 4:332-3;1993) is a
division of GenBank that contains sequence
data and other information on "single-pass"
cDNA sequences, or "Expressed Sequence
Tags", from a number of organisms.
23. HomoloGene
• HomoloGene is a system for automated
detection of homologs among the annotated
genes of several completely sequenced
eukaryotic genomes.
1/6/2019
10
24. SRA
• The Sequence Read Archive (SRA) stores raw
sequencing data from the next generation of
sequencing platforms including Roche 454 GS
System®, Illumina Genome Analyzer®, Applied
Biosystems SOLiD® System, Helicos
Heliscope®, Complete Genomics®, and Pacific
Biosciences SMRT®.
25. Probe
• Probe Database is a public registry of nucleic
acid reagents designed for use in a wide
variety of biomedical research applications,
together with information on reagent
distributors, probe effectiveness, and
computed sequence similarities.
• Giải thích probe, SNP new generation?
Probe
26. DbVar
• Database of genomic structural variation
27. Epigenetics
• Explore, view, and download genome-wide
maps of DNA and histone modifications from
our diverse collection of epigenomic data sets.
1/6/2019
11
27. Epigenetics 28. OMIM
• OMIM is a comprehensive, authoritative, and timely
compendium of human genes and genetic phenotypes.
• The full-text, referenced overviews in OMIM contain
information on all known mendelian disorders and over 12,000
genes.
• OMIM focuses on the relationship between phenotype and
genotype.
• It is updated daily, and the entries contain copious links to other
genetics resources.
29. OMIA
• Online Mendelian Inheritance in Animals
(OMIA) is a database of genes, inherited
disorders and traits in more than 135
animal species (other than human and
mouse).
30. Protein cluster
• This collection of related protein sequences (clusters)
consists of Reference Sequence proteins encoded by
complete genomes. This database contains both
curated and non-curated clusters.
• The Protein Clusters database provides easy access to
annotation information, publications, domains,
structures, and external links and analysis tools
including multiple alignments, phylogenetic trees, and
genomic neighborhoods (ProtMap).
• Protein Clusters can be searched like any other Entrez
database.
1/6/2019
12
31. Bookshelf
• Bookshelf provides free access to books and
documents in life science and healthcare.
• A vital node in the data-rich resource network
at NCBI, Bookshelf enables users to easily
browse, retrieve, and read content, and spurs
discovery of related information.
31. Bookshelf 32. dbGaP
• The database of Genotypes and Phenotypes
(dbGaP) was developed to archive and
distribute the results of studies that have
investigated the interaction of genotype and
phenotype.
33. PMC
• PMC is a free full-text archive of biomedical and life
sciences journal literature at the U.S. National
Institutes of Health's National Library of Medicine
(NIH/NLM).
• PubMed Central® (PMC) is a free archive of biomedical
and life sciences journal literature at the U.S. National
Institutes of Health's National Library of Medicine
(NIH/NLM). In keeping with NLM’s legislative mandate
to collect and preserve the biomedical literature, PMC
serves as a digital counterpart to NLM’s extensive print
journal collection.
1/6/2019
13
34. Popset
• A PopSet is a set of DNA sequences that have
been collected to analyse the evolutionary
relatedness of a population. The population
could originate from different members of the
same species, or from organisms from
different species
35. Popset
• Genome assembly organization and additional information.
1/6/2019
1
CHƯƠNG 5
Dữ liệu trình tự, xác
định trình tự
Thế nào là xác định trình tự DNA
• Xác định trình tự một đoạn DNA là quá trình
xác định trật tự sắp xếp của các nucleotide
trong chuỗi trình tự đó.
3 thế hệ xác định trình tự
– Phương pháp hóa học của Maxam-Gilbert và tổng
hợp enzyme của Sanger
– Xác định trình tự tự động
– xác định trình tự thế hệ mới
FIRST GENERATION
Maxam-
Gilbert
sequencing
Các bước của phương pháp
• Công trình công bố sau 2 năm so với phương pháp của
Sanger
• Quá trình gồm 6 bước
1/6/2019
2
Giới thiệu
• 1976-1977, Allan Maxam và Walter Gilbert phát triển kỹ thuật
xác định trình tự DNA dựa vào cải biến hóa học phân tử DNA
và sau đó cắt DNA ở những nucleotide nhất định.
• Mặc dù phương pháp công bố chậm hơn so với Sanger 2 năm,
tuy nhiên, do giới hạn về mặt kỹ thuật tại thời điểm đó (tạo
dòng các DNA sợi đơn), phương pháp của Maxam và Gilbert
đã được dùng khá phổ biến.
• Sau khi kỹ thuật chain-termination method ra đời, phương
pháp của Maxam và Gilbert đã đi vào quá khứ do không thể
áp dụng khi xác định nhiều trình tự ở quy mô lớn, sự nguy
hiểm về hóa chất sử dụng và phóng xạ.
1. Tinh sạch trình tự
Nhiều đoạn DNA giống nhau được tinh sạch
(nguồn genome, kết hợp với sử dụng RE)
2. Gắn P phóng xạ
• Đầu 5’ sẽ được gắn 32P
• Enzyme phosphatase cắt nhóm phosphate, enzyme kinasse
sẽ gắn nhóm phosphate đánh dấu phóng xạ
3. Chuẩn bị đoạn DNA cần xác định trình tự
• Phân tử DNA sẽ được phân tách riêng rẽ thành 2 sợi.
• Chỉ một sợi đánh dấu phóng xạ được giữ lại để
chuẩn bị xác định trình tự
Xác định các base
• 4 mẫu DNA giống nhau được xử lý hóa chất
– Phản ứng G:
– Phản ứng C:
– Phản ứng A với một số G
– Phản ứng T với một số C
• Chạy điện di phân tách các mảnh
• Đưa lên máy đọc phóng xạ
1/6/2019
3
Sanger method
Chain-termination methods
• Sanger sequencing còn gọi là phản ứng
xác định trình tự bằng cách kết thúc
chuỗi phản ứng tổng hợp.
• Phương pháp này được Frederick Sanger
phát triển vào năm 1977.
• Phương pháp này dựa vào việc khuếch
đại một đoạn DNA bằng DNA polymerase
và kết hợp với việc sử dụng một loại
nucleotide đặc biệt: dideoxynucleotides.
Sanger method
• Hỗn hợp phản ứng: một phân tử DNA sợi đơn, primer, DNA pol, các
dNTP bình thường và các nucleotide bị cải biến (ddNTP).
• Các phân tử ddNTP có thể đánh dấu phóng xạ hoặc huỳnh quang
• Mẫu DNA được chia thành 4 phản ứng riêng rẽ, mỗi phản ứng chứa
tất cả các thành phần (dATP, dGTP, dCTP và dTTP), DNA
polymerase.
• Mỗi phản ứng được bổ sung 1 trong 4 loại ddNTP (ddATP, ddGTP,
ddCTP, hoặc ddTTP).
• Phản ứng tổng hợp được thực hiện
• Sau phản ứng tổng hợp, mỗi ống phản ứng được điện di phân tách
các băng. Các băng DNA có thể được quan sát bằng phóng xạ trên
phim nhạy với tia X.
• Vị trí của các băng sẽ được đọc từ cuối cùng lên trên→ suy ra trình
tự DNA.
1/6/2019
4
Dye-terminator sequencing
Automated DNA sequencing
Nguyên lý
• Đánh dấu huỳnh quang vào ddNTPs
• Mỗi ddNTP được đánh dấu bởi 1 chất phát
huỳnh quang khác nhau → sau khi bị kích
thích sẽ giải phóng huỳnh quang ở các bước
sóng khác nhau.
• Dye-terminator sequencing đã được phát
triển thành phương pháp xác định trình tự tự
động phổ biến như ngày nay.
SECOND GENERATION
1/6/2019
5
NEXT GENERATION
Next generation
• Roche/454 FLX Pyrosequencing (2004/5)
• Illumina Solexa sequencing
• Applied Biosystems SOLiDTM System (Solid
sequencing)
• Helicos HeliscopeTM (gần đây)
• Pacific Biosciences SMRT (2010)
1/6/2019
6
Pyrosequencing
• Pyrosequencing là phương pháp xác định trình
tự DNA dựa trên nguyên lý tổng hợp.
• Khác với Sanger sequencing ở chỗ: dựa vào
việc xác định pyrophosphate giải phóng khi
dNTP kết hợp vào chuỗi.
• Phương pháp được Pål Nyrén và Mostafa
Ronaghi ở viện nghiên cứu công nghệ hoàng
gia Stockholm phát triển năm 1996.
Nguyên lý Pyrosequencing
Bước 1
• Một đoạn mồi được lai với một sợi DNA đơn (khuôn mẫu).
• Phản ứng có sự tham gia của:
– DNA polymerase,
– ATP sulfurylase,
– Luciferase,
– Apyrase
– Adenosine 5' phosphosulfate (APS): cơ chất
– Luciferin.
Bước 2
• Phản ứng được bắt đầu khi một loại dNTP được cho
vào.
• DNA pol xúc tác phản ứng kết hợp nucleotide vào
chuỗi. Nếu nucleotide (dNTP) cho vào bổ sung với
mạch khuôn, sẽ giải phóng pyrophosphate (Ppi).
Bước 3
• ATP sulfurylase chuyển hóa PPi thành ATP
với sự có mặt của adenosine 5'
phosphosulfate (APS).
• ATP được tạo ra sẽ giúp enzyme luciferase
chuyển hóa luciferin thành oxyluciferin và
tạo ra ánh sáng. Cường độ ánh sáng tỉ lệ
thuận với lượng ATP.
• Ánh sáng tạo ra bởi phản ứng xúc tác bởi
luciferase được đo bởi một thiết bị đặc biệt
(CCD), cường độ ánh sáng thu được sẽ được
biểu hiện thành một đỉnh (pick), tập hợp
các pick → pyrogram.
• Độ cao của mỗi pick tỉ lệ với số nucleotide
được gắn vào chuỗi
1/6/2019
7
Bước 4
• Apyrase, enzyme phân giải nucleotide sẽ được bổ sung
vào sau mỗi phản ứng. Enzyme này có chức năng phân
giải các nucleotide và ATP còn lại.
• Sau khi phản ứng “dọn sạch” của Apyrase xong. Một đợt
nucleotide tiếp theo lại được bổ sung vào. Các đợt
nucleotide sẽ được bổ sung lần lượt đến khi phản ứng
xảy ra.
Bước 5
• Việc bổ sung dNTPs được thực hiện kế tiếp nhau.
• Trong phản ứng của Sanger, 4 loại (dATP, dGTP, dCTP,
dTTP). Pyrosequencing sử dụng dATP·S thay cho dATP.
• Quá trình được thực hiện liên tục đến khi hết chuỗi DNA
khuôn. Các đỉnh sẽ được ghi lại và suy diễn ra trình tự.
MOVIE
Illumina Solexa
Nguyên lý
Illumina Solexa
1/6/2019
8
Gắn DNA vào flow cell
Khuếch đại nhờ cầu nối
Tạo cụm DNA
Sequencing by Synthesis
1/6/2019
9
MOVIE
1/6/2019
10
1/6/2019
11
SOLiD™ Sequencing
Sequencing by Oligonucleotide
Ligation and Detection
SOLiD™ Sequencing
• Giảm giá đọc từ $0.01/base vào năm
2004 xuống còn $0.0001/base vào năm
2006
• Tăng khả năng đọc từ 1,000,000
bases/máy/ngày vào năm 2004 đến hơn
5,000,000,000 bases/máy/ngày vào năm
2009.
Chuẩn bị thư viện
Library Preparation
Emulsion PCR/Bead Enrichment
Gắn hạt lên bề mặt thủy tinh
(Bead Deposition)
Xác định trình tự bằng cách lai
(Sequencing by Ligation)
1/6/2019
12
Đổi các primer
(primer reset) Độ chính xác
• Phản ứng được lặp lại 5 lần với mỗi trình tự
DNA. Như vậy mỗi base sẽ được kiểm tra và
đọc 2 lần bởi 2 primer khác nhau.
• Chẳng hạn, base ở vị trí số 5 sẽ được kiểm tra
bằng primer 2 ở lần lai trong chu kỳ 2 và bởi
primer 3 trong chu kỳ 1. Việc kiểm tra 2 lần sẽ
tăng độ chính xác của SOLiD™ System.
MOVIE
Whole genome sequencing Sequence assembly
• Không có kỹ thuật xác định trình tự nào có thể xác
định toàn bộ trình tự của 1 đoạn DNA dài (NST,
genome)
• Mỗi mảnh trình tự DNA đọc được (read) thường có
chiều dài từ 20 đến 1000 bp tùy thuộc vào kỹ thuật
sử dụng.
• Sequence assembly là quá trình sắp xếp và hòa nhập
(merge) các mảnh trình tự thành trình tự DNA dài từ
đó tái thiết lập lại trình tự ban đầu của NST hoặc
genome.
1/6/2019
13
Ví dụ
• 1 trang sách bị xé nhỏ→ khó sắp xếp lại
• Mua 10 cuốn sách giống nhau→ xé thành nhiều
mảnh
• Nối các mảnh lại với nhau thành đoạn văn→ trang
→ chương→ cả cuốn sách.
• Những khó khăn: nhiều đoạn văn lặp lại, nhiều mảnh
bị xé vụn (trình tự quá ngắn), mất một số mảnh
• STS, EST: giúp cho quá trình sắp xếp
• EST: nhược điểm do alternative splicing
06/01/2019
1
CHƯƠNG 6
Genome Browsers
WEBBROWSER
GENOME
BROWSER
Genome Browsers
1. Khái niệm genome browser
2. Đặc điểm và ứng dụng của các genome browser
3. Genome browser đặc thù
4. Giới thiệu một số genome browser quan trọng
Khái niệm genome browser
• Internet Browser hoặc Webbrowser = Internet/Web + Browser
• Genome browser = Genome + Browser
• Là giao diện đồ họa cho phép:
– Hiển thị thị thông tin về CSDL sinh học (genomic data)
– Cho phép quan sát, quét toàn bộ genome
– Cung cấp các thông tin đi kèm với hiển thị đồ họa (gene, cấu trúc, chức năng,
protein do gene mã hóa, điều hòa biểu hiện gene, biến đổi về trình tự, so
sánh)
• Khác biệt với các CSDL sinh học ở chỗ:
– Dữ liệu hiển thị bằng đồ họa
– Vị trí trong genome, trên NST
– Thông tin hiển thị có tọa độ (vị trí và khoảng cách của các gene)
– Thông tin sinh học gắn liên với trình tự
– Liên kết mạnh với nhiều CSDL liên quan
Đặc điểm genome browser
• Chứa CSDL genome, các bản lắp ráp, các contig
• Chứa các công cụ hiển thị đồ họa: hiển thị gene
và công thông tin trên bản đồ NST (vị trí, tọa độ)
• Các công cụ search (tìm 1 gene trong genome,
BLAT, xác định các SNP, )
• Các công cụ download (tải trình tự nucleotide
genome)
• Các công cụ phân tích trình tự (so sánh genome,
gene, các vùng bảo thủ, chức năng, insilico-PCR)
06/01/2019
2
Ứng dụng của Genome browser
• Tìm và xác định được các sinh vật đã được xác định trình tự
• Hiển thị các gene, marker trên NST kèm theo thông tin mô
tả về gene hoặc marker đó
• Xác định được vị trí của một gene quan tâm trong genome
• So sánh genome, đối chiếu vị trí (locus) của các gene trong
các genome khác nhau
• Xác định được các gene có mối quan hệ tiến hóa, các họ
gene, các gene có cùng nguồn gốc
• Xác định được các gene cùng tham gia trong một con
đường chuyển hóa hoặc có liên quan với nhau
Genome browser đặc thù
• Là một Genome browser với các đặc điểm và công cụ
cần thiết
• Tập trung vào một CSDL mang tính đặc thù loài
• Thông tin chi tiết về các NST, số lượng gene và sự
phân bố các gene trên NST (gene đã biết và dự
đoán).
• Các công cụ phân tích đặc thù đi kèm
Animal Browsers
• 1000 Genomes A Deep Catalog of Human Genetic Variation
• NONCODE genome browser. UCSC browser with special tracks for non-coding
annotations.
• Jim Watson genome browser at CSHL
• Craig Venter genome data release
• dbRIP - Retroposon Insertions Roswell Park Cancer Institute, MD
• Vista Lawrence Berkeley Lab, CA
• GARFIELD cat genome browser, Federick, MD
• Panda genome resources
• C. intestinalis: UCSC-based, Gbrowse
• The JGI-browser for various species: Fugu, C.intestinalis, waterflea, sponge,
amphioxus, snail, hydra, etc...
• Bio2Rdf Semantic web atlas of postgenomic knowledge about human and mouse
• Epigenomics Epigenomics Roadmap mirror at Washington University, St. Louis.
• Eyebrowse specializing in eye tissue sequences
• Aedes aegypti
• Silkworm Bombyx mori, China
• UNLV Las Vegas Genome Browser hosting: D. melanogaster and some plants
• NRSP-8 National Animal Genome Research Program - Bioinformatics Coordination
Program
EnsemblPlants
• Arabidopsis, rice, corn, tomato, soybean, Physcomitrella
• Arabidopsis genome browser at UCLA
• Arabidopsis genome browser at Dartmouth.
• Arabidopsis arabidopsis.info Ensembl-based genome browser
• UNLV Las Vegas Genome Browser hosting: Arabidopsis, rice,
sorghum and soybean, as well as D. melanogaster
• gramene.org many rice genomes and other grasses
• Rice Genome Annotation Project hosts Oryza sativa browser
• Rice-Map
• RICE FPC Genome Browser from the Arizona Genomics
Institute (AGI)
• Zea mays Maize Genome Sequencing Project
• Cannabis sativa Cannabis browser at U Toronto
Fungi/Yeast Browsers
• Saccharomyces cerevisiae database and
genome browser from SGD/Stanford University
• S. pombe (fission yeast) at NCI, NIH
Other genome browser
• Archaea browser from the Lowe Lab at UCSC
• EnsemblBacteria
• EnsemblProtists
• Paramecium tetraurelia Genoscope, France
• JPGV Jena Prokaryotic Genome Browser
06/01/2019
3
Watch movies and dicussion
1/6/2019
1
CHƯƠNG 7
CÔNG CỤ BLAST
Basic local alignment search tool
BLAST
• Giới thiệu về BLAST
• Ứng dụng BLAST
• Bản chất của BLAST
• Ý nghĩa và thông số của kết quả BLAST
• Các biến thể của BLAST (PHI/PSI/Delta-Blast)
Giới thiệu về BLAST
• BLAST được Stephen Altschul, Warren Gish, Webb Miller,
Eugene Myers, và David J. Lipman phát triển tại NIH. Công
trình nghiên cứu được công bố trên Journal of Molecular
Biology vào năm 1990.
• Basic Local Alignment Search Tool/BLAST là một công cụ
cho phép tìm các trình tự trong cơ sở dữ liệu giống với
trình tự truy vấn dựa trên cơ sở so sánh trình tự cục bộ.
Kết quả tìm được sắp xếp theo các tiêu chí điểm số
(score), mức độ che phủ (query coverage), giá trị kì vọng
(E-value), mức độ giống nhau (identity %).
• Có nhiều loại BLAST khác nhau (tùy thuộc vào trình tự
truy vấn và mục đích sử dụng).
BLAST dùng để làm gì?
• Tìm hiểu mối quan hệ của một trình tự protein hoặc
DNA (query sequence) với các trình tự đã biết trong
CSDL liệu.
• (Những) loài SV nào có trình tự DNA/Protein giống với
trình tự truy vấn.
• Nguồn gốc của trình tự truy vấn
• Trình tự protein do gene X mã hóa có chức năng gì? có
những vùng hoạt động (domain), vung đặc thù (motif)
gì?
• Mối quan hệ tiến hóa giữa các sinh vật có các trình tự
giống với trình tự truy vấn (paralog/ortholog)
• Phát hiện trình tự DNA/ Protein mới
BLAST dùng để làm gì?
• Tìm trình tự giống với trình tự query theo phương thức căn trình tự cục bộ
• Dự đoán cấu trúc:
– 2D DNA/RNA, 3D Protein
• Xác định các đặc điểm của sản phẩm gene:
– Mw, pI, họ protein,
– Vùng chức năng (motif, domain), concensus pattern
• Dự đoán vị trí của sản phẩm gene
– So sánh các concensus pattern
• Dự đoán mối quan hệ tiến hóa
• Multisequence alignment
• Dự đoán gene trong genome
– Các vùng exon, intron, promoter
• Dự đoán các vùng điều hòa hoạt động gene
• Nghiên cứu tiến hóa ở mức độ genome
• Hỗ trợ lắp ráp trình tự
Identical /Homology /Similarity
• Nhiều người dùng 2 thuật ngữ này lẫn lộn
• Similarity: đo mức độ giống nhau về trình tự
• Homology: đo mối quan hệ tiến hóa dựa trên cơ
sở đánh giá mức độ giống nhau giữa các trình tự
• 2 trình tự có 68% Similar nhưng 2 trình tự có thể
homologous hoặc không
• Không có mức độ/thang để đo Homology. 2 trình
tự hoặc là có mối liên hệ hoặc là không
• Nếu kết luận X có 23% homologous với Y thì sai
1/6/2019
2
Bản chất của BLAST
Bản chất của BLAST
• Tìm các trình tự trong CSDL có cụm GTW
• Mở rộng tìm kiếm cả hai phía của GTW
• Đánh giá điểm số→ tiếp tục hoặc dừng lại
• Ngưỡng điểm số quyết định tiếp tục hay dừng lại
Mức tin cậy của BLAST
• Tính toán thống kê
• Giá trị E (E-value) tỉ lệ nghịch với điểm số
(điểm số càng cao → giá trị E càng nhỏ)
• E-value sẽ xác nhận trình tự tìm được giống
với trình tự truy vấn là ngẫu nhiên hay có ý
nghĩa thống kê.
4 bước BLAST
• (1) Chọn trình tự truy vấn
• (2) Chọn chương trình BLAST
• (3) Chọn CSDL
• (4) Chọn thông số (gap cost/ mismatch/matrix)
• Cuối cùng click “BLAST”
Biến thể của BLAST và chức năng
• blastn:
– Tốt: tìm các trình tự giống nhau với điểm số cao,
– Không tốt: khi các trình tự có mối quan hệ xa
• blastp:
– Sử dụng substitution matrix để xác định khoảng cách mối quan hệ
• blastx:
– Áp dụng cho các trình tự DNA mới
– Phân tích ESTs
• tblastn:
– Tìm các vùng mã hóa (Coding region) chưa xác định trong CSDL
• tblastx:
– Phân tích ESTs
1/6/2019
3
Nhận xét kết quả BLAST
E-Value: Dừng lại e-10
Định dạng FAST cho query
1/6/2019
4
Lựa chọn chương trình BLAST
Số khung đọc của 1 đoạn DNA Lựa chọn CSDL nucleotide
CSDL Protein
1/6/2019
5
1/6/2019
1
CHƯƠNG 8
CÂY TIẾN HÓA & PHÂN TÍCH TIẾN
HÓA
Phylogenetic tree
Câu hỏi
1. Tiến hóa là gì?
2. Quá trình tiến hóa là gì?
3. Loài là gì? Thế nào là dưới loài/loài phụ?
4. Quá trình phát sinh loài?
5. Nghiên cứu tiến hóa để làm gì?
6. Thế nào là cây tiến hóa?
7. Dữ liệu gì được dùng để xây dựng cây tiến hóa?
8. Đột biến nguồn dữ liệu để phân tích tiến hóa?
9. Phương pháp xây dựng cây tiến hóa?
10. Cách “đọc” cây tiến hóa?
11. Các phần mềm xây dựng cây tiến hóa?
1. Tiến hóa là gì?
• The process by which different kinds of living
organism are believed to have developed from
earlier forms during the history of the earth.
Definition of evolution in Oxford dictionary
• The process by which different kinds of living
organisms are thought to have developed and
diversified from earlier forms during the history of
the earth.
Definition of evolution in US English dictionary
1. Tiến hóa là gì?
1. Evolution?
• Evolution is the change in the inherited
characteristics of biological populations over
successive generations.
• Evolution is a change in the gene pool of a
population over time.
2. Quá trình tiến hóa
• Quá trình tiến hóa là sự phát triển từ một
nguồn gốc ban đầu tạo ra nhiều dạng khác
nhau dưới các điều kiện khác nhau.
• Tiến hóa là sự biến đổi nguồn gene (gene
pool) trong quần thể qua các thế hệ.
1/6/2019
2
Species?
• Trong sinh học, một loài là đơn vị phân loại cơ
bản.
• Loài là một nhóm các sinh vật có khả năng giao
phối với nhau và sinh ra con cái qua nhiều thế
hệ.
Loài, dưới loài/loài phụ
Species/subspecies/varieties
• Các giống (variety) có sự khác biệt về kiểu hình với nhau
nhưng vẫn có khả năng lai với nhau một cách tự do.
• Thông thường sự phân cách địa lý sẽ tạo ra nhiều giống
khác nhau.
• Ví dụ: có nhiều giống lúa địa phương khác nhau hoặc
giống lợn khác nhau
• Loài phụ: có sự khác biệt với nhau từ hai hoặc nhiều đặc
điểm. Có thể giao phối tạo thế hệ con cái hữu thụ nhưng
trong tự nhiên thường ít xảy ra. Nguyên nhân chủ yếu là
do sự cách ly địa lý dẫn đến cách li sinh sản. Ví dụ ở lúa có
hai loài phụ chính: indica và japonica.
4. Quá trình phát sinh loài?
• Là một quá trình dẫn đến thay đổi kiểu
gene của quần thể ban đầu tạo ra kiểu
gene mới cách li sinh sản với quần thể
gốc
– Cách li sinh sản
– Cách li địa lí
– Đa bội hóa
– Đột biến
5. Nghiên cứu tiến hóa để làm gì?
• Lịch sử phát triển của sinh giới và hệ quả của
những sự kiện xảy ra trong tự nhiên
• Giải thích sự đa dạng sinh giới
• Mối quan hệ giữa các loài và nguồn gốc tiến
hóa
• Cơ chế của quá trình hình thành loài mới
• Vị trí của loài trong hệ thống sinh giới
• Dự đoán chiều hướng tiến hóa
6. Thế nào là cây tiến hóa?
Phylogenetic tree
• Phylogenetic tree/ evolution tree
• Root/ Branch/ Node/ Leaf
• Operational taxonomic units (OTU)
• Hypothetical taxonomic unit (HTU)
• Common ancester
• Rooted/ unrooted tree
• Descendant
• Relatedness/change
• Time
1/6/2019
3
Phylogenetics
• Phylogenetics là khoa học nghiên cứu mối quan
hệ tiến hóa giữa các loài.
• Để dự đoán được mối quan hệ tiến hóa, các cây
tiến hóa được xây dựng để liên kết các loài với
nhau.
Phylogenetic tree
• Một sơ đồ tiến hóa minh họa
mối quan hệ giữa các thực
thể (thường là các nhóm
phân loại taxon) có cùng tổ
tiên chung.
• Một sơ đồ cây hiển thị mối
quan hệ tiến hóa giữa các
nhóm sinh vật.
Phylogenetic tree
• Là cây tiến hóa là sơ
đồ nhánh hiển thị
mối quan hệ tiến
hóa giữa các loài
dựa vào sự giống và
khác nhau về các
đặc điểm vật lý
hoặc di truyền.
• Các taxon được kết
nối với nhau thành
cây xuất phát từ tổ
tiên chung.
Mối quan hệ/ Mức độ thay đổi
Th
ờ
ig
ia
n
So sánh các đặc điểm giống nhau
Tại sao phải nghiên cứu mối quan hệ tiến hóa
• Tìm ra mối quan hệ tiến hóa giữa các sinh vật
(phân tích những biến đổi xảy ra ở các sinh vật
khác nhau trong quá trình tiến hóa).
• Hiểu được mối quan hệ giữa một trình tự tổ
tiên và các con cháu của nó (tiến hóa phân tử,
tiến hóa trình tự).
• Dự đoán thời gian phân li (tách nhau ra) giữa
một nhóm các sinh vật cùng chia sẻ tổ tiên
chung.
1/6/2019
4
Giả thuyết về đồng hồ phân tử
(Molecular clock)
• Tất cả các đột biến xảy ra với cùng một tốc độ
như nhau ở tất cả các nhánh của cây.
• Tốc độ đột biến là như nhau ở tất cả các vị trí
dọc theo chiều dài trình tự.
• Giả thuyết về đồng hồ sinh học phù hợp nhất
đối với các loài có mối quan hệ gần gũi. Tuy
nhiên đối với các loài có mối quan hệ xa thì
việc áp dụng sẽ khó thuyết phục.
• Cây dưới đây mô tả mỗi loài như một chiếc lá của một nhánh xuất
phát từ một điểm gọi là node (tổ tiên chung gần nhất). Mối quan
hệ giữa các loài được liên hệ coi như là cành.
• Chiều dài của cành thể hiện thời gian tiến hóa hoặc mức độ biến
đổi của trình tự.
• Các cây (a) và (b) là những cây không gốc (dạng cladogram), chúng
chỉ đơn thuần biểu diễn mối quan hệ giữa các taxon (A, B, C, D)
trong cây tiến hóa.
Các lá cây (1, 2, 3, 4, 5)
được gọi là các OTU
(operation taxon unit)
Các điểm bên trong
(internal node) là tổ tiên
chung (6, 7, 8).
Cây không gốc không chỉ
ra tổ tiên mà từ đó các
con cháu phát sinh.
• Phương pháp tạo gốc là chỉ
ra tổ tiên chung mà từ đó
các con cháu được phát
sinh.
• Gốc là tổ tiên của tất cả các
loài trong cây
• Có n-1 cách tạo ra cây có
gốc với n là số điểm
(node).
Cây tiến hóa
• Có 2 loại cây tiến hóa:
• Cây có gốc: những cây chỉ có
một điểm duy nhất mà từ đó
các điểm khác được phát
sinh.
• Cây không có gốc: là những
cây không xác định được
nguồn gốc từ một điểm duy
nhất làm tổ tiên ban đầu mà
từ đó phát sinh ra các loài
hoặc tổ tiên tiếp đó.
1/6/2019
5
Xây dựng cây tiến hóa có gốc
• Để xây dựng cây tiến hóa có một điểm làm tổ tiên chung cần
đưa 1 loài mới vào để phân tích chung gọi là nhóm ngoại.
Nhóm ngoại phải có đặc điểm có tổ tiên chung gần nhất với
tất cả các OTU có trong cây tiến hóa nhưng phải có sự khác
biệt đủ lớn để tách biệt với tất cả các OTU khác.
• Một dấu hiện khác biệt rất dễ dàng nhận ra giữa cây có gốc và
không có gốc là sự xuất hiện nhóm ngoại. Nhóm ngoại nằm ở
vị trí gốc chung của tất cả các OTUs nhưng tách riêng ra một
nhánh riêng biệt.
• Nếu việc tìm nhóm ngoại hoặc bổ sung nhóm ngoại rất khó thì
các biện pháp khác có thể được áp dụng để xác định gốc cho
một cây chẳng hạn dùng điểm giữa (midpoint) của nhánh dài
nhất của cành liên tiếp gần kề. Cách này chỉ có thể áp dụng
nếu cây tiến hóa tuân theo cùng một đồng hồ phân tử.
7. Dữ liệu gì được dùng để xây dựng cây tiến hóa?
• Các dữ liệu hình thái
• Dữ liệu sinh lý hóa sinh
• Các protein, enzyme
• Các đoạn DNA đa hình (microsatellite, RFLP, SSR, RAPD)
• Các vùng trình tự không mã hóa (16S, 18S, ITS, LSU)
• Trình tự amino acid
• Trình tự nucleotide
• Trình tự DNA ti thể
8. Đột biến là nguồn dữ liệu hữu ích trong
phân tích tiến hóa
• Đột biến, lỗi xảy ra trong quá trình sao chép và
sửa chữa DNA
• Chỉ những đột biến xảy ra ở tế bào mầm
(germline cells) đóng vai trò quan trọng trong
tiến hóa. Tuy nhiên ở một số sinh vật không có
sự phân biệt giữa tế bào mầm hay tế bào soma.
• Chỉ những đột biến mà được cố định trong quần
thể (tồn tại ở một mức tần số allele nhất định)
được gọi là sự thay thế.
1/6/2019
6
• Phương pháp phổ biến và thông dụng nhất để
xây dựng cây tiến hóa là dựa vào: khoảng cách
và so sánh đặc điểm ký tự
• Phương pháp khoảng cách đo khoảng cách
của các cặp phân tích (cặp trình tự) trên cơ sở
lập ra các ma trận khoảng cách.
• Phương pháp so sánh ký tự xác định tất cả các
cây có thể và tìm ra một cây phù hợp nhất
trong tổng số các cây có thể.
8. Phương pháp phổ biến
xây dựng cây tiến hóa?
Phương pháp chính
sử dụng để xây dựng cây tiến hóa
• Phương pháp dựa vào khoảng cách
– UPGMA (unweighted pair group method with
arithmetic mean)
– NJ (Neighbour Joining)
• Phương pháp dựa vào ký tự trình tự
– Parsimony methods
– Maximum likelihood
• Phương pháp kiểm định cây tiến hóa
– Bootstrapping
– Jack Knife
1/6/2019
7
Phương pháp UGPMA
• Phương pháp này được xây dựng trên cơ sở theo một quy trình
sau:
– Giả thuyết ban đầu mỗi loài phân bố ở một điểm (OTU)
– Ghép cặp các OTU, xác định khoảng cách của mỗi cặp trên cơ sở so sánh
ma trận, chọn ra cặp có khoảng cách ngắn nhất. Khoảng cách giữa hai
OTU này được tính bằng trung bình khoảng cách tính từ ma trận.
– Các cặp có khoảng cách ngắn nhất được ghép lại thành các OTU mới. Các
OTU lại được ghép với nhau để xác định khoảng cách. Lặp lại quá trình
này cho tới khi tất cả các loài được nối với nhau trong một cụm duy
nhất.
• Thuật toán này mang tính phân loại theo ngoại hình (phenetic),
không thể hiện được thế hệ, dòng dõi và mức độ phân ly của
mối quan hệ tiến hóa. Thuật toán này chấp nhận giả thuyết của
đồng hồ sinh học.
• Ngoài phương pháp UGPMA còn có các phương pháp WPGMA
và UPGMS với thuật toán tương tự.
UPGMA
6 OTU: A, B, C, D, E
Tính toán các cặp OTUs với khoảng cách
nhỏ nhất.
A và B tách nhau 1 khoảng cách = 2.
Điểm phân nhánh giữa A và B tính bằng ½
khoảng cách giữa chúng→ sơ đồ nhánh
của A và B.
UPGMA
Các phương pháp ma trận khoảng cách
• ClustalW, Phylo_win, Paup
• Paupsearch, distances (GCG software package)
• DNADist, PROTDist, Fitch, Kitch, Neighbor
(Phylip package)
UPGMA & Neighbor Joining
• UPGMA và Neighbor Joining sử dụng quy trình phân tích nhóm.
• Các “node” được nhóm với nhau ở mỗi bước để tạo thành một
“node” mới trên cây. Quá trình này được thực hiện liên tục từ The
method works by clustering nodes at each stage and then forming a
new node on a tree. This process continues from the bottom of the
tree and in each step a new node is added, and the tree grows
upward.
• The length of the branch at each step is determined by the
difference in heights of the nodes at each end of the branch.
• UPGMA has built in assumptions that the tree is additive and that
all nodes are equally distance from the root.
• UPGMA is not used much today, but gave way to a very common
approach now termed “Neighbor Joining”
1/6/2019
8
Gene tree vs phylogenetic tree
• Sử dụng một vài trình tự DNA/Protein → cây
tiến hóa
• Liệu có đủ tin cậy?
Multisequence alignment → phylogenetic tree
1/6/2019
9
Cách “đọc” cây tiến hóa?
Cách “đọc” cây tiến hóa?
• To some biologists, use of the term "cladogram"
emphasizes that the diagram represents a
hypothesis about the actual evolutionary history of
a group, while "phylogenies" represent true
evolutionary history
• To other biologists, "cladogram" suggests that the
lengths of the branches in the diagram are
arbitrary, while in a "phylogeny," the branch
lengths indicate the amount of character change.
Phylogenetic tree
• A phylogenetic tree, also known as a phylogeny,
is a diagram that depicts the lines of evolutionary
descent of different species, organisms, or genes
from a common ancestor.
• Phylogenies are useful for organizing knowledge
of biological diversity, for structuring
classifications, and for providing insight into
events that occurred during evolution
Những cây sau đây là tương đương nhau
1/6/2019
10
Trong các cây sau, các nhánh bên trong thay đổi dẫn
đến làm thay đổi trật tự sắp xếp của các taxa
Các chương trình xây dựng cây tiến hóa Các chương trình xây dựng cây tiến hóa
Các chương trình xây dựng cây tiến hóa
Các chương trình xây dựng cây tiến hóa
1/6/2019
11
Các chương trình xây dựng cây tiến hóa
Các file đính kèm theo tài liệu này:
- bai_giang_mon_tin_sinh_hoc.pdf