Chương I. Tổng quan về cơ sở dữ liệu phân bố
Tính đồng nhất và tính không đồng nhất
homogeneity, heterogeneity
Phần cứng
Hệ điều hành
Các DBMS cục bộ
DDBMS đồng nhất
Các DBMS cục bộ giống nhau.
DDBMS không đồng nhất
Có ít nhất hai DBMS cục bộkhác nhau.
Chuyển đổi các mô hình dữ liệu khác nhau
17 trang |
Chia sẻ: vutrong32 | Lượt xem: 1018 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Chương I. Tổng quan về cơ sở dữ liệu phân bố, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
07/05/14
1
CHƢƠNG I. TỔNG QUAN VỀ
CƠ SỞ DỮ LIỆU PHÂN BỐ
TRƯỜNG CAO ĐẰNG CÔNG NGHỆ THÔNG TIN
TP.HỒ CHÍ MINH
Giảng Viên: Th.S Lê Thị Minh Nguyện
Email: nguyenltm@hotmail.com
NỘI DUNG
Định nghĩa cơ sở dữ liệu phân bố.
Các đặc điểm của cơ sở dữ liệu phân bố so
với cơ sở dữ liệu tập trung.
Tại sao phải dùng cơ sở dữ liệu phân bố.
Các hệ quản trị cơ sở dữ liệu phân bố.
2
07/05/14
2
ĐỊNH NGHĨA CƠ SỞ DỮ LIỆU PHÂN BỐ.
Định nghĩa 1: cơ sở dữ liệu phân bố
(distributed database) là sự tập hợp dữ
liệu mà về mặt luận lý chúng thuộc cùng
một hệ thống nhưng được đặt ở nhiều nơi
(site) của một mạng máy tính.
Sự phân bố: dữ liệu phải được phân bố ở
nhiều nơi.
Sự tương quan luận lý: dữ liệu ở các nơi
được sử dụng chung để giải quyết một vấn
đề.
3
ĐỊNH NGHĨA CƠ SỞ DỮ LIỆU PHÂN BỐ.
4 Hình 1. Một cơ sở dữ liệu phân bố trên một mạng phân bố địa lý
07/05/14
3
ĐỊNH NGHĨA CƠ SỞ DỮ LIỆU PHÂN BỐ.
5 Hình 2. Một cơ sở dữ liệu phân bố trên một mạng cục bộ
ĐỊNH NGHĨA CƠ SỞ DỮ LIỆU PHÂN BỐ.
6 Hình 3. Một hệ thống đa xử lý
07/05/14
4
ĐỊNH NGHĨA CƠ SỞ DỮ LIỆU PHÂN BỐ.
Định nghĩa 2: CSDL phân bố là sự tập hợp
dữ liệu được phân bố trên các máy tính
khác nhau của một mạng máy tính. Mỗi
nơi của mạng máy tính có khả năng xử lý
tự trị và có thể thực hiện các ứng dụng
cục bộ. Mỗi nơi cũng tham gia vào thực
hiện ít nhất một ứng dụng toàn cục mà nơi
này yêu cầu truy xuất dữ liệu ở nhiều nơi
bằng cách dùng hệ thống truyền thông
con.
7
ĐỊNH NGHĨA CƠ SỞ DỮ LIỆU PHÂN BỐ
Định nghĩa nhấn mạnh 3 khía cạnh
Sự phân bố dữ liệu: dữ liệu phải được phân
bố ở nhiều nơi.
Ứng dụng cục bộ: mỗi nơi phải thực hiện ít
nhất một ứng dụng cục bộ (ứng dụng chỉ sử
dụng dữ liệu cục bộ của nơi này).
Ứng dụng toàn cục: mỗi nơi phải tham gia
vào sự thực hiện ít nhất một ứng dụng toàn
cục (ứng dụng sử dụng dữ liệu của ít nhất 2
nơi)
8
07/05/14
5
Các đặc điểm của CSDLPB so với CSDLTT
Điều khiển tập trung
Độc lập dữ liệu
Giảm dư thừa
Các cấu trúc vật lý phức tạp và truy xuất
hiệu quả
Tính toàn vẹn, phục hồi, điều khiển đồng
thời
Tính riêng biệt và tính bảo mật
9
Điều khiển tập trung
Điều khiển tâp trung tùy thuộc vào kiến trúc
CSDLPB có cấu trúc điều khiển phân cấp
• Người quản trị CSDL toàn cục (Global DBA)
• Người quản trị CSDL cục bộ (Local DBA)
Tính tự trị vị trí
10
Điều khiển tập trung
07/05/14
6
Độc lập dữ liệu: tổ chức hiện tại của dữ liệu là trong
suốt với ngƣời lập trình ứng dụng
Các chương trình không bị ảnh hưởng bởi những thay đổi
về cấu trúc vật lý của dữ liệu
Trong suốt dữ liệu
Trong suốt trong phân mảnh
• Không nhìn thấy các mảnh
• Nhìn thấy các quan hệ toàn cục (global relation)
• Lược đồ toàn cục (global schema)
Trong suốt vị trí
• Không nhìn thấy các quan hệ cục bộ
• Nhìn thấy các mảnh (fragment)
• Lược đồ phân mảnh (fragmentation schema)
11
Độc lập dữ liệu
Trong suốt dữ liệu
Trong suốt nhân bản (Replication transparence)
• Nhìn thấy các mảnh
• Không nhìn thấy nhân bản các mảnh
Trong suốt trong ánh xạ cục bộ (local mapping
transpatence)
• Nhìn thấy các quan hệ cục bộ (local relation)
• Không nhìn thấy CSDL vật lý
Trong suốt trong phân bố (distribution
transparency): gồm bốn tính trong suốt trên
12
Độc lập dữ liệu
07/05/14
7
13 Các mảnh và các hình ảnh vật lý của một quan hệ toàn cục
Độc lập dữ liệu
Giảm dƣ thừa
Trong CSDLPB dư thừa dữ liệu được giảm
càng nhiều càng tốt:
• Những sự không nhất quán
• Vùng nhớ dữ liệu được tiết kiệm
Trong CSDLPB dư thừa dữ liệu là một đặc
điểm cần thiết
• Tính cục bộ của các ứng dụng có thể được gia
tăng
• Tính sẵn sàng của hệ thống có thể được gia tăng
14
Giảm dư thừa
07/05/14
8
Nhân bản dữ liệu (Data replication): có
nhiều bản sao của một mục dữ liệu thì việc
lấy dữ liệu có thể được thực hiện trên bất
lỳ bản sao nào, trong khi việc cập nhật dữ
liệu phải thực hiện nhất quán trên tất cả
bản sao
Ứng dụng chỉ đọc
Ứng dụng cập nhật
15
Giảm dư thừa
Các cấu trúc vật lý phức tạp và truy xuất
hiệu quả
Trong CSDLTT các cấu trúc truy xuất phức
tạp như chỉ mục thứ cấp, chuỗi kết
nốicác cấu trúc này hỗ trợ cho việc truy
xuất hiệu quả
Trong CSDL phân bố cấu trúc truy xuất
phức tạp không phải là một công cụ đúng
để truy xuất dữ liệu hiệu quả.
Xét lược đồ CSDL sau
16
07/05/14
9
Ứng dụng: “tìm tất cả các mẩu tin của Part
được cung cấp bởi nhà cung cấp S1 ”
Find SUPPLIER record with SUP# = S1
Repeat until “no more members in set”
Find next PART record in SUPPLIER-PART set;
Output PART record
Truy xuất trên từng mẩu tin
17
Các cấu trúc vật lý phức tạp và truy xuất
hiệu quả
18
Các cấu trúc vật lý phức tạp và
truy xuất hiệu quả
07/05/14
10
Find all: gom tất cả các truy xuất đƣợc
thực hiện trên cùng một nơi
At site 1:
Gởi đến site 2 và 3 nhà cung cấp S1
At site 2 và 3
Thực hiện song song
Find all PARTS records having
SUP#=S1
Send result to site 1
At site 1
Trộn kết quả từ site 2 và 3
Output kết quà
19
Các cấu trúc vật lý phức tạp và truy xuất
hiệu quả
Chia thành 2 loại:
Tối ưu hóa toàn cục:
• Xác định dữ liệu nào phải được truy xuất tại các
nơi nào.
• Chi phí truyền thông
Tối ưu hóa cục bộ
• Truy xuất csdl cục bộ được thực hiện như thế nào
tại mỗi nơi
20
Các cấu trúc vật lý phức tạp và truy xuất
hiệu quả
07/05/14
11
Tính toàn vẹn
Giao tác: là một đơn vị xứ lý nguyên tố,
nghĩa là một chuỗi các tác vụ hoặc tất cả
thực hiện hoặc tất cả không thực hiện.
Giao tác toàn cục: là một ứng dụng toàn
cục.
Ví dụ ứng dụng chuyển quỹ: cả hai phần ghi
nợ và ghi có đều được thực hiện hoặc không
thực hiện
Tính nguyên tố:
Sự hư hỏng
Thực hiện đồng thời
21
Tính riêng biệt và tính bảo mật
Thực hiện truy xuất dữ liệu có thẩm quyền
Bảo mật cơ sở dữ liệu cục bộ
Bảo mật mạng truyền thông
22
07/05/14
12
Tại sao phải dùng cơ sở dữ liệu phân bố
Lý do về mặt tổ chức kinh tế
Nhiều tổ chức không được tập trung hóa
Kết nối lẫn nhau của các CSDL hiện tại
Các CSDL phân bố là giải pháp tự nhiên khi
có nhiều CSDL đã tồn tại trong một tổ chức
và cần phải thực hiện nhiều ứng dụng cục bộ
hơn
Sự lớn mạnh gia tăng
Tổ chức lớn mạnh lên do có thêm các đơn vị
tổ chức tương đối độc lập (các chi nhánh mới,
các kho mới)
23
Giảm chi phí truyền thông
CSDL ở ví dụ 1.1, nhiều ứng dụng cục bộ làm
giảm chi phí truyền thông so với CSDL tập
trung.
Các nguyên cứu về hiệu suất
Vì có nhiều bộ xử lý độc lập, do đó hiệu suất
được nâng cao thông qua một cơ chế song
song hóa mức độ cao
Có ưu điểm trong trường hợp sự phân rã dữ
liệu phản ánh các tiêu chí phụ thuộc ứng
dụng, mà tiêu chí này là cực đại hóa tính cục
bộ của ứng dụng.
24
Tại sao phải dùng cơ sở dữ liệu phân bố
07/05/14
13
Độ tin cậy và tính sẵn sàng
Vì độ dư thừa của dữ liệu, tính sẵn sàng của
dữ liệu cao
Cần đảm bảo độ tin cậy của dữ liệu. Khả
năng xử lý tự trị ở các nơi khác nhau tuy
nhiên không thể bảo đảm toàn bộ độ tin cậy
cao của hệ thống, nhưng nó đảm bảo đặc
tính suy biến.
25
Tại sao phải dùng cơ sở dữ liệu phân bố
Các hệ quản trị cơ sở dữ liệu phân bố.
Một hệ quản trị CSDL phân bố (DDBMS –
Distributed DBMS) hỗ trợ tạo lập và bảo
trì các CSDL phân bố.
Các thành phần của DDBMS
Quản trị CSDL(DB – Database Management)
• Quản lý CSDL
• Thực hiên các yêu cầu của ứng dụng: xử lý dữ
liệu
Truyền thông dữ liệu (DC – Data
Communication)
• Nhận yêu cầu truy xuất dữ liệu của các ứng dụng
chạy tại thiết bị đầu cuối
• Trả kết quả về cho ứng dụng
26
07/05/14
14
Các thành phần của DDBMS
Từ điển dữ liệu (DD – Data Distionary)
• Lưu trữ thông tin về các đối tượng bên trong
CSDL
• Lưu trữ thông tin về sự phân tán dữ liệu tại các nơi
CSDL phân bố (DDB – Distributed Database)
• Liên lạc giữa các nơi: gởi yêu cầu và nhận kết quả
27
Các hệ quản trị cơ sở dữ liệu phân bố.
28
07/05/14
15
29
Các hệ quản trị cơ sở dữ liệu phân bố.
Các thành phần của HQTCSDL thương mại
Các dịch vụ tiêu biểu của HQTCSDLPB
Truy xuất CSDL từ xa bởi một chương trình
ứng dụng
Hỗ trợ một số mức trong suốt trong phân bố:
hỗ trợ cho thành phần mở rộng khác nhau ở
các hệ thống khác nhau.
Hỗ trợ cho việc quản trị CSDL và điều khiển
• Công cụ giám sát
• Thu thập thông tin
• Cung cấp cái nhìn toàn cục về các tập tin dữ liệu
đang có tại các nơi khác nhau.
Hỗ trợ cho việc điều khiển đồng thời và phục
hồi các giao tác phân bố
30
Các hệ quản trị cơ sở dữ liệu phân bố.
07/05/14
16
31
Các hoại truy xuất CSDLPB
Các hệ quản trị cơ sở dữ liệu phân bố.
32
Các hoại truy xuất CSDLPB
Các hệ quản trị cơ sở dữ liệu phân bố.
07/05/14
17
Tính đồng nhất và tính không đồng
nhất
homogeneity, heterogeneity
Phần cứng
Hệ điều hành
Các DBMS cục bộ
DDBMS đồng nhất
Các DBMS cục bộ giống nhau.
DDBMS không đồng nhất
Có ít nhất hai DBMS cục bộkhác nhau.
Chuyển đổi các mô hình dữ liệu khác nhau.
33
Các hệ quản trị cơ sở dữ liệu phân bố.
34
Các file đính kèm theo tài liệu này:
- chuong_1_tong_quan_ve_co_so_du_lieu_phan_bo_4395.pdf