Chương I. Tổng quan về cơ sở dữ liệu phân bố

Tính đồng nhất và tính không đồng nhất  homogeneity, heterogeneity  Phần cứng  Hệ điều hành  Các DBMS cục bộ DDBMS đồng nhất  Các DBMS cục bộ giống nhau. DDBMS không đồng nhất  Có ít nhất hai DBMS cục bộkhác nhau.  Chuyển đổi các mô hình dữ liệu khác nhau

pdf17 trang | Chia sẻ: vutrong32 | Lượt xem: 1032 | Lượt tải: 0download
Bạn đang xem nội dung tài liệu Chương I. Tổng quan về cơ sở dữ liệu phân bố, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
07/05/14 1 CHƢƠNG I. TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU PHÂN BỐ TRƯỜNG CAO ĐẰNG CÔNG NGHỆ THÔNG TIN TP.HỒ CHÍ MINH Giảng Viên: Th.S Lê Thị Minh Nguyện Email: nguyenltm@hotmail.com NỘI DUNG Định nghĩa cơ sở dữ liệu phân bố. Các đặc điểm của cơ sở dữ liệu phân bố so với cơ sở dữ liệu tập trung. Tại sao phải dùng cơ sở dữ liệu phân bố. Các hệ quản trị cơ sở dữ liệu phân bố. 2 07/05/14 2 ĐỊNH NGHĨA CƠ SỞ DỮ LIỆU PHÂN BỐ. Định nghĩa 1: cơ sở dữ liệu phân bố (distributed database) là sự tập hợp dữ liệu mà về mặt luận lý chúng thuộc cùng một hệ thống nhưng được đặt ở nhiều nơi (site) của một mạng máy tính.  Sự phân bố: dữ liệu phải được phân bố ở nhiều nơi.  Sự tương quan luận lý: dữ liệu ở các nơi được sử dụng chung để giải quyết một vấn đề. 3 ĐỊNH NGHĨA CƠ SỞ DỮ LIỆU PHÂN BỐ. 4 Hình 1. Một cơ sở dữ liệu phân bố trên một mạng phân bố địa lý 07/05/14 3 ĐỊNH NGHĨA CƠ SỞ DỮ LIỆU PHÂN BỐ. 5 Hình 2. Một cơ sở dữ liệu phân bố trên một mạng cục bộ ĐỊNH NGHĨA CƠ SỞ DỮ LIỆU PHÂN BỐ. 6 Hình 3. Một hệ thống đa xử lý 07/05/14 4 ĐỊNH NGHĨA CƠ SỞ DỮ LIỆU PHÂN BỐ. Định nghĩa 2: CSDL phân bố là sự tập hợp dữ liệu được phân bố trên các máy tính khác nhau của một mạng máy tính. Mỗi nơi của mạng máy tính có khả năng xử lý tự trị và có thể thực hiện các ứng dụng cục bộ. Mỗi nơi cũng tham gia vào thực hiện ít nhất một ứng dụng toàn cục mà nơi này yêu cầu truy xuất dữ liệu ở nhiều nơi bằng cách dùng hệ thống truyền thông con. 7 ĐỊNH NGHĨA CƠ SỞ DỮ LIỆU PHÂN BỐ Định nghĩa nhấn mạnh 3 khía cạnh  Sự phân bố dữ liệu: dữ liệu phải được phân bố ở nhiều nơi.  Ứng dụng cục bộ: mỗi nơi phải thực hiện ít nhất một ứng dụng cục bộ (ứng dụng chỉ sử dụng dữ liệu cục bộ của nơi này).  Ứng dụng toàn cục: mỗi nơi phải tham gia vào sự thực hiện ít nhất một ứng dụng toàn cục (ứng dụng sử dụng dữ liệu của ít nhất 2 nơi) 8 07/05/14 5 Các đặc điểm của CSDLPB so với CSDLTT Điều khiển tập trung Độc lập dữ liệu Giảm dư thừa Các cấu trúc vật lý phức tạp và truy xuất hiệu quả Tính toàn vẹn, phục hồi, điều khiển đồng thời Tính riêng biệt và tính bảo mật 9 Điều khiển tập trung  Điều khiển tâp trung tùy thuộc vào kiến trúc  CSDLPB có cấu trúc điều khiển phân cấp • Người quản trị CSDL toàn cục (Global DBA) • Người quản trị CSDL cục bộ (Local DBA)  Tính tự trị vị trí 10 Điều khiển tập trung 07/05/14 6 Độc lập dữ liệu: tổ chức hiện tại của dữ liệu là trong suốt với ngƣời lập trình ứng dụng  Các chương trình không bị ảnh hưởng bởi những thay đổi về cấu trúc vật lý của dữ liệu  Trong suốt dữ liệu  Trong suốt trong phân mảnh • Không nhìn thấy các mảnh • Nhìn thấy các quan hệ toàn cục (global relation) • Lược đồ toàn cục (global schema)  Trong suốt vị trí • Không nhìn thấy các quan hệ cục bộ • Nhìn thấy các mảnh (fragment) • Lược đồ phân mảnh (fragmentation schema) 11 Độc lập dữ liệu Trong suốt dữ liệu  Trong suốt nhân bản (Replication transparence) • Nhìn thấy các mảnh • Không nhìn thấy nhân bản các mảnh  Trong suốt trong ánh xạ cục bộ (local mapping transpatence) • Nhìn thấy các quan hệ cục bộ (local relation) • Không nhìn thấy CSDL vật lý  Trong suốt trong phân bố (distribution transparency): gồm bốn tính trong suốt trên 12 Độc lập dữ liệu 07/05/14 7 13 Các mảnh và các hình ảnh vật lý của một quan hệ toàn cục Độc lập dữ liệu Giảm dƣ thừa  Trong CSDLPB dư thừa dữ liệu được giảm càng nhiều càng tốt: • Những sự không nhất quán • Vùng nhớ dữ liệu được tiết kiệm  Trong CSDLPB dư thừa dữ liệu là một đặc điểm cần thiết • Tính cục bộ của các ứng dụng có thể được gia tăng • Tính sẵn sàng của hệ thống có thể được gia tăng 14 Giảm dư thừa 07/05/14 8 Nhân bản dữ liệu (Data replication): có nhiều bản sao của một mục dữ liệu thì việc lấy dữ liệu có thể được thực hiện trên bất lỳ bản sao nào, trong khi việc cập nhật dữ liệu phải thực hiện nhất quán trên tất cả bản sao  Ứng dụng chỉ đọc  Ứng dụng cập nhật 15 Giảm dư thừa Các cấu trúc vật lý phức tạp và truy xuất hiệu quả Trong CSDLTT các cấu trúc truy xuất phức tạp như chỉ mục thứ cấp, chuỗi kết nốicác cấu trúc này hỗ trợ cho việc truy xuất hiệu quả Trong CSDL phân bố cấu trúc truy xuất phức tạp không phải là một công cụ đúng để truy xuất dữ liệu hiệu quả. Xét lược đồ CSDL sau 16 07/05/14 9 Ứng dụng: “tìm tất cả các mẩu tin của Part được cung cấp bởi nhà cung cấp S1 ” Find SUPPLIER record with SUP# = S1 Repeat until “no more members in set” Find next PART record in SUPPLIER-PART set; Output PART record Truy xuất trên từng mẩu tin 17 Các cấu trúc vật lý phức tạp và truy xuất hiệu quả 18 Các cấu trúc vật lý phức tạp và truy xuất hiệu quả 07/05/14 10 Find all: gom tất cả các truy xuất đƣợc thực hiện trên cùng một nơi At site 1:  Gởi đến site 2 và 3 nhà cung cấp S1 At site 2 và 3  Thực hiện song song Find all PARTS records having SUP#=S1 Send result to site 1 At site 1  Trộn kết quả từ site 2 và 3  Output kết quà 19 Các cấu trúc vật lý phức tạp và truy xuất hiệu quả Chia thành 2 loại:  Tối ưu hóa toàn cục: • Xác định dữ liệu nào phải được truy xuất tại các nơi nào. • Chi phí truyền thông  Tối ưu hóa cục bộ • Truy xuất csdl cục bộ được thực hiện như thế nào tại mỗi nơi 20 Các cấu trúc vật lý phức tạp và truy xuất hiệu quả 07/05/14 11 Tính toàn vẹn Giao tác: là một đơn vị xứ lý nguyên tố, nghĩa là một chuỗi các tác vụ hoặc tất cả thực hiện hoặc tất cả không thực hiện. Giao tác toàn cục: là một ứng dụng toàn cục.  Ví dụ ứng dụng chuyển quỹ: cả hai phần ghi nợ và ghi có đều được thực hiện hoặc không thực hiện Tính nguyên tố:  Sự hư hỏng  Thực hiện đồng thời 21 Tính riêng biệt và tính bảo mật Thực hiện truy xuất dữ liệu có thẩm quyền Bảo mật cơ sở dữ liệu cục bộ Bảo mật mạng truyền thông 22 07/05/14 12 Tại sao phải dùng cơ sở dữ liệu phân bố Lý do về mặt tổ chức kinh tế  Nhiều tổ chức không được tập trung hóa Kết nối lẫn nhau của các CSDL hiện tại  Các CSDL phân bố là giải pháp tự nhiên khi có nhiều CSDL đã tồn tại trong một tổ chức và cần phải thực hiện nhiều ứng dụng cục bộ hơn Sự lớn mạnh gia tăng  Tổ chức lớn mạnh lên do có thêm các đơn vị tổ chức tương đối độc lập (các chi nhánh mới, các kho mới) 23 Giảm chi phí truyền thông  CSDL ở ví dụ 1.1, nhiều ứng dụng cục bộ làm giảm chi phí truyền thông so với CSDL tập trung. Các nguyên cứu về hiệu suất  Vì có nhiều bộ xử lý độc lập, do đó hiệu suất được nâng cao thông qua một cơ chế song song hóa mức độ cao  Có ưu điểm trong trường hợp sự phân rã dữ liệu phản ánh các tiêu chí phụ thuộc ứng dụng, mà tiêu chí này là cực đại hóa tính cục bộ của ứng dụng. 24 Tại sao phải dùng cơ sở dữ liệu phân bố 07/05/14 13 Độ tin cậy và tính sẵn sàng  Vì độ dư thừa của dữ liệu, tính sẵn sàng của dữ liệu cao  Cần đảm bảo độ tin cậy của dữ liệu. Khả năng xử lý tự trị ở các nơi khác nhau tuy nhiên không thể bảo đảm toàn bộ độ tin cậy cao của hệ thống, nhưng nó đảm bảo đặc tính suy biến. 25 Tại sao phải dùng cơ sở dữ liệu phân bố Các hệ quản trị cơ sở dữ liệu phân bố. Một hệ quản trị CSDL phân bố (DDBMS – Distributed DBMS) hỗ trợ tạo lập và bảo trì các CSDL phân bố. Các thành phần của DDBMS  Quản trị CSDL(DB – Database Management) • Quản lý CSDL • Thực hiên các yêu cầu của ứng dụng: xử lý dữ liệu  Truyền thông dữ liệu (DC – Data Communication) • Nhận yêu cầu truy xuất dữ liệu của các ứng dụng chạy tại thiết bị đầu cuối • Trả kết quả về cho ứng dụng 26 07/05/14 14 Các thành phần của DDBMS  Từ điển dữ liệu (DD – Data Distionary) • Lưu trữ thông tin về các đối tượng bên trong CSDL • Lưu trữ thông tin về sự phân tán dữ liệu tại các nơi  CSDL phân bố (DDB – Distributed Database) • Liên lạc giữa các nơi: gởi yêu cầu và nhận kết quả 27 Các hệ quản trị cơ sở dữ liệu phân bố. 28 07/05/14 15 29 Các hệ quản trị cơ sở dữ liệu phân bố. Các thành phần của HQTCSDL thương mại Các dịch vụ tiêu biểu của HQTCSDLPB  Truy xuất CSDL từ xa bởi một chương trình ứng dụng  Hỗ trợ một số mức trong suốt trong phân bố: hỗ trợ cho thành phần mở rộng khác nhau ở các hệ thống khác nhau.  Hỗ trợ cho việc quản trị CSDL và điều khiển • Công cụ giám sát • Thu thập thông tin • Cung cấp cái nhìn toàn cục về các tập tin dữ liệu đang có tại các nơi khác nhau.  Hỗ trợ cho việc điều khiển đồng thời và phục hồi các giao tác phân bố 30 Các hệ quản trị cơ sở dữ liệu phân bố. 07/05/14 16 31 Các hoại truy xuất CSDLPB Các hệ quản trị cơ sở dữ liệu phân bố. 32 Các hoại truy xuất CSDLPB Các hệ quản trị cơ sở dữ liệu phân bố. 07/05/14 17 Tính đồng nhất và tính không đồng nhất  homogeneity, heterogeneity  Phần cứng  Hệ điều hành  Các DBMS cục bộ DDBMS đồng nhất  Các DBMS cục bộ giống nhau. DDBMS không đồng nhất  Có ít nhất hai DBMS cục bộkhác nhau.  Chuyển đổi các mô hình dữ liệu khác nhau. 33 Các hệ quản trị cơ sở dữ liệu phân bố. 34

Các file đính kèm theo tài liệu này:

  • pdfchuong_1_tong_quan_ve_co_so_du_lieu_phan_bo_4395.pdf