Bài giảng Các hệ cơ sở dữ liệu - 5. Tối ưu hóa truy vấn

Các quy tắc tối ưu hóa • Bảng (table): – có khóa chính (Primary Key) – có ít nhất 01 clustered indextable – có số lượng non-clustered index phù hợp. – Non-clustered index phải ñược tạo trên các cột (column) của bảng (table) dựa vào nhu cầu truy vấn. • Dựa theo sự sắp xếp thứ tự như sau khi có bất kỳ index ñược tạo: a) WHERE clause, b) JOIN clause, c) ORDER BY clause, d) SELECT clause • Không nên dùng Views thay cho bảng (table) gốc. • Triggers không nên sử dụng nếu không cần thiết, nên nhập những xử lý từ trigger vào trong thủ tục (stored procedure). • Gỡ bỏ những câu lệnh query trực tiếp và thay bằng thủ tục (stored procedure). • Phải có ít nhất 30% không gian ñĩa cứng trên phân vùng chứa database. • Nếu có thể hãy chuyển UDF (user defined function) sang SP (stored procedure) • Chỉ SELECT những cột cần thiết, không nên SELECT * • Gỡ bỏ các joins từ các bảng (table) không cần thiết • Hạn chế sử dụng con trỏ (cursor) • ðảm bảo phần cứng ñáp ứng nhu cầu của hệ thống.

32 trang | Chia sẻ: vutrong32 | Lượt xem: 1410 | Lượt tải: 1

Bạn đang xem trước 20 trang tài liệu Bài giảng Các hệ cơ sở dữ liệu - 5. Tối ưu hóa truy vấn, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

5.1 Xử lý câu truy vấn Giới thiệu Bộ biên dịch câu truy vấn (query compiler) Phân tích cú pháp Nội dung chi tiết DBMS05 – Slides 3 Cây phân tích (parse tree) Chuyển cây phân tích sang ðSQH Câu truy vấn ñơn giản Câu truy vấn lồng - lồng tương quan Qui tắc tối ưu cây truy vấn Ước lượng chi phí Giới thiệu R(A, B, C) S(C, D, E) DBMS05 – Slides 4 SELECT B, D FROM R, S WHERE R.A=‘c’ AND S.E=2 AND R.C=S.C Giới thiệu (tt) 10 x 2 C D ES 20 y 2 A B CR a 1 10 b 1 10 Câu truy vấn ñược thực hiện như thế nào? DBMS05 – Slides 5 30 z 2 40 x 1 50 y 3 c 2 10 d 2 10 e 3 10 Kết quả B D 2 x Giới thiệu (tt) Cách 1 Tích cartesian DBMS05 – Slides 6 Phép chọn (selection) Phép chiếu (projection) ΠB,D [ σR.A=‘c’ ∧ S.E=2 ∧ R.C = S.C (RxS)] Giới thiệu (tt) A B CRxS a 1 10 C D E 10 x 2 a 1 10 20 y 2 DBMS05 – Slides 7 c 2 10 x 210 c 2 10 y 220 ... c 2 10 z 230 ... Giới thiệu (tt) Cách 2 Phép chọn (selection) Phép kết (natural join) DBMS05 – Slides 8 Phép chiếu (projection) ΠB,D [ σR.A=‘c’ (R) σS.E=2 (S)] Giới thiệu (tt) C D E 10 x 2 20 y 2 30 z 2 40 x 1 SA B C a 1 10 b 1 10 c 2 10 d 2 10 R DBMS05 – Slides 9 50 y 3e 3 10 A B C c 2 10 σR C D E 10 x 2 σS 20 y 2 30 z 2 Giới thiệu (tt) Cách 3 - sử dụng chỉ mục trên R.A và S.C Tìm các bộ trong R thỏa R.A=‘c’ Với mỗi bộ tìm thấy, tìm tiếp các bộ trong S DBMS05 – Slides 10 thỏa R.C=S.C Bỏ ñi những bộ S.E ≠ 2 Kết các bộ phù hợp của R và S Chiếu trên thuộc tính B và D Giới thiệu (tt) C D E 10 x 2 S A B C a 1 10 R I2I1 =‘c’A C DBMS05 – Slides 11 20 y 2 30 z 2 40 x 1 50 y 3 b 1 10 c 2 10 d 2 10 e 3 10 Kiểm tra E=2?Kết quả Bộ có A=‘c’ kế tiếp Câu hỏi DBMS05 – Slides 12 Giới thiệu (tt) DBMS thực hiện cách nào DBMS05 – Slides 13 Bộ biên dịch SQL Query Parse query Select logical Query expression tree Tập trung vào RDBMS DBMS05 – Slides 14 query plan Select physical plan Execute plan Logical query plan tree Physical query plan tree Query optimization Quá trình biên dịch Parse Query Convert Execute AnswerParse tree Logical query plan DBMS05 – Slides 15 Apply laws Estimate result sizes Consider physical plans Estimate costs Pick the bestImprove logical query plan Logical query plan + sizes {P1, P2, } {(P1,C1), (P2,C2) } Pi statistics Cây phân tích DBMS05 – Slides 16 SELECT FROM WHERE = IN LIKE AND Customer(cusID, cusNm, cusStreet, cusCity) Account(accID, cusID, balance) Ví dụ 1 SELECT cusNm FROM Customer DBMS05 – Slides 17 WHERE cusID IN ( SELECT cusID FROM Account WHERE balance > 100) Ví dụ 1 (tt) SELECT FROM WHERE IN DBMS05 – Slides 18 cusNm Customer cusID SELECT FROM WHERE cusID Account balance = 100 Customer(cusID, cusNm, cusStreet, cusCity) Account(accID, cusID, balance) Ví dụ 2 SELECT cusNm FROM Customer, Account DBMS05 – Slides 19 WHERE Customer.cusID = Account.cusID AND balance = 100 Ví dụ 2 (tt) SELECT FROM WHERE DBMS05 – Slides 20 cusNm Customer Account , AND = = Customer.cusID Account.cusID balance 100 Giới hạn GROUP BY HAVING ORDER BY Nhận xét DBMS05 – Slides 21 DISTINCT Aggregation function (Max, Min, Count, Sum, Avg) Alias name Câu hỏi Vẽ cấu trúc cây của câu truy vấn sau: SELECT * FROM Customers DBMS05 – Slides 22 SELECT CustomerID, CustomerName FROM Customers WHERE CustomerID in (SELECT CustomersID FROM Invoices WHERE TotalCost > 1000) Tiền xử lý (preprocessing) Kiểm tra ngữ nghĩa Quan hệ Thuộc tính Select DBMS05 – Slides 23 From Kiểu dữ liệu Where Quá trình biên dịch Convert Query Parse Execute AnswerParse tree Logical query plan DBMS05 – Slides 24 Apply laws Estimate result sizes Consider physical plans Estimate costs Pick the bestImprove logical query plan Logical query plan + sizes {P1, P2, } {(P1, C1), (P2,C2) } Pi statistics Biến ñổi sang ðSQH Truy vấn ñơn Xét câu trúc Thay thế thành các biến quan hệ Sử dụng phép tích cartesian cho các biến quan hệ Thay thế thành phép chọn σC DBMS05 – Slides 25 Thay thế thành phép chiếu πL R S T x σC πL Cây truy vấn Xét ví dụ 2 πcusNm σCustomer.cusID=Account.cusID ∧ balance=100 DBMS05 – Slides 26 Customer Account x Biến ñổi sang ðSQH (tt) Truy vấn lồng Tồn tại câu truy vấn con S trong Áp dụng qui tắc cho truy vấn con Phép chọn 2 biến (two-argument selection) Nút là phép chọn không có tham số Nhánh con trái là biến quan hệ R DBMS05 – Slides 27 Nhánh con phải là áp dụng cho mỗi bộ trong R σ R STuple Operator Xét ví dụ 1 πcusNm σ Customer DBMS05 – Slides 28 IN ΠcusID cusID σbalance=100 Account Biến ñổi sang ðSQH (tt) Truy vấn lồng Biến ñổi phép chọn 2 biến Thay thế bằng 1 cây có gốc là S Nếu S có các bộ trùng nhau thì phải lược bỏ bớt bộ trùng nhau ñi Sử dụng phép δ Thay thế phép chọn 2 biến thành σ DBMS05 – Slides 29 C σC là kết quả của phép cartesian của R và S σ R STuple Operator σC R S x δ Xét ví dụ 1 (tt) πcusNm σCustomer.cusID=Account.cusID X DBMS05 – Slides 30 Customer πcusID σbalance=10 Account δ Xét ví dụ 1 (tt) πcusNm Customer.cusID=Account.cusID DBMS05 – Slides 31 Customer πcusID σbalance=10 Account δ Customer(cusID, cusNm, cusStreet, cusCity) Account(accID, cusID, balance) Ví dụ 3 SELECT c.cusNm FROM Customer c Truy vấn lồng tương quan DBMS05 – Slides 32 WHERE 10000 >= ( SELECT SUM(a.balance) FROM Account a WHERE a.cusID=c.cusID) Ví dụ 3 (tt) πcusNm σ X DBMS05 – Slides 33 Customer c ≥ 10000 γSUM(a.balance) σc.custID=a.cusID Account a Ví dụ 3 (tt) πc.cusNm σ10000 ≥ SoB DBMS05 – Slides 34 Customer c γa.custID, SUM(a.balance) Account a SoB c.cusID = a.cusID Câu hỏi Biến ñổi câu truy vấn sau sang ñại số quan hệ: Select custID, CustomerName, InvoieID From Customers, Invoices DBMS05 – Slides 35 Where Customers.custID = Invoices.custID Quá trình biên dịch Convert Query Parse Execute AnswerParse tree Logical query plan DBMS05 – Slides 36 Apply laws Estimate result sizes Consider physical plans Estimate costs Pick the bestImprove logical query plan Logical query plan + sizes {P1, P2, } {(P1, C1), (P2,C2) } Pi statistics Qui tắc: Kết tự nhiên, tích cartesian, hội R S = S R (R S) T = R (S T) R x S = S x R DBMS05 – Slides 37 (R x S) x T = R x (S x T) R ∪ S = S ∪ R R ∪ (S ∪ T) = (R ∪ S) ∪ T Qui tắc: Phép chọn σ Cho p là vị từ chỉ có các thuộc tính của R q là vị từ chỉ có các thuộc tính của S m là vị từ có các thuộc tính của R và S DBMS05 – Slides 38 σp1∧p2(R) = σp1vp2(R) = σp1 [σp2 (R)] [σp1 (R)] ∪ [σp2 (R)] Quan hệ R là tập hợp ∪S là phép hội trên tập hợp Pushing selections Qui tắc: σ, σp (R S) = [σp (R)] S σσ DBMS05 – Slides 39 R [ q (S)]q (R S) = Qui tắc: σ, (tt) σp∧q (R S) = σ (R S) = [σp (R)] [σq (S)] σ [σ (R) σ (S)] DBMS05 – Slides 40 p∧q∧m σp∨q (R S) = m p q [σp (R) S] ∪ [R σq (S)] Qui tắc: σ, ∪ và σ, – σc (R ∪ S) = σ σσ σc (R) ∪ σc (S) σ DBMS05 – Slides 41 = c (R) – c (S)]c (R – S) = c (R) – S Qui tắc: Phép chiếu π Cho X = tập thuộc tính con của R Y = tập thuộc tính con của R Ta có DBMS05 – Slides 42 XY = X ∪ Y πXY (R) = πX [πY (R)] Qui tắc: π, Cho X = tập thuộc tính con của R Y = tập thuộc tính con của S Z = tập giao thuộc tính của R và S DBMS05 – Slides 43 Pushing projections πXY (R S) = πXY [ πXZ(R) πYZ(S)] Except intersection and difference Qui tắc: σ, π Cho X = tập thuộc tính con của R Z = tập thuộc tính con của R xuất hiện trong vị từ p π DBMS05 – Slides 44 πX [σp (R)] = {σp [πX (R)]} πX XZ Qui tắc: σ, π, Cho X = tập thuộc tính con của R Y = tập thuộc tính con của S Z = tập giao thuộc tính của R và S DBMS05 – Slides 45 Z’ = Z ∪ {các thuộc tính xuất hiện trong vị từ p}πXY [σp (R S)] = πXY {σp [πXZ’ (R) πYZ’ (S)]} Nhận xét: σ, π Ví dụ R(A, B, C, D, E) X={E} p: A=3 ∧ B=‘a’ DBMS05 – Slides 46 πx [σp (R)] πE {σp [πABE(R)]} Chọn trước tốt hơn??? Chiếu trước tốt hơn??? Nhận xét: σ, π (tt) Bình thường Chiếu trước Nhưng Giả sử A và B ñược cài ñặt chỉ mục (index) DBMS05 – Slides 47 Physical query plan dùng chỉ mục ñể chọn ra những bộ có A=3 và B=‘a’ trước Nếu thực hiện chiếu trước πAB(R) thì chỉ mục trên A và B là vô ích Chọn trước →Thông thường chọn trước tốt hơn Qui tắc: ×, σC (R S) = R C S π σ DBMS05 – Slides 48 R × S = L [ C (R × S)] Qui tắc: δ δ(R S) = δ(R) δ(S) δ(R × S) = δ(R) × δ(S) δ[σ (R)] = σ [δ(R)] DBMS05 – Slides 49 C C δ(R ∩B S) = δ(R) ∩B S = R ∩B δ(S) = δ(R) ∩B δ(S) Except: ∪B , −B , π Qui tắc: δ[γ (R)] = γ (R) γ Cho X = tập thuộc tính trong R ñược gom nhóm Y = X ∪ {một số thuộc tính khác của R} DBMS05 – Slides 50 X X γX(R) = γX [πY (R)] Xét ví dụ 2 πcusNm σCustomer.cusID=Account.cusID ∧ balance=100 DBMS05 – Slides 51 Customer Account x Xét ví dụ 2 πcusNm σbalance=100 Qui tắc σ DBMS05 – Slides 52 Customer Account x σCustomer.cusID=Account.cusID Xét ví dụ 2 (tt) πcusNm σbalance=100 Qui tắc σ, DBMS05 – Slides 53 Customer Account Customer.cusID=Account.cusID Xét ví dụ 2 (tt) πcusNmPushing σ DBMS05 – Slides 54 σbalance=100Customer Account Customer.cusID=Account.cusID Xét ví dụ 2 (tt) πcusNm Customer.cusID=Account.cusID Pushing π DBMS05 – Slides 55 σbalance=100Customer Account πcusNm, cusID πcusID Quá trình biên dịch Convert Query Parse Execute AnswerParse tree Logical query plan DBMS05 – Slides 56 Apply laws Estimate result sizes Consider physical plans Estimate costs Pick the bestImprove logical query plan Logical query plan + sizes {P1, P2, } {(P1, C1), (P2,C2) } Pi statistics Ước lượng chi phí Ước lượng kích thước cây truy vấn Quan hệ Các phép toán DBMS05 – Slides 57 Ước lượng số lần truy xuất IOs Số blocks ñược ñọc hoặc ghi ñể thực hiện cây truy vấn Ước lượng kích thước Thống kê quan hệ R T(R): số bộ trong R S(R): tổng số byte của 1 bộ trong R B(R): tổng số block chứa tất cả các bộ của R DBMS05 – Slides 58 V(R, A): số giá trị khác nhau mà thuộc tính A trong R có thể có Ví dụ A B CR x 1 10 D a x 1 20 b 1 1 30 40 a c y y A: chuỗi 20 bytes B: số nguyên 4 bytes C: ngày 8 bytes D: chuỗi 68 bytes 1 block = 1024 bytes DBMS05 – Slides 59 1 50 dz T(R) = 5 S(R) = 100 B(R) = 1 V(R, A) = 3 V(R, B) = 1 V(R, C) = 5 V(R, D) = 4 (block header: 24 bytes) Ước lượng: W = R1 × R2 S(W) = S(T1) + S(T2) DBMS05 – Slides 60 T(W) = T(R1) x T(T2) Ước lượng: W = S(W) = S(R) σZ = val (R) T(R) DBMS05 – Slides 61 T(W) = V(R, Z) Số bộ trung bình thỏa ñiều kiện Z=val Ước lượng: W = T(W) = ??? σZ ≥ val (R) Cách 1 T(W) = T(R) 2 DBMS05 – Slides 62 Cách 2 T(W) = T(R) 3 Ví dụ S = σ (R) Cho R(A, B, C) T(R) = 10000 V(R, A) = 50 DBMS05 – Slides 63 A=10 ∧ B<20 Ước lượng kích thước biểu thức T(S) = T(R) V(R, A) x 3 = 10000 50 x 3 = 67 Ví dụ (tt) S = σA=10 ∨ B<20 (R) Ước lượng kích thước biểu thức Giả sử n là T(R) DBMS05 – Slides 64 m1 là số bộ thỏa A=10 trong R m2 là số bộ thỏa B<20 trong R T(S) = n(1 – (1 – m1 n m2 n )(1 – )) Ước lượng: W = R1 R2 Cho X = tập thuộc tính của R1 Y = tập thuộc tính của R2 DBMS05 – Slides 65 Xét trường hợp X ∩ Y = ∅ T(W) = ? Tương tự R1 × R2 Ước lượng: W = R1 R2 (tt) Xét trường hợp X ∩ Y = A Giả sử A B CR1 A DR2 DBMS05 – Slides 66 V(R1, A) ≤ V(R2, A) Mọi giá trị của A trong R1 thì có trong R2 V(R2, A) ≤ V(R1, A) Mọi giá trị của A có trong R2 thì có trong R1 Ước lượng: W = R1 R2 (tt) A B CR1 A DR2 Chọn 1 bộ Tìm DBMS05 – Slides 67 1 bộ trong R1 sẽ thỏa với T(R2) V(R2, A) bộ trong R2 T(W) = T(R1) x T(R2) V(R2, A) Ước lượng: W = R1 R2 (tt) V(R1, A) ≤ V(R2, A) V(R2, A) ≤ V(R1, A) T(W) = T(R1) x T(R2) V(R2, A) DBMS05 – Slides 68 T(W) = T(T1) T(R2) max{V(R1, A), V(R2, A)} Tổng quát T(W) = T(R2) x T(R1) V(R1, A) Ước lượng: W = R1 R2 (tt) Xét trường hợp X ∩ Y = A W(A, B, C, D) Các thuộc tính không tham gia vào phép kết thì A B CR1 A DR2 DBMS05 – Slides 69 số lượng các giá trị vẫn giữ nguyên V(W, A) = min {V(R1, A), V(R2, A)} V(W, B) = V(R1, B) V(W, C) = V(R1, C) V(W, D) = V(R2, D) Ví dụ Z = R1(A, B) R2(B, C) R3(C, D) R R R DBMS05 – Slides 70 1 T(R1) = 1000 V(R1, A) = 50 V(R1, B) = 100 2 T(R2) = 2000 V(R2, B) = 200 V(R3, C) = 300 3 T(R3) = 3000 V(R3, C) = 90 V(R3, D) = 500 Ví dụ (tt) U = R1(A, B) R2(B, C) 1000 x 2000 V(U, A) = 50 DBMS05 – Slides 71 T(U) = 200 V(U, B) = 100 V(U, C) = 300 Ví dụ (tt) Z = U R3(C, D) 1000 x 2000 x 3000 V(Z, A) = 50 V(Z, B) = 100 DBMS05 – Slides 72 T(Z) = 200 x 300 V(Z, C) = 90 V(Z, D) = 500 Nhận xét Phép chiếu Phép tích Phép chọn Ước lượng chính xác Ước lượng tương ñối hợp lý DBMS05 – Slides 73 Phép kết Phép toán khác Hội Giao Trừ Lược bỏ trùng lắp Gom nhóm - số lượng bộ của các quan hệ tương ñối lớn - giá trị của các thuộc tính phân bố ñồng ñều Ước lượng: W = R1 ∪ R2 R1 và R2 là bag R và R là set T(W) = T(R1) + T(R2) DBMS05 – Slides 74 1 2 T’(W) = T(R1) + T(R2) T’’(W) ≤ T(R1) + T(R2) →T(W) = T’(W) + T’’(W) 2 Ước lượng: W = R1 ∩ R2 Cách 1 TH1: T’(W)=0 TH2: T’’(W)= T(R1) hoặc T’’(W)=T(R2) R1 R2 DBMS05 – Slides 75 Cách 2 Trường hợp ñặc biệt của phép kết tự nhiên Chỉ áp dụng cho ∩S →T(W) = T’(W) + T’’(W) 2 T(W) = T(R1) T(R2) max{V(R1, Z), V(R2, Z)} Ước lượng: W = R1 − R2 TH1: T(W) = T(R1) TH2: T(W) = T(R1) – T(R2) DBMS05 – Slides 76 → T(W) = T(R1) − 1 2 T(R2) Ước lượng: W = δ(R) TH1: T(W) = 1 Nếu trong R không có bộ nào thì T(W)=0 TH2: T(W) = T(R) DBMS05 – Slides 77 R(a1, a2, , an) Số bộ phân biệt tối ña của R là tích các V(R, ai), i=1..n → T(W) = min{ 1 2 T(R1), tích các V(R, ai)} Ước lượng: W = (R) γL(R) Số lượng bộ trong W và cũng là số lượng nhóm TH1: T(W) = 1 γ DBMS05 – Slides 78 TH2: T(W) = T(R) R(a1, a2, , an) Số lượng nhóm tối ña là tích các V(R, ai), i=1..n→ T(W) = min{ 12 T(R1), tí h các V(R, ai)} R(a, b) T(R)=5000 V(R, a)=50 V(R, b)=100 Ví dụ δ σa =10 DBMS05 – Slides 79 S(b, c) T(S)=2000 V(S, b)=200 V(S, c)=100 R S Ví dụ (tt) δ δ δ 100050 250 1000 500 DBMS05 – Slides 80 σa =10 R Sσa =10 R S 5000 100 2000 5000 2000 100 (1) (2) Ví dụ (tt) Cộng kích thước sau khi thực hiện các phép toán, ngoại trừ Các nút lá Nút gốc DBMS05 – Slides 81 (1): 100+50+1000=1150 (2): 100+1000=1100 Phép lược bỏ trùng lắp thực hiện sau thì tốt hơn Ước lượng số lần truy xuất IOs Các tham số thống kê B(R): tổng số block chứa tất cả các bộ của R f(R): số bộ tối ña trong mỗi block M: số block trống trên bộ nhớ DBMS05 – Slides 82 Quan tâm Quan hệ R có ñược gom thành cụm không (clustered)? Thuộc tính trong các phép toán có chỉ mục không (index)? Chỉ mục có gom cụm không (clustering index)? Kết quả cần ñược sắp thứ tự không? Clustering Clustered-file Clustered relation R R S S S S R R S T T T U U DBMS05 – Slides 83 Clustering index R R S T r1 r1 r1 r1 r1 r1 r1 r1 r1 r1 r2 r2 r2 r2 r2 r2 r1 r1 r1 r1 r1 r1 r1 r1 r2 r2 r2r1 r1 Ví dụ R1 R2 T(R1) = 10000 T(R2) = 5000 S(R1) = S(R2) = 1/10 block DBMS05 – Slides 84 M=101 blocks Số block ñược ñọc (bỏ qua việc ghi) ñể thực hiện phép kết tự nhiên trên là bao nhiêu? Nhận xét Ước lượng số lần truy xuất IOs không là cách tốt nhất Bỏ qua chi phí CPU Bỏ qua tham số thời gian DBMS05 – Slides 85 Xét trường hợp M ñủ hoặc thiếu DBMS05 – Slides 86 5.2 Tối ưu hóa các câu truy vấn Giới thiệu Kế hoạch truy vấn Duyệt bảng Iterator Nội dung chi tiết DBMS05 – Slides 88 Kế hoạch cho phép chọn Kế hoạch cho phép kết Tối ưu hóa câu truy vấn Phát sinh các kế hoạch truy vấn So sánh các kế hoạch truy vấn Giới thiệu Câu truy vấn Kế hoạch DBMS05 – Slides 89 Phát sinh Tỉa cành X X Ước lượng chi phí Chi phí Chọn chi phí bé nhất Ước lượng chi phí và chọn chi phí bé nhất Ước lượng trước và sau khi chuyển ñổi từ cây truy vấn này sang cây truy vấn khác Tính toán chi phí (tìm min) Loại bỏ ñi những trường hợp chuyển ñổi có chi phí Giới thiệu (tt) DBMS05 – Slides 90 lớn hơn min Chú ý Ước lượng kết quả trung gian Chưa quyết ñịnh chọn cách thực hiện các phép toán Ước lượng chi phí không dựa vào việc truy xuất ñĩa Giải thuật và thuật toán Exhaustive search Branch and Bound search Greedy Giới thiệu (tt) DBMS05 – Slides 91 Hill Climbing Dynamic programming Quá trình biên dịch Convert Query Parse Execute AnswerParse tree Logical query plan DBMS05 – Slides 92 Apply laws Estimate result sizes Consider physical plans Estimate costs Pick the bestImprove logical query plan Logical query plan + sizes {P1, P2, } {(P1, C1), (P2,C2) } Pi statistics Kế hoạch truy vấn Chọn phép toán thích hợp Duyệt bảng Table-scan Index-scan Sort-scan DBMS05 – Slides 93 Iterators Gồm 3 hàm Open(), GetNext() và Close() cho phép lấy ra 1 bộ trong quan hệ R Chọn thuật toán thích hợp cho phép toán Ước lượng chi phí Phương pháp duyệt bảng Table-scan R R R ðọc từng block DBMS05 – Slides 94 Index-scan ðọc thông qua chỉ mục Ind A A R R R Phương pháp duyệt bảng (tt) Sort-scan Sắp thứ tự trong lúc ñọc Cách 1 Nếu quan hệ R có thuộc tính a ñược sắp thứ tự, và a có chỉ mục DBMS05 – Slides 95 B-tree index Indexed-sequencial Duyệt trên chỉ mục Phương pháp duyệt bảng (tt) Sort-scan Sắp thứ tự trong lúc ñọc Cách 2 Nếu quan hệ R không quá lớn ðọc R bằng phương pháp table-scan hoặc index-scan DBMS05 – Slides 96 Dùng thuật toán sắp thứ tự Cách 3 Nếu R quá lớn Dùng phương pháp trộn (multiway-merging) Iterators Open() Chuẩn bị các cấu trúc dữ liệu phù hợp với quan hệ R GetNext() DBMS05 – Slides 97 Trả về bộ kế tiếp Trả về giá trị NotFound Close() Dừng việc ñọc sau khi ñã ñọc hết các bộ trong R Iterators và table-scan Open(){ b := the first block of R; t := the first tuple of block b; } GetNext(){ if(t is past the last tuple on block b){ increment b to the next block; if(there is no next block) DBMS05 – Slides 98 return NotFound; else /*b is a new block*/ t := first tuple on block b } /*return t and increment*/ tmp := t; increment t to the next tuple of b; return tmp; } Close(){ } Phép chọn - σC(R) (1) Cho Aθc là dạng so sánh A là thuộc tính có chỉ mục θ là toán tử so sánh =, >, < c là hằng số (2) Sử dụng phương pháp index-scan DBMS05 – Slides 99 ñể truy xuất các bộ thỏa ñiều kiện ở (1) (3) Với mỗi bộ thỏa (2), xét tiếp các ñiều kiện còn lại trong C (gọi là bước Filter) Ước lượng chi phí Cho R(a, b) và σC(R) Dùng table-scan + filter Nếu R clustered: B(R) Nếu R non-clustered: T(R) Dùng index-scan ñể chọn ra những bộ thỏa ñiều kiện a=val + filter DBMS05 – Slides 100 Nếu a clustering index: B(R) / V(R,a) Nếu a non-clustering index: T(R) / V(R, a) Dùng index-scan ñể chọn ra những bộ thỏa ñiều kiện b<val + filter Nếu b clustering index: B(R) / 3 Nếu b non-clustering index: T(R) / 3 Ví dụ R(x, y, z) R là clustered x, y, z có chỉ mục (z là clustering index) DBMS05 – Slides 101 T(R) = 5000 B(R) = 200 V(R, x) = 100 V(R, y) = 500 σx=1∧y=20∧z<5 (R) Ví dụ (tt) (1) Dùng table-scan + filter Cần B(R) = 200 (2) Dùng chỉ mục trên x tìm những bộ thỏa x=1 Sau ñó filter ñể kiểm tra y=2 và z<5 Cần T(R) / V(R, x) = 50 DBMS05 – Slides 102 (3) Dùng chỉ mục trên y tìm những bộ thỏa y=1 Sau ñó filter ñể kiểm tra x=1 và z<5 Cần T(R) / V(R, y) = 10 (4) Dùng chỉ mục cụm trên z tìm những bộ thỏa z<5 Sau ñó filter ñể kiểm tra x=1 và y=1 Cần B(R) / 3 = 67 Phép kết - R1 R2 Nested loops Merge join Index join Hash join DBMS05 – Slides 103 Nested loops for each r ∈ R1 do for each s ∈ R2 do DBMS05 – Slides 104 if r.C =s.C then output the join of r and s Merge join (1) If R1 và R2 chưa ñược sắp thứ tự then sắp thứ tự (2) i=1; j=1 DBMS05 – Slides 105 While i<T(R1) và j<T(R2) do If R1[i].C = R2[j].C then xuất-kết-quả Else If R1[i].C > R2[j].C then j=j+1 Else If R1[i].C < R2[j].C then i=i+1 Ví dụ i R1{i}.C R2{j}.C j 1 10 5 1 2 20 20 2 3 20 20 3 DBMS05 – Slides 106 4 30 30 4 5 40 30 5 50 6 52 7 Index join Giả sử R2.C có chỉ mụcFor each r ∈ R1 { Dùng index trên R2.C chọn những bộ thỏa R2.C = r.C và ñưa vào X DBMS05 – Slides 107 For each s ∈ X output the join of r and s } Hash join Hàm băm H, giá trị từ 0 ñến k Buckets của R1: A0, A1, ..., Ak Buckets của R2: B0, B1, ..., Bk (1) Băm các bộ của R1 và ñưa vào A buckets DBMS05 – Slides 108 (2) Băm các bộ của R2 và ñưa vào B buckets (3) For i=0 to k Tìm các bộ trong bucket Ai và Bi thỏa R1.C = R2.C Ví dụ 2 4 3 5 4 12 R1 R2 Hàm băm theo qui tắc chẵn / lẻ Chẵn 2 4 8 4 12 8 14 DBMS05 – Slides 109 5 8 9 3 13 8 11 14 Lẻ 3 5 9 5 3 13 11 R1 R2 Ước lượng chi phí Xét thêm các ñiều kiện Các bộ trong 1 quan hệ có ñược lưu trữ tại các block liên tiếp nhau không? Các thuộc tính tham gia vào phép kết có DBMS05 – Slides 110 ñược sắp thứ tự hay không? Có tồn tại chỉ mục không? Ví dụ T(R1) = 10000 T(R2) = 5000 R1 R2 DBMS05 – Slides 111 S(R1) = S(R2) = 1/10 block M = 101 blocks Nested loops Chi phí cho một bộ trong R1: ðọc 1 bộ R + ðọc hết R Giả sử R1 và R2 lưu trữ không liên tiếp DBMS05 – Slides 112 1 2 Tổng cộng: 10000 (1 + 5000) = 50010000 Nested loops (tt) Chi phí cho một chunk trong R1: ðọc 1000 bộ R1 + ðọc hết R2 Giả sử 1 chunk = 100 block DBMS05 – Slides 113 Tổng cộng: (1000 + 5000) = 6000010000 1000 Nested loops (tt) Chi phí cho một chunk trong R2: ðọc 1000 bộ R + ðọc hết R R2 R1 DBMS05 – Slides 114 2 1 Tổng cộng: Giả sử 1 chunk = 100 block (1000 + 10000) = 550005000 1000 Nested loops (tt) Chi phí cho một chunk trong R2: ðọc 1 chunk R + ðọc hết R R2 R1 Giả sử R1 và R2 lưu trữ liên tiếp DBMS05 – Slides 115 2 1 Tổng cộng: Giả sử 1 chunk = 100 block (100 + 1000) = 55005000 1000 Merge join Giả sử R1 và R2 lưu trữ liên tiếp R1.C và R2.C ñã ñược sắp thứ tự R1 R1 DBMS05 – Slides 116 Chi phí: ðọc R1 + ðọc R2 1000 + 500 = 1500 R2 R2 Merge join (tt) Giả sử R1 và R2 lưu trữ liên tiếp R1.C và R2.C chưa sắp thứ tự Sắp thứ tự cho R1.C và R2.C DBMS05 – Slides 117 Tổng chi phí: Merge sort + Merge join Merger Sort Merge sort (1) For each chunk - ðọc chunk - Sắp thứ tự - Ghi chunk DBMS05 – Slides 118 R1 R2 . . . Memory Sorted chunk Merge sort (tt) (2) ðọc tất cả chunks + merge + ghi Sorted file DBMS05 – Slides 119 . . . . . . Memory Sorted chunks Merge sort (tt) Chi phí merge sort: Mỗi bộ ñược ñọc, ghi, ñọc, ghi DBMS05 – Slides 120 R1: 4 × 1000 = 4000 R2: 4 × 500 = 2000 Merge join (tt) Tổng chi phí: Giả sử R1 và R2 lưu trữ liên tiếp R1.C và R2.C chưa sắp thứ tự DBMS05 – Slides 121 Merge sort + Merge join 6000 + 1500 = 7500 Chi phí của nested loops = 5500 TH này merge join không hơn nested loops Index join Giả sử R1.C có chỉ mục R2 lưu trữ liên tiếp và không ñược sắp thứ tự ðọc R2 Với mỗi bộ trong R2, dùng index trên C tìm DBMS05 – Slides 122 trong R1 các bộ thỏa ñiều kiện (a) R2.C là khóa ngoại tham chiếu ñến khóa chính R1.C Chỉ có 1 bộ thỏa ñiều kiện (b) Giả sử V(R1, C)=5000 và ñược phân bố ñều trong R1 Có T(R1) / V(R1, C) = 10000/5000 = 2 bộ thỏa ñiều kiện Index join (tt) Chi phí (a) 500 + 5000(1) = 5500 (b) 500 + 5000(2) = 10500 DBMS05 – Slides 123 Hash join Giả sử R1 và R2 lưu trữ liên tiếp R1.C và R2.C chưa sắp thứ tự Sử dụng 100 buckets (1) ðọc R1 + hash + ghi xuống bucket DBMS05 – Slides 124 (2) Tương tự cho R2 . . . . . . 10 blocks 100R1 Memory Hash join (tt) (3) ðọc 1 bucket của R1 (4) ðọc 1 bucket tương ứng của R2, dò tìm (5) Lặp ñến khi hết bucket DBMS05 – Slides 125 R2 . . . R1 Memory. . . R1 Hash join (tt) Chi phí: Tạo bucket: ðọc R1 + ghi bucket ðọc R2 + ghi bucket DBMS05 – Slides 126 Kết: ðọc R1 + ðọc R2 3 × (1000 + 500) = 4500 Tổng kết Nested loops tốt khi các quan hệ không quá lớn Nếu phép kết bằng (quan hệ không ñược sắp thứ tự và không có chỉ mục) thì hash join luôn luôn tốt nhất Merge + sort tốt khi thực hiện phép kết so sánh DBMS05 – Slides 127 hơn Nếu quan hệ ñã ñược sắp thứ tự thì nên dùng merge join Nếu tồn tại chỉ mục trên các thuộc tính thì luôn có ích Các quy tắc tối ưu hóa • Bảng (table): – có khóa chính (Primary Key) – có ít nhất 01 clustered indextable – có số lượng non-clustered index phù hợp. – Non-clustered index phải ñược tạo trên các cột (column) của bảng (table) dựa vào nhu cầu truy vấn. • Dựa theo sự sắp xếp thứ tự như sau khi có bất kỳ index ñược tạo: a) WHERE clause, b) JOIN clause, c) ORDER BY clause, d) SELECT clause • Không nên dùng Views thay cho bảng (table) gốc. • Triggers không nên sử dụng nếu không cần thiết, nên nhập những xử lý từ trigger vào trong thủ tục (stored procedure). • Gỡ bỏ những câu lệnh query trực tiếp và thay bằng thủ tục (stored procedure). • Phải có ít nhất 30% không gian ñĩa cứng trên phân vùng chứa database. • Nếu có thể hãy chuyển UDF (user defined function) sang SP (stored procedure) • Chỉ SELECT những cột cần thiết, không nên SELECT * • Gỡ bỏ các joins từ các bảng (table) không cần thiết • Hạn chế sử dụng con trỏ (cursor) • ðảm bảo phần cứng ñáp ứng nhu cầu của hệ thống.

Các file đính kèm theo tài liệu này:

dbms05_6734.pdf