Bài giảng Cấu trúc máy tính - Chương 3: Bộ xử lý
Smart Memory Access (Truy xuất bộ nhớ thông minh)
Tối ưu hóa việc sử dụng băng thông dữ liệu hiện có, làm giảm thời gian chờ dữ liệu cho các lệnh bên trong CPU.
Có hai kỹ thuật: Nạp trước dữ liệu và bộ nạp lệnh tiên tiến
tăng hiệu quả động cơ suy đoán thực hiện lệnh, giảm thiểu khả năng “trượt” cache
Advanced Digital Media Boost (Tăng tốc P. tiện số tiên tiến )
Cải thiện hiệu năng một cách đáng kể trên các ứng dụng video, hình ảnh, xử lý ảnh, đồ họa, mã hóa,
Hỗ trợ xử lý các lệnh SIMD 128-bit, tăng tốc thực thi lệnh Streaming SIMD Extension (SSE)
Rút ngắn 2 lần thời gian xử lý dữ liệu các ứng dụng multimedia
44 trang |
Chia sẻ: aloso | Lượt xem: 3933 | Lượt tải: 5
Bạn đang xem trước 20 trang tài liệu Bài giảng Cấu trúc máy tính - Chương 3: Bộ xử lý, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 3BỘ XỬ LÝ Các đặc tả bộ xử lý Các bộ xử lý Intel Các bộ xử lý công nghệ tiên tiến Nội dung BỘ XỬ LÝ Công nghệ chế tạo: mạch tổ hợp cỡ lớn VLSI (Very Large Scale Integrated Circuit). Bộ xử lý - CPU (Central Processing Unit): Bộ não của hệ thống máy tính Chức năng ? Thực hiện chương trình chứa trong bộ nhớ Cơ chế: nhập tuần tự từng lệnh từ bộ nhớ và xử lý Điều khiển hoạt động trao đổi dữ liệu giữa CPU và bộ nhớ, giữa CPU với thiết bị vào/ra và với các thiết bị khác. 1. CÁC ĐẶC TẢ CỦA BỘ XỬ LÝ Tốc độ của bộ xử lý Hệ số nhân tốc xung nhịp Bus dữ liệu Bộ nhớ đệm Cache Các loại đế cắm (Socket) và khe cắm (Slot) bộ xử lý Công suất tiêu thụ và vấn đề làm mát cho bộ xử lý 1. CÁC ĐẶC TẢ CỦA BỘ XỬ LÝ Tốc độ đồng hồ đo bằng tần số (Hz) = số chu kỳ nhịp /giây. Chu kỳ nhịp (Clock Cycle): thành phần thời gian nhỏ nhất của CPU Tốc độ của bộ xử lý = Tần số hoạt động ? Thực thi chương trình Thực hiện lệnh Chu kỳ lệnh (Inst. cycle) Thời gian cần để thực hiện xong một lệnh = 1 hoặc nhiều chu kỳ máy (machine cycle). Chu kỳ máy (machine cycle) Thực hiện một cuộc chuyển dữ liệu đơn thuần = 1 hoặc nhiều hơn một chu kỳ nhịp đồng hồ. Chu kỳ đợi (Wait state) Số chu kỳ để thực hiện lần truyền dữ liệu đầu tiên. Mỗi CPU cần số chu kỳ nhịp và thời gian khác nhau để thực thi lệnh. Trước khi truyền dữ liệu cần thêm chu kỳ đợi Khó đánh giá chính xác: Phụ thuộc nhiều yếu tố Dựa vào phép đo lường tiêu chuẩn (benchmark) Intel Tiêu chuẩn iCOM Tốc độ của bộ xử lý ? Tốc độ thực hiện lệnh AMD, Cyrix PR (Performance Rating) # ? ! ? Khó khăn: Từ 486DX2: tốc độ CPU nhanh gấp nhiều lần FSB Mỗi bảng mạch có thể xác lập để chạy với vài loại CPU tốc độ khác nhau, thông qua hệ số nhân xung nhịp. VD: 133MHz, 2.8GHz VD: PR 133, PR533 f - tần số nhịp làm việc của CPU; N - số đơn vị xử lý số học-logic ALU C - số chu kỳ nhịp trung bình của một lệnh tw- Hệ số thời gian truy nhập bộ nhớ ( cả chu kỳ đợi) ? Đánh giá tốc độ Yêu cầu nâng tốc độ CPU Tốc độ Mainboard không đáp ứng được Bộ nhân tốc: tích hợp vào trong CPU Hệ số nhân tốc (bus Ratio) CPU speed = Host Clock x Bus Ratio (Tốc độ CPU = Tốc độ Bus x Hệ số nhân) Hệ số nhân tốc xung nhịp ? Tốc độ CPU Thiết lập tốc độ và hệ số nhân (multiplier) ? Dùng jumper hoặc cấu hình tốc độ trong BIOS ? Overclocking: Cấu thành từ các đường dữ liệu và các thanh ghi trong. Kích thước thanh ghi: xác định dạng phần mềm và lệnh mà bộ xử lý có thể chạy. CPU từ 386 Pentium III là các bộ xử lý 32-bit, có thể chạy các hệ điều hành và phần mềm 32-bit. Bus dữ liệu Bus dữ liệu trong 8088, 386SX: bus dữ liệu trong rộng gấp đôi bus dữ liệu ngoài ??? Truyền và nạp dữ liệu bên trong CPU với kích thước đầy đủ = kích thước thanh ghi Truyền và nạp dữ liệu với bên ngoài sẽ bị hạn chế bởi độ rộng của bus dữ liệu ngoài. Pentium: bus dữ liệu ngoài 64-bit, thanh ghi chỉ có 32-bit, Do có 2 pipeline 32-bit để xử lý, nên việc nạp dữ liệu rất hiệu quả. Tập hợp các dây để nhận gửi dữ liệu. Độ rộng bus dữ liệu ngoài xác định kích thước một khối bộ nhớ (a bank of memory). Bus dữ liệu Bus dữ liệu ngoài Bank RAM? Lắp đặt bộ nhớ RAM? Kích thước bus dữ liệu: 286, 386SX : 16-bit 386DX, 486: 32-bit Pentium: 64-bit Có thể ghi/đọc bộ nhớ cùng một lúc với 16, 32 hay 64-bit ? Tốc độ xử lý của CPU phụ thuộc vào: Tốc độ truy nhập bộ nhớ chính Bộ nhớ chính (bộ nhớ thao tác- Main memory) Dung lượng nhớ khá hạn chế Dùng DRAM Tốc độ truy nhập chậm (~ 100÷10 ns) Phải làm tươi thông tin (Refresh) ! Chỉ dùng bộ nhớ chính hạn chế khả năng của CPU. Tổ chức bộ nhớ PC theo kiểu hệ thống có phân cấp: Tăng tốc độ xử lý của CPU Đảm bảo khả năng lưu trữ lớn CACHE Thêm vào hệ thống một bộ nhớ có tốc độ truy nhập cao, dùng SRAM Bộ nhớ cache CACHE Dùng lưu trữ các lệnh và dữ liệu thường sử dụng nhiều trong quá trình thực hiện chương trình. Cơ chế nạp lệnh, suy đoán cho phép dự đoán nhu cầu của CPU và nạp trước các dữ liệu cần thiết vào cache. Khi CPU có yêu cầu, dữ liệu sẽ được nạp từ cache thay vì nạp từ bộ nhớ chính, tăng hiệu năng xử lý hệ thống CACHE Cache L1 (Cache Level 1) Lưu trữ một số mã lệnh và dữ liệu của công việc hiện thời. Dung lượng nhỏ: ban đầu là 8 KiB, sau tăng lên 16, 32 KiB... Được thiết kế trong khuôn bộ xử lý, Tốc độ xung nhịp bằng với tốc độ BXL Từ kiến trúc P5 cache L1 được tách thành hai phần riêng: ICache cho mã lệnh DCache cho dữ liệu Pentium IVchỉ còn 8 KiB DCache, ICache cho mã lệnh thay bằng cache ETC (Execution Trace Cache). CACHE Cache L2 (Cache Level 2) - Cache thứ cấp Được dùng nhằm giảm bớt thời gian chờ khi lỡ cache L1 Cache L3 (Integrated Cache Level 3) Cache L3 với 2MB được thiết dành cho một số hệ thống như: PIV Extreme Edition 0 1 0 0 1 0 1 1 0 1 0 0 1 0 1 1 0 1 0 0 1 0 1 1 Kỹ thuật cơ bản của các CPU từ 8086 Tăng tốc độ xử lý Một lệnh được chia thành n phép xử lý nhỏ Thực hiện lần lượt trong 1 đường ống n giai đoạn (Stage). Quá trình xử lý lệnh đồng thời xảy ra trên mọi giai đoạn Stage1 R1 P1 Stage2 R2 P2 Stage N Rn Pn Kỹ thuật xử lý lệnh kiểu đường ống (Pipeline) Pentium 4 20 Prescott 31 Pen III 10 Pentium Pentium M 14 5 Số giai đoạn đường ống gia tăng Tăng tốc độ thực thi lệnh ? Lỗi tại 1 giai đoạn toàn đường ống sẽ bị xóa, quá trình xử lý phải thực hiện lại từ đầu Thiết kế dự đoán rẽ nhánh lệnh Branch Prediction Đế cắm (Socket) và khe cắm (Slot) Socket & Slot ? Đế cắm dạng ZIF (Zero insertion force) Socket 1-7, kiểu PGA hoặc SPGA: tối đa 321 chân Socket 8 cho Pentium Pro dạng SPGA kép Slot1 cho PII, PIII đầu và Slot2 cho Xeon: dùng các điểm tiếp xúc SK 370 cho PIII Tualtin, Celeron và SK 423/478 cho P4 Slot 1 Socket 370 Socket 478 LGA775 (Land Grid Array 775) LGA775 775 điểm tiếp xúc thay cho các chân cắm tránh được hiện tượng cong hoặc gẫy chân CPU Áp dụng từ dòng Prescott thứ 2 (sau Prescott đầu dùng SK478). Thường được hỗ trợ bởi các chipset 9x Kết cấu ổ cắm khá phức tạp, nhưng cho phép chế tạo các CPU có mật độ tiếp xúc (chân) dày đặc hơn, đáp ứng các yêu cầu kỹ thuật nhưng chi phí thấp. Công suất tiêu thụ và vấn đề làm mát cho bộ xử lý Công suất tiêu thụ tăng làm nhiệt lượng tỏa ra lớn khó nâng cao xung nhịp CPU Xu hướng thiết kế: Giảm điện áp làm việc Điện áp 5V điện áp thấp dưới 2V siêu thấp < 1V Tần số hoạt động tăng Giảm kích thước các phần tử trong CPU Thay đổi quy trình công nghệ: 10m 0.13m kích thước nano (90, 65, 45..32 nm) Số transitor tăng: 3.1 triệu của Pentium P5 42 triệu của P4 hàng trăm triệu transitor trên các Core 2 Duo Sử dụng công nghệ vật liệu khác Dây dẫn nhôm đồng, giúp điện trở giảm Các công nghệ CPU, chipset cũng nhằm vào mục tiêu giảm điện năng tiêu thụ và nhiệt lượng của CPU Công suất tiêu thụ và vấn đề làm mát cho bộ xử lý Gồm một tấm kim loại chia thành các cánh, nhờ vậy tăng được diện tích toả nhiệt. Giữa tấm kim loại và CPU thường được bôi một lớp epoxy, tăng diện tích tiếp xúc bề mặt. Tản nhiệt Quạt gió để hút nhiệt từ các cánh tản nhiệt ra. Các quạt thường lấy điện áp trên mainboard (hoặc từ bộ nguồn), FAN tiêu chuẩn: công suất khoảng 1W (0.2A-5V) FAN 2. CÁC BỘ XỬ LÝ INTEL PENTIUM P5 Kiến trúc siêu hướng (super scalar) Thực thi kỹ thuật xử lý song song mức lệnh ILP (Instuction Level Parallelism) Super scalar với: Hai đường ống lệnh (pipeline) nguyên, ống lệnh dấu chấm động Thao tác các chỉ lệnh đa hướng thực thi nhiều lệnh cùng một lúc. Công nghệ MMX (Multimedia Extensions) Mở rộng cho các ứng dụng multimedia, để cải tiến việc nén/giải nén video, xử lý âm thanh, hình ảnh. Cải tiến cấu trúc: Tăng Cache L1, nâng cao hiệu năng của bộ xử lý Bổ sung 57 lệnh cho xử lý video, âm thanh và đồ hoạ cùng P.P SIMD (Single Intenction Multiple Data) cho phép một lệnh duy nhất xử lý trên nhiều vùng dữ liệu cùng một lúc PENTIUM P6 Thực thi động (Dynamic Execution) Giúp bộ xử lý thao tác dữ liệu theo một trật tự logic Cho phép thực hiện nhiều lệnh song song và hiệu quả hơn, gồm: Vi kiến trúc P6 Dự đoán đa nhánh (Multiple Branch Prediction) Có thể đoán trước được những bước tiếp theo trong dòng chỉ lệnh. Hiệu quả dự đoán đạt được tới 90%. Phân tích luồng dữ liệu (Data Flow Analysis) Phân tích và lập thứ tự cho các lệnh, để thực thi theo một trình tự tối ưu và hiệu quả nhất không phụ thuộc vào thứ tự của chương trình. Thực thi suy đoán (Speculative Execution) Lưu kết quả của các lệnh đã thực hiện, cho phép bộ xử lý lấy kết quả có sẵn này sử dụng khi cần thiết. PENTIUM P6 Kiến trúc bus đôi độc lập DIB (Dual Independent Bus) Mở rộng băng thông của bus dữ liệu nhập/xuất, với việc tách thành hai bus độc lập: FSB (Front Side Bus): cho hệ thống (bảng mạch chính) BSB (Back Side Bus): cho cache L2, cho phép tăng tốc độ truy nhập cache Cache L2: tách khỏi mainboard để đưa lên cùng bản mạch bộ xử lý hoặc được tích hợp trong khuôn bộ xử lý C.Nghệ đa phương tiện tiên tiến SSE (Streaming SIMD Extensions) SSE là một cải tiến quan trọng của Pentium III, Thêm 70 lệnh mới: cải tiến xử lý dấu chấm động, xử lý âm thanh, hình ảnh, các ứng dụng 3D, nhận dạng tiếng nói tiên tiến và truy cập Internet 3. CÁC BỘ XỬ LÝ CÔNG NGHỆ TIÊN TIẾN PENTIUM 4 Được thiết kế để đạt được hiệu suất cao đối với tính toán các số nguyên, dấu chấm động ở tần số cao. NetBurst gồm các công nghệ tích hợp: Bus hệ thống Quad Pumped Công nghệ siêu đường ống (Hyper Pipeline Technology) Động cơ thực hiện nhanh REE (Rapid Execution Engine) Thực thi động tiên tiến (Advanced Dynamic Execution) Cache ETC (Execution Trace Cache) Cache vận chuyển tiên tiến ATC (Advanced Transfer Cache) SSE2 (Streaming SIMD Extention 2) Vi kiến trúc NetBurst PENTIUM 4 Bus hệ thống Quad Pumped Mở rộng băng thông bus FSB, nâng cao tốc độ truyền Cho phép kết nối và sử dụng bộ nhớ DRAM tốc độ cao Thực hiện truyền 4-bit trong 1 nhịp đồng hồ thay vì 1-bit như trước Với FSB 400: 3.2 GiB/s với xung nhịp 100MHz Các bộ xử lý sau được tăng cường với FSB 533, 800 Công nghệ siêu đường ống (Hyper Pipeline Technology) Nhiều ống lệnh nâng cao tốc độ xử lý. Siêu đường ống lệnh của Pentium IV với 20 phân đoạn, nâng cao khả năng xử lý. Sử dụng L1 cache ETC, khả năng dự đoán rẽ nhánh cao giúp cho Pentium IV có tốc độ xử lý vượt trội so với các thế hệ trước đó PENTIUM 4 Động cơ thực hiện nhanh REE Thiết kế để giảm bớt thời gian trễ thực thi các chỉ lệnh số nguyên. 2 ALU nhanh thực hiện các tính toán số học và logic đơn giản 1 ALU chậm thực hiện các tính toán phức tạp 2 AGU giải quyết các địa chỉ gián tiếp chạy gấp đôi tốc độ vi xử lý. Pentium IV xử lý gấp đôi số lệnh trong một chu kỳ nhịp Thực thi động tiên tiến (Advanced Dynamic Execution) Thiết kế sâu hơn, tiên đoán xa hơn và cải tiến giải thuật tiên đoán nhánh lệnh để giảm bớt trường hợp tiên đoán sai. Với 20 phân đoạn (Prescott là 31) 1 lệnh nếu dự đoán sai xảy ra ở các phân đoạn cuối, sẽ bị hủy toàn bộ, gây lãng phí lớn về thời gian Đơn vị rẽ nhánh (Branch Predition) với kỹ thuật thực thi suy đoán song song, sẽ tăng số chỉ lệnh được dự đoán lên 126 so với 42 trong kiến trúc P6 Khả năng dự đoán rẽ nhánh đúng đến 95%. PENTIUM 4 SSE2 (Streaming SIMD Extention 2) SSE2 được mở rộng từ SSE và MMX với 144 lệnh mới, giảm số lệnh thực thi và tăng tốc độ xử lý. SSE2 tăng hiệu quả thực thi các ứng dụng 3D, nén và giải nén, nhận dạng tiếng nói Cache vận chuyển tiên tiến ATC Cache L2 dùng cache ATC làm việc với tần số của bộ xử lý. ATC 8-way set kết nối trực tiếp trên chip (on-die) bằng bus 256-bit Khác biệt ? ATC của PIV vận chuyển dữ liệu trên từng nhịp đồng hồ đạt đủ tốc độ nhịp đồng hồ (PIV/1.5GHz đạt tốc độ 48 GiB/s) ATC của PIII vận chuyển trên từng chu kỳ nhịp chỉ đạt một nửa tốc độ (PIII/1GHz đạt 16GiB/s). PENTIUM 4 ETC (Execution Trace Cache) ICache được thay bằng cache thực hiện theo vết ETC. Đơn vị giải mã sẽ chuyển các lệnh CISC thành các vi thao tác đơn giản hơn và cất giữ trong ETC Nếu dự đoán rẽ nhánh sai những vi thao tác sẽ được lấy từ ETC và đưa vào thực hiện trong ống lệnh mà không cần tiến hành lại từ đầu Công nghệ lõi của Pentium 4 Willamette: 0.18μm Northwood: 0.13μm Prescott: 0.09μm (90nm) Cedar Mill: 0.09μm (90nm) Gallatin: 0.13μm (Pentium EE) Công nghệ siêu phân luồng HT (Hyper Threading Technology) Tăng cường khả năng chạy đa ứng dụng trong cùng một thời điểm tăng năng suất xử lý. Cho phép CPU chạy hai loạt chuỗi hoặc luồng lệnh trong cùng một thời điểm Có thể xử lý nhiều thông tin cùng một lúc Bộ xử lý CPU Hỗ trợ công nghệ HT (Các CPU P4 FSB 800, với FSB 533 là P4 3.06) Chipset và BIOS Chipset và BIOS hỗ trợ công nghệ HT (từ i845) Hệ điều hành hỗ trợ HT Windows XP Professional Edition, XP Home Edittion, hay Red Had Linux9, SuSE Linux 8.2, Red Flag Linux Desktop 4.0, COSIX Linux 4.0 Công nghệ HT yêu cầu? Xu hướng Bộ xử lý đa nhân (Multi Core) Các tác vụ trở nên phức tạp, Các ứng dụng đa luồng. Yêu cầu về tốc độ xử lý Giải pháp thực hiện Nâng cao tốc độ xung của CPU Hệ thống đa xử lý Các bộ xử lý đa nhân Xu hướng Bộ xử lý đa nhân (Multi Core) Tốc độ xung có phải là yếu tố quyết định hiệu năng của CPU ? Nâng cao tốc độ xung có phải là cách duy nhất để nâng cao hiệu năng của bộ xử lý? Tốc độ xung và hiệu năng của CPU Hiệu năng = Tốc độ xung x IPC (Instruction Per Clock) Sự phụ thuộc của IPC vào kiến trúc CPU: Kiến trúc đường ống lệnh pipeline Khả năng dự đoán rẽ nhánh lệnh Cache, FPU, bộ nhớ, FSB ... Hiệu năng không tăng đều với sự gia tăng tốc độ xung. Tốc độ xung không phải là yếu tố duy nhất quyết định hiệu năng của bộ xử lý Những yếu tố hạn chế việc nâng cao tốc độ xung: Mức độ tiêu thụ năng lượng tăng cao khi nâng cao tốc độ xung Nhiệt lượng lớn giải pháp case và tản nhiệt cho phù hợp Chi phí chế tạo và giá thành sản phẩm sẽ tăng Tốc độ xung chỉ là 1 trong các yếu tố nâng cao hiệu năng Xu hướng Bộ xử lý đa nhân (Multi Core) Gồm nhiều CPU giống nhau cùng thực hiện một nhiệm vụ chung hay các nhiệm vụ được chia xẻ. Khác với hệ thống nhiều máy tính mạng: gồm nhiều máy tính thực hiện các nhiệm vụ riêng biệt. Đa xử lý (MultiProcessor) Kiến trúc đa xử lý được thực thi trong một máy tính cho phép: Nâng cao hiệu suất và độ tin cậy của hệ thống Thực thi chủ yếu trong các máy chủ và số ít máy PC Tiến trình thực hiện: Thực thi các nhiệm vụ lớn: các CPU sẽ cùng chia sẻ tải, Các nhiệm vụ nhỏ: sẽ đồng thời thực hiện (xử lý song song) để tăng cường tốc độ xử lý. Khi 1 CPU gặp sự cố nhiệm vụ được phân chia cho các CPU còn lại. Hệ thống tiếp tục hoạt động, dù hiệu suất có giảm. Xu hướng Bộ xử lý đa nhân (Multi Core) 2002: xu hướng CPU đơn nhân cho các máy PC vẫn chiếm ưu thế. 2005: Chủ đề "Bộ xử lý đa nhân" cùng đánh giá “Hiệu năng trên công suất tiêu thụ" xu hướng mới cho các bộ xử lý. Hiệu năng hệ thống đa CPU cao hơn H.T CPU đa nhân Đa xử lý: sự gia tăng hiệu năng gần như mức tuyến tính. Đa nhân: đạt được mức độ gia tăng hiệu năng đến 70-80% H.T Đa CPU: mỗi CPU có bus dữ liệu tới CPU riêng, H.T CPU đa nhân: các nhân phải dùng chung 1 bus dữ liệu Vấn đề khác: Chi phí cho đa xử lý cao hơn so với CPU đa nhân: cả giá CPU và cả giá mainboard cũng đắt hơn. Thị trường của hệ thống đa CPU hạn hẹp: workstation và server Thị trường CPU đa nhân mở rộng: khi được ứng dụng rộng rãi cho cả các máy để bàn PC, máy notebook BỘ XỬ LÝ ĐA NHÂN Các bộ xử lý đa nhân sử dụng các mainboard chỉ cần 1 đế cắm CPU chứ không cần phải nhiều đế như trong hệ thống đa xử lý Tốc độ mỗi core và ảnh hưởng thế nào đến việc tăng tốc độ thực hiện khi sử dụng đa nhân? Các chương trình khác nhau thì sẽ tận dụng được sức mạnh của dual core khác nhau? PENTIUM D Là bộ xử lý 2 nhân đầu tiên của Intel, dựa trên kiến trúc Netburst Hiện thực hóa CPU ảo HT thành CPU vật lý thực sự. D800 giống như đặt 2 core Prescott trên cùng 1 khuôn (die). Đặt hai lõi gần nhau làm cho giao tiếp giữa chúng nhanh chóng hơn do độ trễ thấp. Smithfield (Pentium D800) Nhược điểm làm hạn chế hiệu năng CPU: Hiện tượng thắt cổ chai dữ liệu: giao tiếp với nhau phải thông qua FSB Băng thông FSB hạn chế: không mở rộng, vẫn hạn chế ở mức 800MHz/CPU hay 400MHz cho mỗi lõi tốc độ tính toán tăng đôi, nhưng bandwidth cho mỗi core thì không Nhiệt lượng tỏa ra lớn và chi phí sản xuất cao: số transistor trên mỗi die tăng gấp đôi cần giải quyết vấn đề tản nhiệt PENTIUM D Kiến trúc AMD tích hợp thành phần cầu bắc của chipset lên CPU Là thành phần điều khiển bộ nhớ được tích hợp lên CPU Được kế thừa trong CPU lõi kép Tạo nên ưu điểm cho AMD Khác biệt với AMD Truyền dữ liệu của AMD ít gặp phải hiện tượng "thắt cổ chai“ Intel sử dụng giải pháp truyền thông tin qua FSB giữa hai lõi AMD sử dụng công nghệ HyperTransport: CPU đưa ra các yêu cầu trên hệ thống SRQ (System Request Queue) Khi hệ thống rỗi, các yêu cầu sẽ được gửi tới lõi để thực hiện. Chỉ tiến hành trên die của CPU nên tốc độ rất nhanh. Ưu điểm này thể hiện rõ khi xử lý các ứng dụng nặng, đa luồng (Multitasking/Multithreaded). Thiết kế dual-core, AMD không cần phải cải tiến nhiều và hệ thống của AMD có nhiều lợi thế PENTIUM D Presler là sự kế thừa Smithfield Hiệu năng cao hơn, nhiều tính năng mới và sử dụng ít điện hơn Presler (Pentium D900) Sự thay đổi lớn trong thiết kế: Smithfield, đặt cả hai nhân vào chung một khuôn lớn Presler, hai nhân tách ra, mỗi nhân được sản xuất độc lập và gắn lại chung với nhau trên một chip; Giống như gồm 2 lõi nhỏ kết nối với nhau qua 1 bus tốc độ cao. Presler mô hình cấu trúc lõi kép (Dual Core) thực sự, Smithfield là cấu trúc lõi đôi (Double Core). Quy trình 65nm, kích thước die ít thay đổi. Nhiệt tỏa ra cũng ít hơn, CPU hoạt động sẽ mát hơn nhiều. Cache L2 2x2MiB (Smithfield 2x1MiB của), gấp 2 Athlon 64X2. Việc sản xuất đơn giản hơn, giá thành sản xuất giảm PENTIUM D Pentium D và P. Extreme Edition vẫn sử dụng trên cơ sở vi kiến trúc Netburst. Được bổ sung nhiều công nghệ mới, mang lại các tính năng tăng cường Các công nghệ tăng cường: Enhanced Intel® SpeedStep Technology (EIST) Extended Memory 64 Technology (EM64T) Excute Disable Bit (XD Bit) Streaming SIMD Extention 3 (SSE3) Virtualization Technology (Intel® VT) PENTIUM D Cho phép CPU có thể tự điều chỉnh tần số và điện áp sử dụng Giảm thiểu công suất để giảm mức tiêu thụ điện năng giảm nhiệt phát ra khi không có nhiều yêu cầu xử lý Chipset cũng cần hỗ trợ EIST Enhanced Intel® SpeedStep Technology (EIST) Extended Memory 64 Technology (EM64T) Hỗ trợ các chỉ lệnh 64-bit, cho phép truy cập bộ nhớ vật lý và bộ nhớ ảo lớn hơn, xử lý nhiều dữ liệu hơn cho bộ nhớ chính. Hệ thống sẽ truy xuất trực tiếp từ RAM, ít phải truy xuất dữ liệu từ ổ cứng nâng cao hiệu quả, khai thác tối đa HĐH 64-bit PENTIUM D Hoàn thiện tính năng bảo mật của hệ thống Vô hiệu hóa các mã nguy hiểm không được phép chạy trong bộ nhớ, nâng cao khả năng chống virus Excute Disable Bit (XD bit) Virtualization Technology (Intel® VT) Công nghệ ảo hóa Intel®VT, cho phép nâng cao độ bảo mật Cho phép tách các môi trường phần cứng độc lập riêng lẻ bên trong một máy tính đơn, Cho phép chạy nhiều HĐH trên cùng một chip, trong những phân khu khác nhau SSE3 Thêm13 lệnh mới so với SSE2, cải thiện hoạt động của công nghệ siêu phân luồng HT cho hiệu quả hơn Tăng cường các chức năng multimedia và Internet cho hệ thống Core™ Duo và Core™2 Duo CoreTM 2 Duo với kiến trúc hoàn toàn mới Nhiều công nghệ tích hợp Vi kiến trúc Core™ Intel® Core™ Microarchitecture: Thực thi động mở rộng (Wide Dynamic Execution) Quản lý điện năng thông minh (Intelligent Power Capability) Đệm thông minh tiên tiến (Advanced Smart Cache) Truy xuất bộ nhớ thông minh (Smart Memory Access) Tăng tốc phương tiện số tiên tiến (Advanced Digital Media Boost) Core™ Duo và Core™2 Duo Nâng cao tốc độ và hiệu quả thực hiện chương trình, Mỗi core có thể thực thi đồng thời 4 lệnh trong một nhịp đồng hồ, Nâng cao hiệu năng, cho phép thực hiện được nhiều công việc hơn trong thời gian ngắn hơn. Wide Dynamic Execution (Thực thi động mở rộng) Intelligent Power Capability (Quản lý điện năng thông minh) Tối ưu hóa việc sử dụng năng lượng của các nhân trong bộ xử lý bằng cách chỉ bật chức năng tính toán khi cần. Nếu không có hoạt động, hệ thống trở về trạng thái ngủ giúp giảm lượng điện năng tiêu thụ đáng kể mà không ảnh hưởng hiệu xuất của toàn hệ thống. Core™ Duo và Core™2 Duo Shared cache L2 4MB, 16-way dùng chung Phân chia động theo nhu cầu của mỗi nhân, tăng hiệu quả sử dụng Nếu 2 nhân cần sử dụng một dữ liệu giống nhau, lưu tại 1 nơi trong L2 chung, không cần lưu thành 2 bản tại hai vùng L2 riêng Giảm thiểu thời gian nạp cache do hiện tượng nạp 2 lần trên hai cache và dung lượng hữu dụng của cache sẽ được tối ưu. Advanced Smart Cache (Đệm thông minh tiên tiến) Core™ Duo và Core™2 Duo Tối ưu hóa việc sử dụng băng thông dữ liệu hiện có, làm giảm thời gian chờ dữ liệu cho các lệnh bên trong CPU. Có hai kỹ thuật: Nạp trước dữ liệu và bộ nạp lệnh tiên tiến tăng hiệu quả động cơ suy đoán thực hiện lệnh, giảm thiểu khả năng “trượt” cache Smart Memory Access (Truy xuất bộ nhớ thông minh) Advanced Digital Media Boost (Tăng tốc P. tiện số tiên tiến ) Cải thiện hiệu năng một cách đáng kể trên các ứng dụng video, hình ảnh, xử lý ảnh, đồ họa, mã hóa, Hỗ trợ xử lý các lệnh SIMD 128-bit, tăng tốc thực thi lệnh Streaming SIMD Extension (SSE) Rút ngắn 2 lần thời gian xử lý dữ liệu các ứng dụng multimedia
Các file đính kèm theo tài liệu này:
- Chương 3- Bộ xử lý.ppt