CPU와 마더보드 Northbridge 칩 사이의 연결 채널은 어떤 성능 지표인가요?
CPU의 주요 성능 지표
1. 주 주파수
주 주파수는 클록 주파수라고도 하며 클록 주파수를 나타내는 데 사용됩니다. CPU 코어의 (CPU 클럭 속도), 즉 CPU의 디지털 펄스 신호가 진동하는 속도입니다.
2. FSB
FSB는 CPU와 마더보드가 동시에 실행되는 속도입니다.
3. FSB(전면 버스) 주파수
버스는 컴퓨터 마이크로프로세서와 메모리 칩 및 이와 통신하는 장치를 연결하는 하드웨어 채널입니다. 전면 버스는 CPU를 주 메모리에 연결하고 주변 버스를 디스크 드라이브, 모뎀 및 네트워크 카드와 같은 시스템 구성 요소에 연결합니다. 버스 주파수는 종종 MHz 단위의 속도로 설명됩니다.
FSB(프런트 사이드 버스) 주파수는 CPU와 메모리 간의 직접 데이터 교환 속도에 직접적인 영향을 미칩니다. 데이터 전송의 최대 대역폭은 동시에 전송되는 모든 데이터의 폭과 전송 주파수에 따라 달라지므로, 즉 데이터 대역폭 = (버스 주파수 × 데이터 비트 폭) ¼ 8입니다.
4. CPU 비트 및 단어 길이
비트: 바이너리는 디지털 회로 및 컴퓨터 기술에 사용되며 코드는 "0"과 "1"만 있습니다. 0" 또는 "1"은 CPU의 "비트"입니다.
워드 길이: 컴퓨터 기술에서는 CPU가 단위 시간당 한 번에(동시에) 처리할 수 있는 이진수의 수를 워드 길이라고 합니다. 따라서 워드 길이가 8비트인 데이터를 처리할 수 있는 CPU를 일반적으로 8비트 CPU라고 합니다. 마찬가지로 32비트 CPU는 단위 시간당 워드 길이가 32비트인 이진 데이터를 처리할 수 있습니다. 바이트 길이와 단어 길이의 차이: 일반적으로 사용되는 영어 문자는 8비트 바이너리로 표현할 수 있으므로 일반적으로 8비트를 바이트라고 합니다. 워드 길이의 길이는 고정되어 있지 않으며, 워드 길이의 길이는 CPU마다 다릅니다. 8비트 CPU는 한 번에 1바이트만 처리할 수 있는 반면, 32비트 CPU는 한 번에 4바이트를 처리할 수 있습니다. 마찬가지로 64비트 CPU는 한 번에 8바이트를 처리할 수 있습니다.
5. 승수 계수
승수 계수는 CPU 주 주파수와 FSB 간의 상대적인 비례 관계를 나타냅니다. 동일한 FSB에서 주파수 승수가 높을수록 CPU 주파수도 높아집니다. 그러나 사실 동일한 FSB를 전제로 하면 배율이 높은 CPU 자체는 별 의미가 없습니다. 이는 CPU와 시스템 간의 데이터 전송 속도가 제한되어 있기 때문입니다. 맹목적으로 높은 승수를 추구하고 높은 주 주파수를 획득하는 CPU는 CPU가 시스템에서 데이터를 획득하는 최대 속도인 "병목 현상" 효과를 가지게 됩니다. CPU의 컴퓨팅 속도 요구 사항을 충족할 수 없습니다. 일반적으로 엔지니어링 샘플을 제외하면 Intel의 CPU에는 배수가 잠겨 있지만 AMD는 이전에 이를 잠그지 않았습니다.
6. 캐시
캐시 크기도 CPU의 중요한 지표 중 하나이며, 캐시의 구조와 크기는 CPU 속도에 큰 영향을 미칩니다. CPU는 매우 높은 주파수에서 작동합니다. 일반적으로 프로세서와 동일한 주파수에서 작동하며 작업 효율성은 시스템 메모리 및 하드 디스크보다 훨씬 높습니다. 실제 작업에서 CPU는 동일한 데이터 블록을 반복해서 읽어야 하는 경우가 많으며, 캐시 용량을 늘리면 메모리나 하드 디스크에서 데이터를 찾을 필요 없이 CPU 내에서 데이터를 읽는 적중률이 크게 향상되어 시스템 성능이 향상될 수 있습니다. 성능. . 그러나 CPU 칩 면적, 비용 등의 요인으로 인해 캐시 크기는 매우 작습니다.
L1 캐시(레벨 1 캐시)는 CPU의 첫 번째 레벨 캐시로 데이터 캐시와 명령어 캐시로 구분됩니다. 내장된 L1 캐시의 용량과 구조는 CPU 성능에 더 큰 영향을 미칩니다. 그러나 캐시 메모리는 정적 RAM으로 구성되어 있으며 CPU 다이 영역이 너무 클 수 없는 경우 용량이 복잡합니다. L1 캐시가 충분하지 않습니다. 아마도 너무 크게 만들어졌을 것입니다. 일반 서버 CPU의 L1 캐시 용량은 보통 32~256KB이다.
L2 캐시(레벨 2 캐시)는 CPU의 두 번째 레벨 캐시로 내부 칩과 외부 칩으로 구분됩니다. 내부 온칩 L2 캐시는 기본 주파수와 동일한 속도로 실행되는 반면 외부 L2 캐시는 기본 주파수의 절반에서만 실행됩니다. L2 캐시 용량은 CPU 성능에도 영향을 미칩니다. 현재 홈 CPU의 최대 용량은 512KB인 반면, 서버 및 워크스테이션의 CPU L2 캐시는 최대 256KB입니다. 1MB이고 일부는 2MB 또는 3MB에 이릅니다.
L3 캐시(3레벨 캐시)는 초기형이 외장형이고 현재형이 내장형이다. 실제 효과는 L3 캐시를 적용하면 대용량 데이터 계산 시 메모리 지연 시간을 더욱 줄이고 프로세서 성능을 향상시킬 수 있다는 것입니다. 메모리 지연 시간을 줄이고 대용량 데이터 컴퓨팅 기능을 향상시키는 것은 게임에 도움이 됩니다. 서버 분야에서는 L3 캐시를 추가해도 여전히 성능이 크게 향상됩니다. 예를 들어 L3 캐시가 더 큰 구성은 물리적 메모리를 더 효율적으로 사용하므로 느린 디스크 I/O 하위 시스템보다 더 많은 데이터 요청을 처리할 수 있습니다. L3 캐시가 더 큰 프로세서는 보다 효율적인 파일 시스템 캐시 동작을 제공하고 메시지 및 프로세서 대기열 길이를 더 짧게 만듭니다.
실제로 가장 초기의 L3 캐시는 AMD가 출시한 K6-III 프로세서에 적용됐다. 당시 L3 캐시는 제조 공정상 제약이 있어 칩에 내장되지 않고 100% 내장됐다. 마더보드.
시스템 버스 주파수로만 동기화할 수 있는 L3 캐시는 실제로 메인 메모리와 크게 다르지 않습니다. 나중에 L3 캐시는 Intel의 Itanium 프로세서에서 서버 시장용으로 사용되었습니다. 그 다음에는 P4EE와 Xeon MP가 있습니다. Intel은 또한 9MB L3 캐시를 갖춘 Itanium2 프로세서를 출시하고 나중에 24MB L3 캐시를 갖춘 듀얼 코어 Itanium2 프로세서를 출시할 계획입니다.
그러나 기본적으로 L3 캐시는 프로세서의 성능을 향상시키는 데 그다지 중요하지 않습니다. 예를 들어 1MB L3 캐시를 탑재한 Xeon MP 프로세서는 여전히 Opteron의 상대가 되지 않는다는 것을 알 수 있습니다. 전면 버스의 증가는 Opteron의 증가보다 더 중요합니다. 캐시의 증가는 더 효과적인 성능 향상을 가져옵니다.
7. CPU 확장 명령어 세트
CPU는 명령어를 사용하여 시스템을 계산하고 제어합니다. 각 CPU는 하드웨어 회로와 일치하는 일련의 명령어 시스템으로 설계되었습니다. 명령어의 강도는 CPU의 중요한 지표이기도 합니다. 명령어 세트는 마이크로프로세서의 효율성을 향상시키는 가장 효과적인 도구 중 하나입니다. 현재 주류 아키텍처에서 명령어 세트는 Intel의 MMX(Multi Media Extended), SSE, SSE2(Streaming-Single Instruction Multiple Data-Extensions)와 같은 특정 응용 프로그램의 관점에서 복잡한 명령어 세트와 단순화된 명령어 세트로 나눌 수 있습니다. 2) SEE3 및 AMD의 3DNow!는 모두 CPU의 확장 명령 세트로, 각각 CPU의 멀티미디어, 그래픽 및 인터넷 처리 기능을 향상시킵니다. 우리는 일반적으로 CPU의 확장 명령어 세트를 "CPU 명령어 세트"라고 부릅니다. SSE3 명령어 세트는 현재 가장 작은 명령어 세트이기도 합니다. 이전에는 MMX에 57개의 명령이 포함되어 있었고 SSE에는 50개의 명령이 포함되어 있었으며 SSE2에는 144개의 명령이 포함되어 있었으며 SSE3에는 13개의 명령이 포함되어 있었습니다. 현재 SSE3은 가장 진보된 명령어 세트이기도 합니다. Intel Prescott 프로세서는 이미 SSE3 명령어 세트를 지원합니다. AMD는 향후 Transmeta 프로세서에도 SSE3 명령어 세트에 대한 지원을 추가할 예정입니다.
8.CPU 코어 및 I/O 작동 전압
586CPU부터 CPU의 작동 전압은 일반적으로 코어 전압과 I/O 전압의 두 가지 유형으로 나뉩니다. CPU의 코어 전압은 I/O 전압과 동일하지 않습니다. 코어 전압의 크기는 CPU의 생산 공정에 따라 결정됩니다. 일반적으로 생산 공정이 작을수록 코어 작동 전압은 일반적으로 1.6~5V입니다. 낮은 전압은 과도한 전력 소비와 과도한 발열 문제를 해결할 수 있습니다.
9. 제조 공정
제조 공정의 미크론은 IC 내 회로 사이의 거리를 나타냅니다. 제조 공정의 추세는 밀도가 높아지는 방향입니다. 고밀도 IC 회로 설계는 동일한 크기의 IC가 더 높은 밀도와 더 복잡한 기능을 갖춘 회로 설계를 가질 수 있음을 의미합니다. 이제 주요 제품은 180nm, 130nm 및 90nm입니다. 최근 관계자들은 65nm 제조 공정이 가능하다고 밝혔으며 인텔은 2008년 초에 45nm 공정 CPU를 출시했습니다.
10. 명령어 세트
(1) CISC 명령어 세트
CISC 명령어 세트, 복합 명령어 세트라고도 하며 영어 이름은 CISC입니다. Set Computer의 명령어 약어). CISC 마이크로프로세서에서는 프로그램의 각 명령이 순서대로 직렬로 실행되고, 각 명령의 각 연산도 순서대로 직렬로 실행됩니다. 순차 실행의 장점은 제어가 간단하다는 점이지만, 컴퓨터의 여러 부분의 활용도가 높지 않고 실행 속도도 느리다. 사실 Intel이 생산하는 x86 시리즈(즉, IA-32 아키텍처) CPU와 AMD, VIA 등 호환 CPU입니다. 새로운 X86-64(AMD64라고도 함)도 CISC 범주에 속합니다.
명령어 세트가 무엇인지 알려면 오늘날의 X86 아키텍처 CPU부터 시작해야 합니다. X86 명령어 세트는 Intel이 최초의 16비트 CPU(i8086)를 위해 특별히 개발한 것입니다. 1981년 IBM이 출시한 세계 최초의 PC인 i8088(i8086의 단순화된 버전)에도 X86 명령어가 사용되었습니다. 컴퓨터 부동 소수점 데이터 처리 기능을 향상시키기 위해 X87 칩이 추가되었습니다. 이제부터 X86 명령어 세트와 X87 명령어 세트를 총칭하여 X86 명령어 세트라고 합니다.
CPU 기술의 지속적인 발전에도 불구하고 인텔은 최신 i80386, i80486을 거쳐 과거 PII Xeon, PIII Xeon, Pentium 3에 이어 마침내 오늘날의 Pentium 4 시리즈인 Xeon(제온 제외)까지 개발해왔습니다. Nocona), 그러나 풍부한 소프트웨어 리소스를 보호하고 상속하기 위해 컴퓨터가 과거에 개발한 다양한 응용 프로그램을 계속 실행할 수 있도록 보장하기 위해 Intel에서 생산하는 모든 CPU는 계속해서 X86 명령어 세트를 사용하므로 해당 CPU는 여전히 X86에 속합니다. 시리즈.
Intel X86 시리즈 및 해당 호환 CPU(예: AMD Athlon MP)는 모두 X86 명령 세트를 사용하므로 오늘날 X86 시리즈 및 호환 CPU의 거대한 라인업이 형성되었습니다. x86CPU에는 현재 주로 Intel 서버 CPU와 AMD 서버 CPU가 포함됩니다.
(2) RISC 명령어 세트
RISC는 영어로 "Reduced Instruction Set Computing"의 약어로, 중국어로 "축소된 명령어 세트"를 의미합니다. 이는 CISC 명령어 시스템을 기반으로 개발되었으며 누군가 CISC 기계를 테스트한 결과 다양한 명령어의 사용 빈도가 상당히 다른 것으로 나타났습니다. 가장 일반적으로 사용되는 명령어는 전체 명령어의 20%에 불과한 비교적 간단한 명령어입니다. 총 명령어 수는 프로그램 내에서 발생 빈도가 80%를 차지합니다. 복잡한 명령어 시스템은 필연적으로 마이크로프로세서의 복잡성을 증가시켜 프로세서 개발에 오랜 시간과 비용을 들게 만듭니다. 그리고 복잡한 명령에는 복잡한 작업이 필요하므로 필연적으로 컴퓨터 속도가 저하됩니다. 위의 이유로 RISC CPU는 1980년대에 탄생했습니다. CISC CPU와 비교하여 RISC CPU는 명령 시스템을 간소화했을 뿐만 아니라 "슈퍼스칼라 및 슈퍼 파이프라인 구조"를 채택하여 병렬 처리 능력을 크게 향상시켰습니다. RISC 명령어 세트는 고성능 CPU의 개발 방향이다. 이는 전통적인 CISC(Complex Instruction Set)와 반대됩니다. 이에 비해 RISC는 복잡한 명령어 세트보다 통일된 명령어 형식, 유형 및 주소 지정 방법이 더 적습니다. 물론 처리 속도도 크게 향상됐다. 현재 이 명령 시스템을 갖춘 CPU는 중급 및 고급형 서버에서 일반적으로 사용되며, 특히 고급 서버는 모두 RISC 명령 시스템을 사용하는 CPU를 사용합니다. RISC 명령 시스템은 고급 서버의 UNIX 운영 체제에 더 적합합니다. 이제 Linux도 UNIX와 유사한 운영 체제입니다. RISC 유형 CPU는 소프트웨어 및 하드웨어 측면에서 Intel 및 AMD CPU와 호환되지 않습니다.
현재 중저가형 서버에서 RISC 명령어를 사용하는 CPU로는 주로 PowerPC 프로세서, SPARC 프로세서, PA-RISC 프로세서, MIPS 프로세서, Alpha 프로세서 등이 있다.
(3) IA-64
EPIC(Explicitly Parallel Instruction Computers)가 시스템 측면에서 RISC 및 CISC 시스템의 후속인지 여부에 대해 많은 논쟁이 있어 왔습니다. 이는 RISC 시스템을 향한 중요한 단계인 Intel의 프로세서와 비슷합니다. 이론적으로 말하면, EPIC 시스템에 의해 설계된 CPU는 동일한 호스트 구성에서 Unix 기반 응용 프로그램 소프트웨어보다 Windows 응용 프로그램 소프트웨어를 훨씬 더 잘 처리할 수 있습니다.
EPIC 기술을 사용하는 인텔의 서버 CPU는 아이테니엄(개발 코드명: 머세드)이다. 64비트 프로세서이며 IA-64 시리즈 중 첫 번째입니다. Microsoft는 코드명 Win64라는 운영 체제도 개발했으며 소프트웨어에서 이를 지원합니다. Intel이 명령어 세트를 채택한 이후 EPIC 명령어 세트를 사용하는 IA-64 아키텍처가 탄생했습니다. IA-64는 여러 측면에서 x86에 비해 크게 개선되었습니다. 이는 기존 IA32 아키텍처의 많은 한계를 극복하고 데이터 처리 기능, 시스템 안정성, 보안, 유용성 및 상당한 합리성 측면에서 획기적인 개선을 달성합니다.
IA-64 마이크로프로세서의 가장 큰 결점은 x86과의 호환성이 부족하다는 점입니다. 인텔의 IA-64 프로세서가 두 세대의 소프트웨어를 더 잘 실행하려면 x86-IA-64 디코더가 필요합니다. (Itanium, Itanium2...)에 도입되어 x86 명령어를 IA-64 명령어로 변환할 수 있습니다. 이 디코더는 가장 효율적인 디코더도 아니고 x86 코드를 실행하는 가장 좋은 방법도 아니므로(가장 좋은 방법은 x86 프로세서에서 직접 x86 코드를 실행하는 것입니다) x86 응용 프로그램을 실행할 때 Itanium 및 Itanium2의 성능이 매우 나쁩니다. 이는 X86-64가 등장한 근본적인 이유이기도 합니다.
(4) X86-64(AMD64/EM64T)
AMD에서 설계한 이 제품은 64비트 정수 작업을 동시에 처리할 수 있으며 X86-32 아키텍처와 호환됩니다. . 64비트 논리 주소 지정을 지원하고 32비트 주소 지정으로 변환하는 옵션을 제공합니다. 그러나 데이터 연산 명령어는 기본적으로 32비트와 8비트로 변환되며 64비트와 16비트로 변환하는 옵션을 제공합니다. 범용 레지스터를 지원하므로 32비트 연산인 경우 결과를 완전한 64비트로 확장해야 합니다. 이런 방식으로 명령어의 "직접 실행"과 "변환 실행" 사이에는 차이가 있습니다. 명령어 필드는 8비트 또는 32비트이므로 필드가 너무 길어지는 것을 방지할 수 있습니다.
x86-64(AMD64라고도 함)의 생성은 근거가 없습니다. x86 프로세서의 32비트 주소 지정 공간은 4GB 메모리로 제한되며 IA-64 프로세서는 x86과 호환되지 않습니다. AMD는 고객의 요구 사항을 충분히 고려하여 이 명령어 세트가 64비트 컴퓨팅 모드를 동시에 지원할 수 있도록 x86 명령어 세트의 기능을 향상시킵니다. 따라서 AMD는 해당 구조를 x86-64라고 부릅니다. 기술적으로 x86-64 아키텍처에서 64비트 작업을 수행하기 위해 AMD는 원래 이 레지스터를 사용하는 확장 기능으로 새로운 R8-R15 범용 레지스터를 도입했습니다. EAX, EBX 등의 원래 레지스터도 32비트에서 64비트로 확장되었습니다. SSE2에 대한 지원을 제공하기 위해 SSE 장치에 8개의 새로운 레지스터가 추가되었습니다. 레지스터 수를 늘리면 성능이 향상됩니다. 동시에 32비트 및 64비트 코드와 레지스터를 모두 지원하기 위해 x86-64 아키텍처에서는 프로세서가 Long 모드(long 모드)와 Legacy 모드(유전자 모드)의 두 가지 모드에서 작동할 수 있습니다. Long 모드는 모드(64비트 모드 및 호환 모드)의 두 가지 하위 모드로 구분됩니다. 이 표준은 AMD의 Opteron 서버 프로세서에 도입되었습니다.
올해는 64비트를 지원하는 EM64T 기술도 출시됐다. 정식 명칭이 EM64T이기 전에는 IA32E였다. X86 명령어 세트를 구별하기 위한 인텔의 64비트 확장 기술이다. Intel의 EM64T는 AMD의 X86-64 기술과 유사한 64비트 하위 모드를 지원하며 64비트 선형 평면 주소 지정을 사용하고 8개의 새로운 범용 레지스터(GPR)를 추가하며 SSE 명령어를 지원하기 위해 8개의 레지스터를 추가합니다. AMD와 마찬가지로 Intel의 64비트 기술은 IA32 및 IA32E와 호환되며 64비트 운영 체제를 실행할 때만 사용됩니다. IA32E는 2개의 하위 모드, 즉 64비트 하위 모드와 32비트 하위 모드로 구성되며 AMD64와 역호환됩니다. Intel의 EM64T는 AMD의 X86-64 기술과 완벽하게 호환됩니다. 이제 Nocona 프로세서에는 일부 64비트 기술이 추가되었으며 Intel의 Pentium 4E 프로세서도 64비트 기술을 지원합니다.
둘 다 x86 명령어 세트와 호환되는 64비트 마이크로프로세서 아키텍처라고 해야 하지만, EM64T와 AMD64 사이에는 여전히 약간의 차이점이 있습니다. AMD64 프로세서의 NX 비트는 처리되지 않습니다. 인텔은 서버에서 제공되지 않습니다.
11. 슈퍼파이프라인과 슈퍼스칼라
슈퍼파이프라인과 슈퍼스칼라를 설명하기 전에 먼저 파이프라인을 이해해 보겠습니다. 이 파이프라인은 Intel이 486 칩에서 처음 사용했습니다. 조립 라인은 산업 생산의 조립 라인처럼 작동합니다. CPU에서 명령 처리 파이프라인은 서로 다른 기능을 가진 5~6개의 회로 단위로 구성되며, X86 명령은 5~6단계로 나누어 이들 회로 단위에 의해 각각 실행되므로 하나의 명령이 한 번에 완료될 수 있습니다. CPU 클록 주기로 인해 CPU의 컴퓨팅 속도가 향상됩니다. 클래식 Pentium의 각 정수 파이프라인은 명령 미리 가져오기, 디코딩, 실행 및 결과 다시 쓰기라는 4가지 수준의 파이프라인으로 구분됩니다. 부동 소수점 파이프라인은 8가지 수준의 파이프라인으로 구분됩니다.
Superscalar는 내장된 다중 파이프라인을 사용하여 동시에 여러 프로세서를 실행합니다. 그 본질은 시간과 공간을 교환하는 것입니다. 슈퍼 파이프라인은 파이프라인을 개선하고 주 빈도를 높여 하나의 기계 주기에서 하나 이상의 작업을 완료하는 것입니다. 그 본질은 시간을 공간으로 교환하는 것입니다. 예를 들어 펜티엄 4의 파이프라인은 20단계에 달한다. 파이프라인의 단계(단계)가 길어질수록 명령을 더 빠르게 완료할 수 있으므로 작동 주파수가 더 높은 CPU에 적응할 수 있습니다. 그러나 지나치게 긴 파이프라인은 특정 부작용을 가져오기도 합니다. 비록 주 주파수가 4만큼 높을 수는 있지만, 더 높은 주파수를 가진 CPU의 실제 컴퓨팅 속도는 더 낮을 가능성이 높습니다. 1.4G 이상이지만 컴퓨팅 성능은 AMD의 1.2G Athlon 또는 Pentium III보다 훨씬 떨어집니다.
12. 포장 형태
CPU 포장은 CPU 칩이나 CPU 모듈을 특정 재료를 사용하여 견고하게 만들어 손상을 방지하는 보호 조치입니다. 사용자에게 전달될 수 있습니다. CPU의 패키징 방법은 CPU 설치 형태와 장치 통합 설계에 따라 다릅니다. 넓은 분류 관점에서 볼 때 일반적으로 소켓 소켓을 사용하여 설치되는 CPU는 PGA(그리드 어레이)를 사용하여 패키지되는 반면, Slot x 슬롯을 사용하여 설치되는 CPU는 모두 패키지됩니다. SEC(Single-side Junction Box) 형태의 포장을 사용합니다. PLGA(Plastic Land Grid Array), OLGA(Organic Land Grid Array) 등의 패키징 기술도 있습니다. 점점 더 치열해지는 시장 경쟁으로 인해 현재 CPU 패키징 기술의 개발 방향은 주로 비용 절감입니다.
13. 멀티스레딩
SMT라고 하는 동시 멀티스레딩. SMT는 프로세서의 구조적 상태를 복사하여 동일한 프로세서의 여러 스레드가 동시에 실행되고 프로세서의 실행 리소스를 완전히 공유할 수 있도록 하며 광범위한 문제, 비순차적 수퍼스칼라 처리를 최대화하고 프로세서 컴퓨팅 활용도를 향상시킬 수 있습니다. 구성 요소는 데이터 종속성 또는 캐시 누락으로 인한 메모리 액세스 지연을 완화합니다. 여러 스레드를 사용할 수 없는 경우 SMT 프로세서는 기존의 와이드 이슈 수퍼스칼라 프로세서와 거의 동일합니다. SMT의 가장 매력적인 점은 프로세서 코어의 설계를 조금만 변경하면 거의 추가 비용 없이 성능을 크게 향상시킬 수 있다는 것입니다. 멀티스레딩 기술은 고속 컴퓨팅 코어를 위해 더 많은 데이터를 처리하도록 준비하고 컴퓨팅 코어의 유휴 시간을 줄일 수 있습니다. 이는 의심할 여지없이 저가형 데스크탑 시스템에 매우 매력적입니다. 3.06GHz Pentium 4부터 모든 Intel 프로세서는 SMT 기술을 지원합니다.
14. 멀티코어
멀티코어는 단일 칩 멀티프로세서(칩 멀티프로세서, CMP라고도 함)를 의미하기도 합니다. CMP는 미국 스탠포드 대학에서 제안한 아이디어로, 대규모 병렬 프로세서의 SMP(대칭형 다중 프로세서)를 동일한 칩에 통합하고 각 프로세서가 서로 다른 프로세스를 병렬로 실행하는 것입니다. CMP와 비교하여 SMT 프로세서 구조의 유연성이 더욱 두드러집니다. 그러나 반도체 공정이 0.18 마이크론에 진입하게 되면 라인 딜레이가 게이트 딜레이를 초과하게 되어 마이크로프로세서의 설계는 더 작은 규모와 더 나은 집약성을 갖도록 많은 기본 단위 구조를 나누어 수행해야 한다. 이에 비해 CMP 구조는 설계를 위해 여러 프로세서 코어로 분할되었기 때문에 각 코어는 상대적으로 단순하여 최적화된 설계에 도움이 되고 따라서 개발 가능성이 더 높습니다. 현재 IBM의 Power 4 칩과 Sun의 MAJC5200 칩은 모두 CMP 구조를 사용합니다. 멀티 코어 프로세서는 프로세서 내에서 캐시를 공유하고, 캐시 활용도를 향상시키며, 멀티 프로세서 시스템 설계의 복잡성을 단순화할 수 있습니다.
2005년 하반기에는 인텔과 AMD의 새로운 프로세서도 CMP 구조로 통합될 예정이다. 새로운 Itanium 프로세서의 개발 코드는 Montecito입니다. 듀얼 코어 디자인을 채택하고, 최소 18MB의 온칩 캐시를 가지며, 90nm 프로세스를 사용하여 제조됩니다. 각각의 개별 코어에는 독립적인 L1, L2 및 L3 캐시가 있으며 약 10억 개의 트랜지스터가 포함되어 있습니다.
15. SMP
SMP(Symmetric Multi-Processing)는 대칭 다중 처리 구조의 약자로 컴퓨터에 조립된 프로세서 그룹(여러 CPU)을 의미합니다. 메모리 하위 시스템과 버스 구조는 CPU 간에 공유됩니다. 이 기술의 지원으로 서버 시스템은 동시에 여러 프로세서를 실행하고 메모리 및 기타 호스트 리소스를 공유할 수 있습니다. 양방향이라고 부르는 듀얼 Xeon과 마찬가지로 이는 대칭 프로세서 시스템에서 가장 일반적인 유형입니다(Xeon MP는 최대 4방향을 지원할 수 있고, AMD Opteron은 1-8방향을 지원할 수 있습니다). 16번인 것도 있습니다. 그러나 일반적으로 SMP 구조를 갖춘 시스템의 확장성은 낮고 100개 이상의 멀티 프로세서를 구현하기 어렵습니다. 기존의 멀티 프로세서는 일반적으로 8~16개이지만 대부분의 사용자에게는 충분합니다. 이는 최대 256개의 CPU를 갖춘 시스템을 지원할 수 있는 UNIX 서버와 같은 고성능 서버 및 워크스테이션급 마더보드 아키텍처에서 가장 일반적입니다.
SMP 시스템을 구축하기 위한 필수 조건은 SMP를 지원하는 마더보드, CPU 등 SMP를 지원하는 하드웨어와 SMP를 지원하는 애플리케이션 소프트웨어이다.
SMP 시스템이 효율적으로 수행되기 위해서는 운영체제가 WINNT, LINUX, UNIX 등의 32비트 운영체제 등 SMP 시스템을 지원해야 한다. 즉, 멀티태스킹과 멀티스레딩을 수행할 수 있는 능력입니다. 멀티태스킹은 운영 체제에서 서로 다른 CPU가 서로 다른 작업을 동시에 완료할 수 있음을 의미하며, 멀티스레딩은 운영 체제에서 서로 다른 CPU가 동일한 작업을 병렬로 완료할 수 있음을 의미합니다.
SMP 시스템을 설정하려면 선택한 CPU에 대한 요구 사항이 매우 높습니다. 먼저 CPU 내부에 APIC(Advanced Programmable Interrupt Controller) 장치를 내장해야 합니다. Intel 멀티프로세싱 사양의 핵심은 APIC(Advanced Programmable Interrupt Controller)를 사용하는 것입니다. 즉, 동일한 제품 모델, 동일한 유형의 CPU 코어, 동일한 작동 주파수를 가능한 한 동일하게 유지하는 것입니다. 왜냐하면 두 개의 CPU 생산 배치가 듀얼 프로세서로 실행될 때 한 CPU에는 과부하가 걸리고 다른 CPU에는 부하가 거의 없어 최대 성능을 발휘할 수 없거나 더 심각한 충돌이 발생할 수 있기 때문입니다.
16. NUMA 기술
NUMA는 비균일 액세스 분산 공유 저장 기술로, 각 노드는 고속 전용 네트워크를 통해 연결될 수 있습니다. 단일 CPU 또는 SMP 시스템. NUMA에는 운영 체제 및 특수 소프트웨어의 지원이 필요한 캐시 일관성을 위한 여러 솔루션이 있습니다. 그림 2는 Sequent의 NUMA 시스템의 예입니다. 3개의 SMP 모듈이 고속 전용 네트워크로 연결되어 노드를 구성합니다. 각 노드는 12개의 CPU를 가질 수 있습니다. Sequence와 같은 시스템은 최대 64개의 CPU 또는 심지어 256개의 CPU를 사용할 수 있습니다. 분명히 이것은 SMP를 기반으로 하고 NUMA 기술로 확장된 것입니다. 이 두 기술의 조합입니다.
17. 비순차적 실행 기술
비순차적 실행은 CPU가 여러 명령을 순서에 따라 각 해당 장치에 개별적으로 보낼 수 있도록 허용하는 것을 의미합니다. 프로그램에 의해 지정된 회로단위 처리 기술. 이와 같이 각 회로 유닛의 상태와 각 명령어의 실행 가능 여부에 대한 구체적인 상황을 미리 분석한 후, 미리 실행할 수 있는 명령어를 해당 회로 유닛에 즉시 전송하여 실행하게 된다. 명령어가 지정된 순서대로 실행되지 않으면 재배열 단위 각 실행 단위의 결과를 명령어 순서대로 재배열합니다. 비순차적 실행 기술을 사용하는 목적은 CPU 내부 회로를 최대 성능으로 작동시켜 CPU 실행 프로그램의 속도를 높이는 것입니다. 분기 기술: (분기) 명령은 작업을 수행할 때 결과를 기다려야 합니다. 일반적으로 무조건 분기는 명령 순서대로 실행하면 되고, 조건 분기는 처리된 결과를 바탕으로 원래 순서대로 진행할지 여부를 결정해야 합니다.
18. CPU 내부 메모리 컨트롤러
많은 애플리케이션이 더 복잡한 읽기 패턴을 가지며(거의 무작위로, 특히 캐시 적중을 예측할 수 없는 경우) 대역폭이 효율적으로 사용되지 않습니다. 이러한 유형의 일반적인 응용 프로그램은 비순차적 실행과 같은 CPU 기능이 있더라도 여전히 메모리 대기 시간으로 인해 제한되는 비즈니스 처리 소프트웨어입니다. 이러한 방식으로 CPU는 명령을 실행할 수 있기 전에 작업에 필요한 데이터의 배당이 로드될 때까지 기다려야 합니다(데이터가 CPU 캐시에서 나오든 주 메모리 시스템에서 나오든). 현재 저가형 시스템의 메모리 대기 시간은 약 120~150ns이며, CPU 속도는 3GHz 이상에 도달했습니다. 단일 메모리 요청은 200~300 CPU 사이클을 낭비할 수 있습니다. 캐시 적중률이 99%라도 CPU는 메모리 지연 시간 등으로 인해 메모리 요청이 완료되기를 기다리는 데 시간의 50%를 소비할 수 있습니다.
Opteron 통합 메모리 컨트롤러의 지연 시간은 듀얼 채널 DDR 메모리 컨트롤러를 지원하는 칩셋의 지연 시간보다 훨씬 낮다는 것을 알 수 있습니다. 인텔은 또한 메모리 컨트롤러를 프로세서 내부에 통합할 계획으로, 이를 통해 노스브리지 칩의 중요성이 줄어들 것입니다. 그러나 프로세서가 주 메모리에 액세스하는 방식을 변경하면 대역폭을 늘리고, 메모리 대기 시간을 줄이고, 프로세서 성능을 향상시키는 데 도움이 됩니다.