애플 자체 연구 칩 M1 강은 어디에 있습니까?
이 단계에서 M1 은 Intel 과 AMD 를 크게 능가했습니다. M1 의 L1 캐시는 192 KB 로 Intel 과 AMD 의 32 KB 보다 5 배 더 큽니다. < P > 명령을 가져온 후에도 명령을 디코딩해야 한다. 모든 외부 지시문을 CPU 가 읽을 수 있는 언어로 번역해야 하기 때문이다. 여기서 M1 은 8 개의 디코더, Intel 은 5 개, AMD 는 4 개입니다. 수량적으로만 우리는 격차를 볼 수 있다. < P > 하지만 사실 격차는 양적인 것만은 아니다. 사실, 이 세 CPU 내부에서 읽을 수 있는 명령어는 모두 RISC 라는 명령어 (축소 명령어 세트) 이기 때문이다. 이 명령은 각 항목의 길이와 실행 시간이 고정되어 있지만 너무 복잡해서는 안 됩니다. 복잡한 작업을 완료하려면 여러 RISC 를 스택해야 합니다. < P > 디코더에 들어가기 전의 지시문과 구분하기 위해 디코더 뒤의 각 지시문을 "마이크로명령어" 라고 합니다.
CPU 에 입력하는 명령은 무엇입니까? < P > 애플의 M1, 입력된 것이 바로 RISC 지시다. Intel 과 AMD 의 경우 모두 X86 명령입니다. 이것은 CISC (composite scription command) 라고 하는 RISC 명령과는 완전히 다른 명령입니다. 이 명령의 길이는 고정되어 있지 않고 실행 시간도 고정되어 있지 않지만, 여러 개를 쌓지 않고도 하나의 명령으로 좀 더 복잡한 작업을 수행할 수 있습니다.
RISC 와 CISC 는 서로 다른 두 진영이다. Intel 과 AMD 의 CPU 에서는 CISC 를 RICS 로 번역하는 절차가 하나 더 필요하기 때문에 번역 과정에는 당연히 에너지 소모와 시간이 필요하다. (윌리엄 셰익스피어, Northern Exposure (미국 TV 드라마), Northern Exposure (미국 TV 드라마) 애플의 M1, 입력된 지시는 RISC 이고 번역기는 RISC 를 출력한다. (알버트 아인슈타인, Northern Exposure (미국 TV 드라마), 애플명언) < P > 애플 입/출력이 모두 RISC 인 이상 통역은 왜 하는 거야? 표준화가 필요하기 때문이다. 그러나 이런 표준화는 중국어 번체를 중국어 간체로 번역하는 것과 약간 유사하며 비교적 간단하다. Intel 과 AMD 가 이 단계에서 하는 번역은 고대 중국어를 중국어 간체로 번역하는 것과 비슷해서 훨씬 더 힘들었다. 그래서 이 단계에서 M1 은 대량의 에너지 소비를 절감했습니다. < P > 를 실행하기 전에 번역 표준화 지침을 전송하는 또 다른 단계가 있습니다. 발사 단계에서 M1 은 한 번에 8 개의 마이크로명령을 실행할 수 있고, AMD 는 한 번에 6 개, 인텔은 한 번에 4 개를 보낼 수 있다. 즉, 같은 작업을 수행하고 같은 주파수에서 M1 이 보낸 마이크로 명령어 수가 인텔보다 두 배 더 큽니다. < P > 마이크로 명령이 실행되기 전에 또 다른 단계는 순서를 지정하는 것입니다. 실행할 명령이 있기 때문에 사전 계산 결과를 기다려야 합니다. < P > 예를 들어, 나눗셈의 차용자는 전형이다. 그래서 한 가지 현상이 있는데, 일부 마이크로명령어의 전후 순서는 바꿀 수 없다. 그리고 많은 마이크로명령어의 집행은 선후를 신경쓰지 않고 가능한 한 빨리 결과를 계산해 내면 된다. (윌리엄 셰익스피어, 햄릿, 지혜명언) < P > 따라서 사전 순서 계산 결과를 기다려야 하는 지시문은 대기열에 쌓이기 쉽다. 이 대기열 대기 영역을 "버퍼" 라고합니다. 이 버퍼는 마이크로 명령어 큐에 사용되기 때문에' 순서재정리 버퍼 (ROB)' 라고도 합니다.
이 지역은 물론 클수록 좋습니다. M1 은 여기에 63 개, 인텔은 224 개, AMD 는 256 개. M1 은 다른 두 가지보다 2 배 이상 크다.
다음으로 실행 부분에 도달했습니다. 명령을 실행하는 노동자가 많을수록 속도가 빠를수록 자연히 전반적인 성능의 병목 현상이 되기 쉽지 않다. 부동 소수점 연산이 오늘날 성능에 가장 직접적인 영향을 미치는 지표로 볼 때 M1, Intel 및 AMD 는 2 개의 256 bit 실행 단위와 비슷한 많은 리소스를 계획하고 있습니다. < P > 물론 부동 소수점 연산 외에 이 단위도 정수 부분의 연산을 수행합니다. 정수 연산과 부동 소수점 연산은 CPU 의 전체 연산입니다. 정수와 부동 소수점 부분을 임시로 보관하는 단위인 M1 도 354+384 의 구조이고, Intel 은 18+168, AMD 는 192+168 입니다. < P > 따라서 실행 단위의 실행력은 동일하지만 임시로 저장된 부분 (레지스터) 은 M1 이 더 크므로 병목 현상을 제거하는 데 더 도움이 됩니다.
실행 부분 완료. 2 차 캐시 (L2) 에서 M1 은 각 코어마다 3 MB 의 2 차 캐시를 배치한 거대한 자원을 계획하고 있습니다. 이것은 프로세서 설계 역사상 가장 큰 것이다. Intel 은 코어당 1.25 MB, AMD 는 코어당 .5 MB 입니다.
L2 캐시가 커서 어떤 명령을 사용할 것인지 예측할 때 미리 준비할 수 있어 다음에 사용할 명령을 미리 넣을 기회가 크다. 일단 사용할 수 있게 되면 캐시에서 가져오는 속도가 메모리에서 가져오는 것보다 훨씬 빠르다. 마치 긴급 구조대가 아래층에서 오는지, 아니면 3 개 거리 밖에서 오는 것과 같은 큰 차이다. < P > 물론 3 개 거리 밖에서 오는 것도 중요하다. 결국 필요한 모든 것은 메모리에 저장해 두었다가 캐시로 옮긴 후 CPU 로 배달되기 때문이다. 메모리의 대역폭이 크면 병목 현상도 제거됩니다.
그러나 M1 은 메모리를 완전히 다르게 처리합니다. M1 에서는 CPU 의 철제 덮개 아래에 배치되어 있고 CPU 와 하나가 되어 있기 때문에 그 메모리를 만질 수 없습니다. 보통 컴퓨터의 메모리는 어디에 있나요? CPU 에서 약 5-1 cm 떨어진 곳에 꽂을 수 있는 메모리 스틱입니다. 메모리 바, 그 게 다 야. M1 이 이렇게 하는 가장 큰 장점은 지연을 줄이고 기존 컴퓨터의 7 ns 에서 45 ns 로 낮추는 것이다.
메모리 대역폭의 차이가 더욱 커졌습니다. M1 Ultra 는 8 GB/s 에 이를 수 있으며 M1 Pro 와 M1 도 2 GB 를 가질 수 있지만 Intel 과 AMD 는 약 5 GB/s-6 GB/s 에 불과합니다. < P > 따라서 HD 비디오 클립과 같은 초당 수십 기가바이트의 실시간 데이터 전송 작업에서 애플 노트북의 처리 효율성이 매우 높습니다. 그래서 오늘날, 대부분의 동영상 UP 주인은 경제상황이 허락하는 한 애플 노트북으로 편집한 것이 틀림없다.
CPU 의 성능은 어떻게 결정됩니까? < P > 사실 CPU 의 성능이 좋든 나쁘든, 어느 한 고리에 돌무더기로 이루어진 것이 아니다. 계산 프로세스는 파이프 라인이기 때문에 온라인 상의 어느 지점에서든 병목 현상이 CPU 의 최대 성능을 결정합니다. M1 은 전통적인 CPU 보다 낫습니다. 어떤 부분에서든 맹재를 쌓고 있습니다. < P > 일부 전형적인 이미지 렌더링 작업 (Cinebench R23) 처리에서 전체 코어 발마력의 M1 은 78 점, 인텔의 Intel 129k 는 135 점입니다. Intel 데스크탑 주력기 CPU 의 성능은 M1 의 17% 이지만 전력 소비량은 M1 의 65% 입니다. 마찬가지로, M1 아키텍처의 CPU 는 인텔의 1/4-1/3 의 전력 소비량만 있으면 됩니다. < P > 따라서 M1 아키텍처를 사용하는 애플 노트북은 전원 어댑터를 사용하지 않고도 하루 종일 근무할 수 있습니다.
이는 현재 기존 프로세서에서는 점점 더 불가능해지고 있습니다. Intel 과 AMD 모두 최고 성능을 겨루고 있기 때문에, 원래 에너지 소비가 아직 가능한 디자인보다 더 여유로워질 수 없었고, 마지막 한 방울의 성능을 짜내야 했고, 때로는 전력 소비를 두 배로 증가시켜 성능을 1% 정도 높여야 할 때도 있었다. (윌리엄 셰익스피어, 햄릿, 에너지명언) < P > 이로 인해 또 다른 이상한 일이 생겼습니다. 기존 프로세서의 노트북을 구입하면 AC 전원과 전원 플러그를 꽂을 때 성능이 3 ~ 4% 정도 달라질 수 있습니다. < P > AC 전원을 꽂지 않을 때 시스템이 최대 성능으로 작동하면 배터리가 빠르게 부족해지고 사용자 환경이 너무 나빠질 수 있기 때문입니다. 따라서 배터리 수명만 사용할 경우 CPU 와 GPU 가 저주파, 저전압으로 작동하도록 강제됩니다. 이때 성능이 크게 저하됩니다. < P > 애플의 CPU 에는 이런 설정이 전혀 없다. 배터리와 전원을 사용할 때의 성능은 똑같다.
왜 애플의 CPU 가 이렇게 비싼가요? < P > 여기서 우리는 22 년 발표된 M1 을 둘러싸고 있습니다. 실제로 3 월 8 일 밤 발표된 M1 Ultra 에 더욱 관심이 쏠리고 있습니다. 하지만 M1 을 이해하는 것은 M1 Ultra 를 이해하는 데 매우 중요합니다. 왜냐하면
M1 = 8 CPU+8 GPU
m1 pro = 1 CPU+16 GPU
m1 max = 1 CPU+32 GPU
M1 Ultra) M1 Ultra 는 M1 의 인프라를 이용하여 블록을 쌓은 것이다. < P > 애플의 CPU 가 왜 이렇게 좋은지 말해봐. < P > 우선, 한 푼의 물건 때문에. 이 CPU 의 비용은 Intel 과 AMD 보다 몇 배에서 1 배 이상 비쌉니다. 업계 분석에 따르면 M1 Ultra 의 제조 비용은 약 35 달러이고, Intel 과 AMD 최상위 CPU 의 비용은 수십 달러에 불과합니다. < P > 애플은 물론 기술적 우위를 가지고 있지만, 단일 CPU 의 비용도 Intel 과 AMD 와 비슷한 범위로 제한한다면 애플도 Intel 과 AMD 수준만 할 수 있을 뿐이다. < P > 그런데 왜 애플이 감히 이렇게 비싼 CPU 를 만들까? < P > 그 이유는 애플이 CPU 를 파는 것이 아니라 전체 기계를 파는 것이기 때문이다.
Intel 과 AMD 처럼 CPU 판매로 돈을 벌면 제조 비용만 35 달러가 든다. R&D 비용이 5 달러/개라면 총 비용은 4 달러이고, 그 판매가격은 적어도 2, 달러를 달려야 한다. 오늘날 CPU 판매량이 가장 많은 모델의 판매가격은 일반적으로 2 달러에서 4 달러 사이입니다. < P > 따라서 Intel 이나 AMD 는 그렇게 호화로운 아키텍처를 계획하지 않습니다. 애플이 감히 이렇게 하는 이유는 전체 기계만 팔고 가격도 5 ~ 8 달러이기 때문이다. 그렇다면 가장 중요한 부품에 35 달러를 할당하는 것은 문제없다. < P > 두 번째 이유는 애플이 R&D 비용을 더 압축할 수 있기 때문이다.
이 (가) 개발한 M1 아키텍처는 2 배, 3 배, 7 배 스택으로 계속 스택할 수 있으며 이동측에서 노트북, 데스크탑, 올인원 등 다양한 플랫폼에서 공통적으로 사용됩니다. 이렇게 대대적인 기초 제품 사용으로 규모를 확대하여 각 제품으로 초점이동할 수 있는 것은 애플만이 할 수 있다. (윌리엄 셰익스피어, 햄릿, 지혜명언) 애플의 각 제품에는 수억 명의 사용자가 있기 때문에 이러한 플랫폼은 운영 체제까지 통일되어 있다. < P > 물론 애플의 CPU 도 완벽하지 않다. < P > 예를 들어, M1 Ultra 는 실제로 일부 에너지 소비의 장점을 희생하여 현재 인텔의 최신 12 세대 코어 프로세서를 따라잡기 위해 의도적으로 규모를 늘렸습니다. < P > 또 다른 예로 M1 Ultra 의 싱글 코어 성능은 M1 에 비해 거의 향상되지 않았습니다. CPU 전체 코어 성능은 M1 의 3.2 배이지만 실제 트랜지스터 수는 M1 의 7.1 배입니다. < P > 또 애플의 컴퓨터는 GPU 규격이 매우 높더라도 게임을 하는 데 거의 사용할 수 없다. 이것은 게임 소프트웨어가 지원하지 않기 때문에 역사적인 원인으로 간주된다. < P > 하지만 Ultra 가 M1 아키텍처의 마지막 버전이며 애플이 다음에 CPU 를 다시 업데이트할 때 코드명이 M2 로 업그레이드되어 222 년 9 월 발표회에 모습을 드러낼 것으로 예상된다.