MX440이 매직카드라고 불리는 이유는 무엇인가요?

컴퓨터 그래픽 가속 시스템에서 가장 큰 성능 병목 현상은 그래픽 칩 자체가 아닙니다(GeForce256 시대부터 nVIDIA는 무거운 3D 그래픽 모델링 계산에서 컴퓨터 CPU를 해방시켜 그래픽 칩에 넘겨주었습니다. 프로세서 GPU), 그러나 메모리 대역폭에 있습니다. 이미지 가속 칩이 실행 중일 때 메모리 버스는 픽셀 읽기 및 쓰기, 디스플레이 새로 고침, AGP 버스 데이터 전송 및 텍스처 데이터 전송과 같은 장기간 지속되는 데이터 전송에 의해 점유됩니다. 메모리 대역폭이 부족하면 그래픽 가속 성능이 즉시 저하됩니다! 따라서 Lightspeed Memory Architecture II는 이러한 성능 병목 현상을 해결하도록 설계되었습니다. 6가지 주요 기술 모듈로 구성됩니다:

1. 크로스바 메모리 컨트롤러

크로스바 메모리 컨트롤러는 메모리 시스템의 모든 측면을 조정하고 적시에 GPU 요청을 충족시킵니다. 이론적으로 NVIDIA의 2세대 광속 그래픽 메모리 아키텍처는 일반 그래픽 메모리 아키텍처에 비해 2~4배의 메모리 대역폭을 제공할 수 있습니다. 우리 모두 알고 있듯이 GeForce4는 128비트 DDR 메모리 인터페이스를 사용합니다. 이는 한 메모리 사이클에서 256비트 데이터에 액세스할 수 있음을 의미합니다. 그러나 각 픽셀에는 일반적으로 Z 및 모듈러스 데이터가 포함되어 있습니다. 즉, 이 두 데이터 세트를 한 번에 읽을 수 없고 두 번 읽어야 합니다. 오늘날 인기 있는 게임에서 삼각형의 크기는 매우 작으며 일반적으로 몇 픽셀에 불과합니다. 32비트의 Z와 32비트의 모듈 데이터로 구성된 삼각형을 예로 들면, 정보량은 32비트 × 2 = 64비트입니다. 비디오 메모리 컨트롤러가 256비트 모드에서 데이터에 액세스하는 경우 이는 액세스 프로세스 중에 비디오 메모리 대역폭의 75%가 낭비된다는 의미입니다.

2. 4개의 캐시 세트

LMA II 아키텍처에는 쿼드 캐시라는 캐시 하위 시스템이 있습니다. 작동 원리는 RAM 액세스 속도를 높일 수 있는 CPU의 캐시와 동일합니다. Quad Cahce에는 원본 텍스처, 정점 데이터, 재료 및 픽셀 정보에 대한 액세스를 담당하는 기능에 최적화된 4개의 독립적인 버퍼가 있습니다. 다양한 정보가 서로 독립적이기 때문에 액세스 프로세스 중에 일부 불필요한 작업이 제거되어 다양한 정보가 고속으로 그래픽 파이프라인에 입력됩니다. 작동 원리를 설명하는 예를 들어 보겠습니다. 1280×1024 해상도, 16바이트 읽기 및 쓰기 주기, 삼선형 필터링을 사용하고 픽셀당 두 가지 재료를 계산하는 경우 정보의 양은 1280픽셀/라인 157MB/입니다. 프레임을 사용하면 저장된 비디오 메모리 대역폭을 더 복잡한 작업에 사용할 수 있습니다.

3. 무손실 Z 스텐실 버퍼 압축

이것은 GeForce3가 갖춘 또 다른 기능입니다. 그러나 LMA II에서는 새로운 압축 알고리즘으로 인해 4:1 압축이 더 자주 원활하게 수행되어야 합니다.

4. 가시성 하위 시스템

이 기능은 GeForce3에도 있지만 NV25 및 NV17의 경우 더 적은 메모리 대역폭에서 더 많은 픽셀 컬링을 달성하도록 조정되었습니다. 이제 칩 외부 메모리 사용을 방지하기 위해 특정 컬링 표면 캐시에서 칩 내 컬링을 수행할 수 있습니다.

5． 자동 사전 로드

비디오 메모리 대역폭과 관련하여 페이지 관리로 인한 지연은 쉽게 간과될 수 있는 요소입니다. 우선 DRAM은 행, 열, "뱅크"별로 관리됩니다. 현재 활성화된 "뱅크"의 행과 열만 읽고 쓸 수 있습니다. GPU가 비디오 메모리 칩의 다른 영역을 읽고 쓰려면 비디오 메모리 컨트롤러는 요청된 "뱅크"를 열기 전에 먼저 현재 활성화된 "뱅크"를 닫아야 합니다. 이 프로세스에는 거의 10개의 DRAM 사이클이 소요될 수 있으며, 이 프로세스 동안 데이터 버스는 유휴 상태입니다.

GeForce4의 GPU에는 비디오 메모리 컨트롤러를 미리 참조하여 액세스할 비디오 메모리 영역을 미리 충전할 수 있는 기능이 있습니다. 이렇게 하면 대기 시간이 2~3클럭 주기로 줄어들고, GPU와 비디오 메모리 간 데이터 전송 효율도 자연스럽게 향상된다.

6． 빠른 Z 템플릿 삭제

빠른 1년 전 Radeon에서 본 적이 있습니다. 프레임 버퍼의 특정 영역에 마크를 설정하면 프레임 버퍼 전체를 채우는 것이 아니라 해당 마크에 데이터를 쓸 때만 프레임 버퍼가 실제로 다시 채워지므로 메모리 대역폭을 절약할 수 있습니다. GeForce4의 빠른 Z 클리어링 기술은 이 프로세스에 소요되는 시간을 크게 줄여 이미지 품질 저하 없이 프레임 속도를 거의 10%까지 높일 수 있습니다.

그러나 GeForce4 MX의 2세대 광속 메모리 아키텍처는 GeForce4 Ti와 다릅니다. 후자는 32비트 로드 밸런싱 메모리 컨트롤러를 4개 사용하는 반면, 전자는 64비트 컨트롤러를 2개 사용하므로 이러한 점에서 , GeForce4 MX와 GeForce 4 Ti의 차이점은 여전히 매우 분명합니다.

上篇: Life Together 앱에서 홈 비디오 액세스에 요금이 부과되나요? 下篇: "체리" 최신 txt 완전 세트