컴퓨터 지식 네트워크 - 컴퓨터 프로그래밍 - ARM의 머신러닝 하드웨어와 그 장점을 자세히 살펴보세요.

ARM의 머신러닝 하드웨어와 그 장점을 자세히 살펴보세요.

몇 주 전 ARM은 전용 머신러닝(ML) 하드웨어의 첫 번째 배치를 발표했습니다. "Project Trillium"에 따라 이 회사는 스마트폰과 같은 제품을 위한 전용 ML 프로세서와 객체 감지(OD) 사용 사례를 가속화하도록 특별히 설계된 두 번째 칩을 출시했습니다. Project Trillium과 성장하는 기계 학습 하드웨어 시장에 대한 회사의 광범위한 계획을 자세히 살펴보겠습니다.

ARM의 발표가 전적으로 추론 하드웨어와 관련이 있다는 점은 주목할 가치가 있습니다. ML 및 OD 프로세서는 대규모 데이터 세트에 대한 알고리즘을 교육하는 대신 소비자급 하드웨어에서 교육된 기계 학습 작업을 효율적으로 실행하도록 설계되었습니다. 첫째, ARM은 ML 추론 하드웨어의 두 가지 주요 시장인 스마트폰과 인터넷 프로토콜/감시 카메라에 중점을 둘 것입니다.

새로운 기계 학습 프로세서

Project Trillium의 새로운 전용 기계 학습 하드웨어 발표에도 불구하고 ARM은 CPU 및 GPU에서 이러한 유형의 작업을 지원하기 위해 최선을 다하고 최적화된 내적 기능을 구현합니다. Cortex-A75 및 A55 코어에 있습니다. Trillium은 더욱 최적화된 하드웨어로 이러한 기능을 강화하여 더 높은 성능과 더 낮은 전력 소비로 기계 학습 작업을 완료할 수 있도록 합니다. 그러나 ARM의 ML 프로세서는 단순한 가속기가 아니라 그 자체로 프로세서입니다.

프로세서는 1.5W 전력 범위에서 최대 처리량이 4.6 TOP/s로 스마트폰 및 저전력 소비 제품에 적합합니다. 이는 7nm 구현을 기반으로 칩에 3 TOP/W의 전력 효율을 제공하는 동시에 에너지 절약 제품 개발자에게는 큰 매력입니다.

흥미롭게도 ARM의 ML 프로세서는 Qualcomm, Huawei 및 MediaTek의 것과는 다른 구현을 사용하며 모두 디지털 신호 프로세서(DSP)를 재설계하여 고급 프로세서에서 기계 학습 작업을 실행할 수 있습니다. MWC(Mobile Worldwide Conference) 채팅에서 ARM 부사장 Jem Davies는 DSP 회사 인수가 이 하드웨어 시장에 진입하기 위한 하나의 옵션이라고 언급했지만 궁극적으로 회사는 가장 일반적인 하드웨어 시장에 특별히 최적화된 기반 솔루션을 구축하기로 결정했습니다. 운영 계획.

ARM의 ML 프로세서는 8비트 정수 연산 및 CNN(컨벌루션 신경망)용으로 설계되었습니다. 이는 작은 바이트 크기 데이터의 대규모 곱셈에 특화되어 이러한 유형의 작업에서 범용 DSP보다 더 빠르고 효율적입니다. CNN은 아마도 오늘날 가장 일반적인 ML 작업인 이미지 인식에 널리 사용됩니다. 외부 메모리에 대한 이 모든 읽기 및 쓰기는 종종 시스템에 병목 현상을 일으킬 수 있으므로 ARM에는 실행 속도를 높이기 위해 내부 메모리도 많이 포함되어 있습니다. 이 메모리 풀의 크기는 가변적이며 ARM은 파트너에게 사용 사례에 따라 최적화된 다양한 설계를 제공하기를 희망합니다.

ARM의 ML 프로세서는 8비트 정수 연산 및 컨벌루션 신경망용으로 설계되었습니다.

ML 프로세서 코어는 성능 향상을 위해 단일 코어에서 16코어까지 구성할 수 있습니다. 각 구성 요소에는 최적화된 고정 기능 엔진과 프로그래밍 가능한 레이어가 포함되어 있습니다. 이는 개발자에게 어느 정도의 유연성을 제공하고 프로세서가 새로운 기계 학습 작업이 발전함에 따라 처리할 수 있도록 보장합니다. 장치 제어는 네트워크 제어 장치에 의해 모니터링됩니다.

마지막으로 프로세서에는 시스템의 다른 부분에 있는 메모리에 대한 빠른 직접 액세스를 보장하는 DMA(직접 메모리 액세스) 장치가 포함되어 있습니다. ML 프로세서는 SoC에 통합할 수 있는 ACE-Lite 인터페이스가 있는 자체 독립형 IP 모듈로 사용 가능하거나 SoC 외부의 고정 모듈로 사용 가능하거나 Cortex-A75와 같은 Armv8.2-A CPU와 함께 사용 가능 및 A55)은 DynamIQ 클러스터에 통합되어 있습니다. DynamIQ 클러스터에 통합하면 클러스터의 다른 CPU 또는 ML 프로세서에 짧은 지연 시간의 데이터 액세스와 효율적인 작업 예약 기능을 제공하는 매우 강력한 솔루션이 될 수 있습니다.

모두 적합

작년에 ARM은 Cortex-A75 및 A55 CPU 프로세서와 고급 Mali-G72 GPU를 출시했지만 전용 기계 학습 하드웨어는 출시하지 않았습니다. 1년 후까지 . 그러나 ARM은 최신 하드웨어 장치에서 일반 기계 학습 작업을 가속화하는 데 상당한 초점을 맞추고 있으며 이는 앞으로도 회사 전략의 일부로 남아 있습니다.

최신 메인스트림 장치인 Mali-G52 그래픽 프로세서는 Dot 제품(Int8) 지원 덕분에 머신러닝 작업 성능을 3.6배 향상시키고 채널당 4배의 곱셈 및 누적 연산을 수행합니다. 도트 제품 지원은 A75, A55 및 G72에도 있습니다.

새로운 OD 및 ML 프로세서를 사용하더라도 ARM은 최신 CPU 및 GPU에서 가속화된 기계 학습 작업을 계속 지원합니다. 곧 출시될 전용 기계 학습 하드웨어는 이러한 작업을 더 효율적으로 만들기 위해 존재하지만 이는 광범위한 제품 파트너를 만족시키기 위해 설계된 광범위한 솔루션 포트폴리오의 일부입니다.

단일 코어부터 멀티 코어 CPU 및 GPU, 16개 코어까지 확장 가능한 선택적 ML 프로세서(SoC 코어 클러스터 내부 및 외부에서 사용 가능)까지 ARM은 간단한 스마트 스피커부터 자율 주행 자동차까지 모든 것을 지원할 수 있습니다. 더 강력한 하드웨어가 필요한 데이터 센터. 물론 회사에서는 이러한 확장성을 처리할 수 있는 소프트웨어도 제공합니다.

회사의 Compute Library는 회사의 CPU, GPU, 그리고 이제는 ML 하드웨어 구성 요소에서 기계 학습 작업을 처리하기 위한 도구로 남아 있습니다. 이 라이브러리는 이미지 처리, 컴퓨터 비전, 음성 인식 등을 위한 하위 수준 소프트웨어 기능을 제공하며 모두 가장 적합한 하드웨어에서 실행됩니다. ARM은 CMSIS-NN 코어를 사용하여 Cortex-M 마이크로프로세서용 임베디드 애플리케이션도 지원합니다. 기본 기능과 비교하여 CMSIS-NN은 최대 5.4배의 처리량과 5.2배의 에너지 효율성을 제공합니다.

하드웨어 및 소프트웨어 구현에 대한 이러한 광범위한 가능성에는 ARM의 신경망 소프트웨어가 필요한 유연한 소프트웨어 라이브러리가 필요합니다. 이 회사는 TensorFlow 또는 Caffe와 같은 널리 사용되는 프레임워크를 대체할 의도가 없으며 오히려 이러한 프레임워크를 특정 제품의 하드웨어와 관련된 라이브러리로 변환합니다. 따라서 휴대폰에 ARM ML 프로세서가 없는 경우에도 라이브러리는 CPU 또는 GPU에서 작업을 실행하여 계속 작동합니다. 개발을 단순화하기 위해 구성을 숨기는 것이 목표입니다.

오늘날의 기계 학습

현재 ARM은 기계 학습 분야에서 추론 지원을 제공하는 데 주력하고 있으며 이를 통해 소비자는 자신의 기기에서 복잡한 알고리즘을 효율적으로 실행할 수 있습니다. 기계 학습 훈련에 하드웨어가 포함될 가능성도 배제하지 않았습니다. 초고속 5G 네트워크 시대가 도래하고 개인 정보 보호와 보안에 대한 우려가 높아지는 상황에서 구글처럼 클라우드에 집중하기보다 엣지에서 ML 컴퓨팅을 추진하겠다는 ARM의 결정은 올바른 선택으로 보인다.

가장 중요한 것은 ARM의 머신러닝 역량이 플래그십 제품에만 국한되지 않는다는 점이다. 다양한 하드웨어 유형과 확장성 옵션을 지원함으로써 저가형 스마트 스피커부터 고가의 서버에 이르기까지 모든 제품이 혜택을 받을 수 있듯이 가격대에 관계없이 스마트폰도 혜택을 누릴 수 있습니다. ARM의 전용 ML 하드웨어가 시장에 출시되기 전에도 Dot 제품을 활용하여 CPU 및 GPU를 향상시키는 최신 SoC는 성능과 에너지 효율성이 향상될 것입니다.

SoC 발표가 너무 많았기 때문에 올해 어떤 스마트폰에서도 ARM의 전용 ML 및 객체 감지 프로세서를 볼 수 없을 것입니다. 대신, Trillium 프로젝트 및 관련 하드웨어의 혜택을 받을 수 있는 최초의 휴대폰을 얻으려면 2019년까지 기다려야 합니다.

上篇: BOE B는 스마트 TV를 더욱 간편하고 편리하게 만듭니다. 下篇: Biostar HI-FI B85W는 JD.com에서 구입할 수 있습니다. 오버클럭하는 방법은 무엇입니까?
관련 내용