Spark보다 10배 빠른 Hadoop 3.0의 실용적인 새로운 기능은 무엇인가요?
1. Hadoop 3.0 소개
Hadoop 2.0은 JDK 1.7을 기반으로 개발되었으며, JDK 1.7은 2015년 4월 업데이트를 중단하여 Hadoop 커뮤니티가 JDK 1.7을 기반으로 직접 다시 출시하게 되었습니다. JDK 1.8 새로운 Hadoop 버전이며, 이것이 hadoop 3.0입니다.
올 여름 하둡 3.0 알파 버전이 출시될 예정이며, 11~12월에는 GA 버전이 출시될 예정이다.
Hadoop 3.0에는 HDFS 삭제 가능 인코딩, 다중 네임노드 지원, MR 기본 작업 최적화, YARN cgroup 기반 메모리 및 디스크 IO 격리, YARN 컨테이너 크기 조정 등을 포함한 몇 가지 중요한 기능과 최적화가 도입되었습니다.
2. Hadoop 3.0의 새로운 기능
Hadoop 3.0은 다음을 포함하여 기능 및 성능 측면에서 hadoop 커널에 여러 가지 주요 개선 사항을 적용했습니다. 2.1 Hadoop 공통
(1) 오래된 API 및 구현을 제거하고 기본 구성 요소 구현을 가장 효율적인 구현으로 교체하는 등 Hadoop 커널을 간소화합니다(예: FileOutputCommitter의 기본 구현을 v2 버전으로 변경, hftp를 폐지하고 webhdfs로 전환하는 대신 Hadoop 하위 구현 직렬화 라이브러리 org.apache.hadoop.Records를 제거합니다.
(2) 다양한 버전의 jar 패키지 간의 충돌을 방지하기 위해 클래스 경로 격리를 사용합니다. Guava는 Hadoop, HBase 및 Spark를 혼합하므로 충돌이 쉽게 발생할 수 있습니다.