빅데이터 플랫폼용 소프트웨어란 무엇인가요?

1. Phoenix

이는 개발자가 Apache HBase에서 SQL 쿼리를 실행할 수 있도록 하는 Java 중간 계층입니다. Phoenix는 전적으로 Java로 작성되었으며 코드는 GitHub에 있으며 클라이언트 내장형 JDBC 드라이버를 제공합니다.

Phoenix 쿼리 엔진은 SQL 쿼리를 하나 이상의 HBase 스캔으로 변환하고 실행을 조정하여 표준 JDBC 결과 세트를 생성합니다. HBase API, 보조 프로세서 및 사용자 정의 필터를 직접 사용하면 성능 수준은 간단한 쿼리의 경우 밀리초, 수백만 행의 경우 초입니다.

2. Presto

Facebook의 오픈소스 데이터 쿼리 엔진인 Presto는 250PB 이상의 데이터를 빠르고 대화형으로 분석할 수 있습니다. 이 프로젝트는 2012년 가을에 개발을 시작했으며 현재 1,000명 이상의 Facebook 직원이 사용하고 있으며 30,000개 이상의 쿼리와 1PB의 일일 데이터를 실행하고 있습니다. Facebook은 Presto의 성능이 Hive 및 Map*Reduce보다 10배 이상 우수하다고 주장합니다.

Presto는 현재 결합 쿼리, 왼쪽 및 오른쪽 조인, 하위 쿼리, 일부 집계 및 계산 함수 등을 포함하여 ANSI SQL의 특수 효과 대부분을 지원합니다.

3. Shark

Shark는 기본적으로 Hive의 HQL 구문 분석을 사용하여 Spark에서 HQL을 RDD 작업으로 변환한 다음 Hive의 메타데이터를 통해 데이터베이스를 얻습니다. HDFS의 정보, 실제 데이터 및 파일은 Shark가 획득하여 계산을 위해 Spark에 저장됩니다. Shark의 특징은 빠르고, Hive와 완벽하게 호환되며, Shell 모드에서 rdd2sql()과 같은 API를 사용하여 Scala 환경에서 HQL에서 얻은 결과 집합을 계속해서 연산할 수 있으며, 간단한 기계 학습이나 간단한 작성을 지원합니다. 분석 및 처리 기능을 직접 수행하고 HQL 결과를 추가로 분석하고 계산합니다.

빅데이터 플랫폼에는 어떤 소프트웨어가 있는지, 여기서 공유해드리겠습니다. 빅데이터 엔지니어링에 큰 관심이 있다면 이 글이 도움이 되기를 바랍니다. 데이터 분석가와 빅데이터 엔지니어의 기술과 자료에 대해 더 알고 싶다면 이 사이트의 다른 기사를 클릭하여 알아볼 수 있습니다.

위 내용은 빅데이터 플랫폼에 어떤 소프트웨어가 사용되는지에 대해 편집자가 공유한 관련 내용입니다. 자세한 내용은 Global Ivy를 팔로우하여 더 유용한 정보를 공유할 수 있습니다.

上篇: 천소 오리지널 기심 下篇: 하얼빈 워터파크의 재미있는 장소는 어디인가요?