빅 데이터 분석에 일반적으로 사용되는 도구는 무엇입니까?
리눅스: 빅데이터 관련 소프트웨어가 리눅스에서 실행되기 때문에 리눅스를 착실하게 배워야 합니다. Linux 를 잘 배우면 Hadoop, hive, hbase, spark 등 데이터 소프트웨어의 운영 환경과 네트워크 환경 구성을 더 잘 이해할 수 있는 대용량 데이터 관련 기술을 빠르게 습득할 수 있습니다. , 많은 구덩이를 밟지 않고, 스크립트를 이해하는 법을 배워서, 큰 데이터 클러스터를 더 쉽게 이해하고 구성할 수 있게 해준다. (윌리엄 셰익스피어, 햄릿, 지혜명언) 또한 앞으로 새로운 빅 데이터 기술을 더 빨리 배울 수 있습니다.
글쎄, 기초를 마친 후, 우리가 배워야 할 큰 데이터 기술에 대해 이야기하고, 내가 쓴 순서대로 배울 수 있습니다.
Hadoop: 이것은 인기 있는 대형 데이터 처리 플랫폼으로, 거의 큰 데이터의 대명사가 되기 때문에 필수적이다. Hadoop 에는 HDFS, MapReduce, YARN 등 여러 구성 요소가 포함되어 있습니다. HDFS 는 우리 컴퓨터의 하드 드라이브처럼 데이터를 저장하는 곳입니다. MapReduce 는 데이터를 처리하고 계산합니다. 한 가지 특징은 주어진 시간만 있으면 모든 데이터를 실행할 수 있지만 시간은 빠르지 않을 수 있으므로 데이터 배치라고 합니다.
이곳의 학습은 네가 큰 데이터를 배우는 하나의 노드가 될 수 있다는 것을 기억해라.
동물원 관리자: 이것은 만병통치약이다. Hadoop 의 HA 를 설치할 때 사용되며 향후 Hbase 에도 사용됩니다. 일반적으로 1M 을 초과하지 않는 작은 협력 정보를 저장하는 데 사용됩니다. 그것을 사용하는 모든 소프트웨어는 그것에 의존한다. 개인적으로, 제대로 설치하기만 하면 됩니다. 제대로 작동하게 하면 됩니다.
Mysql: 우리는 큰 데이터 처리를 다 배웠고, 다음으로는 작은 데이터 처리 도구인 MySQL 데이터베이스도 배워야 합니다. 나중에 hive 를 설치할 때 사용되기 때문입니다. Mysql 은 어떤 수준을 파악해야 합니까? Linux 에 설치하고, 실행하고, 간단한 권한을 구성하고, 루트 비밀번호를 수정하고, 데이터베이스를 만들 수 있습니다. 여기는 주로 SQL 의 문법을 배우는 것이다. 왜냐하면 hive 의 문법은 이것과 매우 비슷하기 때문이다.
Sqoop: Mysql 에서 Hadoop 로 데이터를 가져오는 데 사용됩니다. 물론 Mysql 데이터 테이블을 HDFS 에 올려놓는 파일로 직접 내보낼 수도 있습니다. 물론, 너는 Mysql 이 생산 환경에서 사용하는 압력에 주의해야 한다.
하이브: 이 물건은 SQL 문법을 아는 사람의 유물이에요. 큰 데이터를 쉽게 처리할 수 있고, MapReduce 프로그램을 쓰지도 않아도 됩니다. 돼지라고? 정말 돼지 같다. 하나를 마스터하면 됩니다.
Oozie: 당신이 이미 Hive 를 배웠으니, 저는 당신이 이 물건이 필요하다고 확신합니다. Hive 또는 MapReduce 및 Spark 스크립트를 관리하고, 프로그램이 제대로 실행되는지 확인하며, 문제가 발생할 경우 경고를 제공하고, 프로그램을 재시도하는 데 도움이 되며, 가장 중요한 것은 작업 종속성을 구성하는 데 도움이 됩니다. 나는 네가 좋아할 것이라고 믿는다. 그렇지 않으면 너는 그 스크립트와 빽빽한 crond 를 보면 자신이 개똥이라고 느낄 것이다.
Hbase: 이것은 Hadoop 생태계의 NOSQL 데이터베이스입니다. 해당 데이터는 키와 값으로 저장되며 키는 고유하므로 데이터를 복제하는 데 사용할 수 있습니다. MYSQL 보다 더 많은 데이터를 저장할 수 있습니다. 따라서 대용량 데이터 처리가 완료된 후 저장 대상에 주로 사용됩니다.
카프카: 이것은 좋은 대기열 도구입니다. 줄을 서는 것은 무엇을 위한 것입니까? 줄을 서서 표를 사는 거 아세요? 데이터가 너무 많으면 줄을 서서 처리해야 한다. 이렇게 하면 너와 협력하는 다른 학우들이 비명을 지르지 않을 것이다. 너는 왜 나에게 이렇게 많은 데이터를 주었니 (예: 수백 기가바이트의 파일)? 어떻게 해야 하나요? 그가 큰 데이터를 처리하지 않는다고 그를 탓하지 마라. 너는 그에게 내가 데이터를 대열에 넣었다고 말할 수 있다. 네가 쓸 때 하나씩 가져가라. 그러면 그는 불평하지 않을 것이다. 바로 그의 프로그램을 최적화할 수 있다. 왜냐하면 처리하지 않는 것은 그의 일이기 때문이다. 네가 묻는 질문이 아니다. 물론 이 도구를 사용하여 온라인 실시간 데이터를 메모리나 HDFS 에 저장할 수도 있습니다. 이때 Flume 이라는 도구와 함께 간단한 데이터 처리를 제공하고 다양한 데이터 수신자 (예: 카프카) 에게 쓸 수 있습니다.
스파크: MapReduce 기반 데이터 처리 속도의 부족을 보완할 수 있습니다. 속도가 느리고 진화가 느린 하드 드라이브를 읽는 대신 데이터를 메모리에 로드하여 계산하는 것이 특징입니다. 반복 연산에 특히 적합하므로 알고리즘 흐름은 특히 죽이다. 그것은 Scala 로 쓴 것이다. Java 언어나 Scala 는 모두 JVM 을 사용하기 때문에 조작할 수 있다.