빅데이터를 시작하는 방법

우선 빅데이터 학습의 기본이 되는 자바 언어와 리눅스 운영체제를 이해해야 한다. 학습 순서는 정해진 것이 없다.

빅 데이터

Java: 몇 가지 기본 사항을 이해하는 한, 빅 데이터를 수행하는 데는 심층적인 Java 기술이 필요하지 않습니다. Java SE를 배우는 것은 빅 데이터의 기본을 배우는 것과 같습니다.

리눅스: 빅데이터 관련 소프트웨어는 모두 리눅스에서 돌아가기 때문에 리눅스를 좀 더 탄탄하게 배워야 한다. 리눅스를 잘 배우면 빅데이터 관련 기술을 빨리 익히는 데 큰 도움이 될 것이다. hadoop, hive, hbase, Spark 등과 같은 빅데이터 소프트웨어의 운영 환경과 네트워크 환경 구성을 더 잘 이해하면 많은 함정을 피할 수 있습니다. 쉘을 배우면 스크립트를 이해할 수 있으므로 빅데이터 클러스터를 더 쉽게 이해하고 구성할 수 있습니다. . 또한 앞으로 출시될 새로운 빅데이터 기술에 대해서도 더 빠르게 배울 수 있을 것입니다.

Hadoop: 인기 있는 빅데이터 처리 플랫폼이자 빅데이터와 거의 동의어가 되었기 때문에 꼭 배워야 할 내용입니다. Hadoop에는 HDFS, MapReduce 및 YARN이 포함되어 있습니다. HDFS는 파일이 저장되는 컴퓨터의 하드 디스크와 마찬가지로 데이터가 저장되는 곳입니다. , 시간만 주면 데이터를 실행할 수 있지만 시간이 그리 빠르지 않을 수 있으므로 데이터 일괄 처리라고 합니다.

Zookeeper: Hadoop HA를 설치할 때 사용하게 될 만병통치약이며, 향후 Hbase에서도 사용할 예정입니다. 일반적으로 일부 협업 정보를 저장하는 데 사용됩니다. 이 정보는 상대적으로 작으며 일반적으로 이를 사용하는 소프트웨어는 이에 따라 다릅니다. 우리는 이를 올바르게 설치하고 정상적으로 실행하도록 놔두기만 하면 됩니다. .

Mysql: 빅데이터 처리 학습을 마쳤습니다. 다음으로 mysql은 hive를 설치할 때 사용하게 될 소규모 데이터 처리 도구인 mysql 데이터베이스에 대해 알아보겠습니다. 마스터할 수 있나요? Linux에 설치하고 실행하고 간단한 권한을 구성하고 루트 비밀번호를 변경하고 데이터베이스를 생성할 수 있습니다. 여기서 가장 중요한 것은 SQL의 구문을 배우는 것입니다. 왜냐하면 hive의 구문이 이와 매우 유사하기 때문입니다.

Sqoop: Mysql에서 Hadoop으로 데이터를 가져오는 데 사용됩니다. 물론, 이것을 건너뛰고 Mysql 데이터 테이블을 파일로 직접 내보낸 다음 HDFS에 넣을 수도 있습니다. 물론 프로덕션 환경에서 사용할 때는 MySQL의 압박에 주의해야 합니다.

Hive: 이것은 SQL 구문을 아는 사람들을 위한 아티팩트입니다. 이를 통해 빅 데이터 처리가 매우 간단해지며 더 이상 MapReduce 프로그램 작성에 대해 걱정할 필요가 없습니다. 어떤 사람들은 Pig라고 하나요? Pig와 거의 똑같습니다. 하나만 마스터하면 됩니다.

Oozie: 이제 Hive를 배웠으니 이 기능이 꼭 필요하다고 생각합니다. Hive나 MapReduce, Spark 스크립트를 관리하는 데 도움이 되고 프로그램이 올바르게 실행되는지 확인할 수도 있습니다. 오류인 경우 경보를 보내고 프로그램을 다시 시도하는 데 도움이 될 수 있습니다. 가장 중요한 점은 작업 종속성을 구성하는 데도 도움이 될 수 있다는 것입니다. 나는 당신이 그것을 분명히 좋아할 것이라고 믿습니다. 그렇지 않으면 많은 수의 대본과 빽빽한 크론을 볼 때 기분이 나빠질 것입니다.

Hbase: Hadoop 생태계의 NOSQL 데이터베이스로, 데이터가 키와 값의 형태로 저장되며, 키는 고유하므로 데이터 중복 제거에 사용할 수 있습니다. MYSQL보다 훨씬 많은 양의 데이터를 저장할 수 있습니다. 따라서 빅데이터 처리가 완료된 후 저장 대상으로 사용되는 경우가 많습니다.

Kafka: 이것은 비교적 사용하기 쉬운 대기열 도구입니다. 티켓을 구매하기 위해 대기열을 작성한다는 사실을 알고 계시나요? 같이 작업하는 다른 학생들이 비명을 지르지 않도록 처리 대기 중입니다. , 왜 나에게 그렇게 많은 데이터(예: 수백 기가바이트의 파일)를 제공했으며 어떻게 처리할 수 있습니까? 빅 데이터 전문가는 아니지만 그 사람에게 내가 데이터를 대기열에 넣으면 그걸 하나씩 가져가서 불평을 멈추고 즉시 프로그램을 최적화하는 작업에 착수한다고 말하면 됩니다. 그가 그것을 처리할 수 없다면 그의 문제입니다. 당신이 준 질문이 아닙니다.

물론 이 도구를 사용하여 온라인 실시간 데이터를 저장하거나 HDFS에 저장할 수도 있습니다. 이때 Flume이라는 도구와 함께 사용할 수 있습니다. Flume은 데이터의 간단한 처리를 제공하고 다양한 데이터 수신기를 작성하는 데 특별히 사용됩니다. 카프카 등).

스파크: 맵리듀스 기반 데이터 처리 속도의 단점을 보완하기 위해 사용된다. 극도로 느린 하드디스크를 읽는 대신 데이터를 메모리에 올려서 계산하는 것이 특징이다. 특히 반복 작업에 적합하므로 알고리즘 스트리머가 특히 좋아합니다. 스칼라로 작성되었습니다. Java 언어나 Scala 언어 모두 JVM을 사용하므로 운용이 가능합니다.

上篇: 어떤 노래에 발음이 있습니까? 어떤 노래에 물 글자가 있습니까? 빨리! ! 각각 10 곡 이상, 어떤 노래를 써야 합니까 下篇: 좋은 헤드폰과 나쁜 헤드폰의 차이점