Course Outline
1.1Hadoop 개념
1.1.1HDFS
- HDFS 명령줄 인터페이스 설계 Hadoop 파일 시스템
1.1.2클러스터
- 클러스터 구조 마스터 노드/슬레이브 노드 이름 노드/데이터 노드
1.2데이터 조작
1.2.1맵리듀스 상세
- 맵 단계 단계 감소 셔플
1.2.2Map Reduce를 이용한 분석
- MapReduce를 사용한 그룹화 빈도 분포 및 MapReduce를 사용한 정렬 결과 표시(GNU 플롯) MapReduce를 사용한 히스토그램 MapReduce를 사용한 산점도 복잡한 데이터 세트 구문 분석 MapReduce 및 결합기를 사용한 계산 보고서 작성
1.2.3데이터 클렌징
- 문서 정리 퍼지 문자열 검색 기록 연계/데이터 중복 제거 이벤트 날짜 변환 및 정렬 소스 신뢰성 검증 이상치 제거
1.2.4데이터 추출 및 변환
- 로그 변환 Apache Pig를 사용하여 필터링 Apache Pig를 사용하여 정렬 Apache Pig를 사용하여 세션화
1.2.5고급 조인
- MapReduce를 사용하여 Mapper에서 데이터 조인 Apache Pig 복제 조인을 사용하여 데이터 조인 Apache Pig 병합 조인을 사용하여 정렬된 데이터 조인 Apache Pig 편향 조인을 사용하여 편향된 데이터 조인 Apache에서 맵 측 조인 사용 Hive Apache에서 최적화된 전체 외부 조인 사용 [1 ] 외부 키 값 저장소를 사용하여 데이터 결합
1.3성능 진단 및 최적화 기법
- 지도 입력 데이터의 급증 조사 지도 측 데이터 편향 문제 식별 지도 작업 처리량 작은 파일 분할할 수 없는 파일
Requirements
교육은 Apache에서 데이터 관리 및 조작에 대한 최종 사용자 기술에 중점을 두기 때문에 참석자에게 특정 기술이 필요하지 않습니다. Hadoop
회원 평가 (6)
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Course - Impala for Business Intelligence
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Course - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Course - Administrator Training for Apache Hadoop
The VM I liked very much The Teacher was very knowledgeable regarding the topic as well as other topics, he was very nice and friendly I liked the facility in Dubai.
Safar Alqahtani - Elm Information Security
Course - Big Data Analytics in Health
The fact that all the data and software was ready to use on an already prepared VM, provided by the trainer in external disks.
vyzVoice
Course - Hadoop for Developers and Administrators
practical things of doing, also theory was served good by Ajay