Course Outline

1.1Hadoop 개념

1.1.1HDFS

    HDFS 명령줄 인터페이스 설계 Hadoop 파일 시스템

1.1.2클러스터

    클러스터 구조 마스터 노드/슬레이브 노드 이름 노드/데이터 노드

1.2데이터 조작

1.2.1맵리듀스 상세

    맵 단계 단계 감소 셔플

1.2.2Map Reduce를 이용한 분석

    MapReduce를 사용한 그룹화 빈도 분포 및 MapReduce를 사용한 정렬 결과 표시(GNU 플롯) MapReduce를 사용한 히스토그램 MapReduce를 사용한 산점도 복잡한 데이터 세트 구문 분석 MapReduce 및 결합기를 사용한 계산 보고서 작성

 

1.2.3데이터 클렌징

    문서 정리 퍼지 문자열 검색 기록 연계/데이터 중복 제거 이벤트 날짜 변환 및 정렬 소스 신뢰성 검증 이상치 제거

1.2.4데이터 추출 및 변환

    로그 변환 Apache Pig를 사용하여 필터링 Apache Pig를 사용하여 정렬 Apache Pig를 사용하여 세션화

1.2.5고급 조인

    MapReduce를 사용하여 Mapper에서 데이터 조인 Apache Pig 복제 조인을 사용하여 데이터 조인 Apache Pig 병합 조인을 사용하여 정렬된 데이터 조인 Apache Pig 편향 조인을 사용하여 편향된 데이터 조인 Apache에서 맵 측 조인 사용 Hive Apache에서 최적화된 전체 외부 조인 사용 [1 ] 외부 키 값 저장소를 사용하여 데이터 결합

1.3성능 진단 및 최적화 기법

    지도 입력 데이터의 급증 조사 지도 측 데이터 편향 문제 식별 지도 작업 처리량 작은 파일 분할할 수 없는 파일
너무 적거나 너무 많은 감속기 줄이기
  • 감소 측 데이터 왜곡 문제
  • 작업 처리량 감소
  • 느린 셔플 및 정렬
  • 경쟁 작업 및 스케줄러 제한
  • 스택 덤프 및 최적화되지 않은 코드
  • 하드웨어 오류
  • CPU 경합
  • 태스크 태스크 실행 시간 추출 및 시각화
  • 지도 프로파일링 및 작업 줄이기
  • 감속기를 피하십시오
  • 필터 및 프로젝트
  • 결합기 사용
  • 비교기를 이용한 빠른 정렬
  • 편향된 데이터 수집
  • 편향 완화 감소
  • Requirements

    교육은 Apache에서 데이터 관리 및 조작에 대한 최종 사용자 기술에 중점을 두기 때문에 참석자에게 특정 기술이 필요하지 않습니다. Hadoop

     21 Hours

    Number of participants



    Price per participant

    회원 평가 (3)

    Related Courses

    Related Categories