Course Outline

소개

이해 Big Data

스파크 개요

Python 개요

PySpark 개요

  • 탄력적인 분산 데이터 세트 프레임워크를 사용한 데이터 분산
  • Spark API 연산자를 사용한 계산 분산

Spark로 Python 설정하기

설정 PySpark

Spark용 Amazon Web Services (AWS) EC2 인스턴스 사용

설정 Databricks

AWS EMR 클러스터 설정

Python Programming의 기본 학습

  • Python 시작하기
  • 주피터 노트북 사용
  • 변수 및 단순 데이터 유형 사용
  • 목록 작업
  • if 문 사용
  • 사용자 입력 사용
  • while 루프 작업
  • 기능 구현
  • 클래스 작업
  • 파일 및 예외 작업
  • 프로젝트, 데이터 및 API 작업

Spark DataFrame의 기본 학습

  • Spark DataFrames 시작하기
  • Spark로 기본 작업 구현
  • Groupby 및 집계 작업 사용
  • 타임스탬프 및 날짜 작업

Spark DataFrame 프로젝트 작업 연습

MLlib를 사용한 Machine Learning 이해

Machine Learning을 위해 MLlib, Spark 및 Python을 사용하여 작업

회귀 이해

  • 선형 회귀 이론 학습
  • 회귀 평가 코드 구현
  • 샘플 선형 회귀 연습 작업
  • 로지스틱 회귀 이론 학습
  • 로지스틱 회귀 코드 구현
  • 샘플 로지스틱 회귀 연습 작업

Random Forest 및 의사결정나무 이해

  • 학습 트리 방법 이론
  • 의사결정 트리 및 Random Forest 코드 구현
  • 샘플 작업 Random Forest 분류 연습

K-평균 클러스터링 작업

  • K-평균 클러스터링 이론 이해
  • K-평균 클러스터링 코드 구현
  • 샘플 클러스터링 연습 작업

추천 시스템 작업

자연어 처리 구현

  • 이해 Natural Language Processing (NLP)
  • NLP 도구 개요
  • 샘플 NLP 연습 작업

Spark를 사용한 스트리밍 Python

  • 개요 Spark를 사용한 스트리밍
  • 샘플 Spark Streaming 연습

맺음말

Requirements

  • 일반 프로그래밍 기술

청중

  • 개발자
  • IT 전문가
  • 데이터 과학자
  21 Hours
 

Number of participants


Starts

Ends


Dates are subject to availability and take place between 10:00 and 17:00.
Open Training Courses require 5+ participants.

회원 평가 (5)

Related Courses

Related Categories