코스 개요

각 세션은 2시간입니다

1일차: 세션 -1: 정부를 위한 빅 데이터 비즈니스 인텔리전스 개요

  • NHI, DoE 사례 연구
  • 정부 기관에서의 빅 데이터 채택률 및 미래 운영을 둘러싼 방향 설정
  • DoD, NSA, IRS, USDA 등에서의 광범위한 응용 분야
  • 빅 데이터와 구조화된 데이터의 연계
  • 예측 분석 기술에 대한 기본 이해
  • 데이터 통합 및 대시보드 시각화
  • 사기 관리
  • 비즈니스 규칙/사기 탐지 생성
  • 위협 탐지 및 프로파일링
  • 빅 데이터 구현의 비용 효과 분석

1일차: 세션-2 : 빅 데이터 입문 1부

  • 빅 데이터의 주요 특성 - 용량, 다양성, 속도, 신뢰성. 대용량을 위한 MPP 아키텍처.
  • 데이터 웨어하우스 - 정적 스키마, 천천히 진화하는 데이터셋
  • Greenplum, Exadata, Teradata, Netezza, Vertica 등의 MPP 데이터베이스
  • Hadoop 기반 솔루션 - 데이터셋의 구조에 대한 조건 없음.
  • 일반 패턴 : HDFS, MapReduce (분석), HDFS에서 검색
  • 배치 - 분석적/비대화적 용도에 적합
  • 용량 : CEP 스트리밍 데이터
  • 일반 선택 - CEP 제품 (예: Infostreams, Apama, MarkLogic 등)
  • 생산성 미흡 - Storm/S4
  • NoSQL 데이터베이스 - (열 기반 및 키-값): 데이터 웨어하우스/데이터베이스의 분석 보조로 가장 적합

1일차: 세션 -3 : 빅 데이터 입문 2부

NoSQL 솔루션

  • KV 스토어 - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV 스토어 - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV 스토어 (계층적) - GT.m, Cache
  • KV 스토어 (정렬된) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV 캐시 - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • 튜플 스토어 - Gigaspaces, Coord, Apache River
  • 오브젝트 데이터베이스 - ZopeDB, DB40, Shoal
  • 문서 스토어 - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • 넓은 열 스토어 - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

다양한 데이터: 빅 데이터에서의 데이터 정제 문제 소개

  • RDBMS - 정적 구조/스키마, 민첩하고 탐색적인 환경을 촉진하지 않음.
  • NoSQL - 반정형, 데이터를 저장하기 전에 정확한 스키마 없이도 충분히 구조화됨
  • 데이터 정제 문제

1일차: 세션-4 : 빅 데이터 입문 3부 : Hadoop

  • Hadoop 선택 시기는?
  • 정형 - 기업 데이터 웨어하우스/데이터베이스는 대용량 데이터를 저장할 수 있지만 (비용이 들지만) 구조를 부과합니다 (활성 탐색에 적합하지 않음)
  • 반정형 데이터 - 전통적 솔루션(DW/DB)으로는 어려움
  • 데이터 웨어하우싱 = 막대한 노력이 필요하며 구현 후에도 정적임
  • 다양성과 용량을 가진 데이터, 저렴한 하드웨어에서 처리 - HADOOP
  • Hadoop 클러스터를 만들기 위한 저렴한 하드웨어/W 필요함

Map Reduce /HDFS 소개

  • MapReduce - 여러 서버에 분산 컴퓨팅
  • HDFS - 데이터를 로컬로 제공하여 컴퓨팅 프로세스에 사용 (중복 포함)
  • 데이터 - 비정형/스키마 없음 (RDBMS와 달리)
  • 개발자의 책임은 데이터의 의미 이해
  • MapReduce 프로그래밍 = Java 작업 (장점/단점), 수동으로 데이터 HDFS에 로드

2일차: 세션-1: 빅 데이터 생태계 - 빅 데이터 ETL 구축: 빅 데이터 도구의 세계 - 언제 어떤 것을 사용할 것인가?

  • Hadoop vs. 다른 NoSQL 솔루션
  • 데이터에 대한 상호작용, 임의 접근
  • Hbase (열 지향형 데이터베이스)를 Hadoop 위에
  • 데이터에 대한 임의 접근 but 제약 조건 부과 (최대 1PB)
  • 즉석 분석에는 적합하지 않음, 로깅, 카운팅, 시계열 용도로 좋음
  • Sqoop - 데이터베이스에서 Hive나 HDFS로 가져오기 (JDBC/ODBC 접근)
  • Flume - 데이터 스트림(예: 로그 데이터)을 HDFS에 전송

2일차: 세션-2: 빅 데이터 관리 시스템

  • 구성 요소, 컴퓨팅 노드 시작/중단 : ZooKeeper - 구성/조정/네임링 서비스
  • 복잡한 파이프라인/워크플로우: Oozie - 워크플로우 관리, 의존성, 다이시 체인
  • 배포, 구성, 클러스터 관리, 업그레이드 등 (시스템 관리자) : Ambari
  • 클라우드에서: Whirr

2일차: 세션-3: 예측 분석의 비즈니스 인텔리전스 1부 - 기초 기술 및 머신 러닝 기반 BI :

  • 머신 러닝 소개
  • 분류 기법 학습
  • 베이지안 예측 - 훈련 파일 준비
  • 서포트 벡터 머신
  • KNN p-Tree 대수학 및 수직 마이닝
  • 뉴럴 네트워크
  • 빅 데이터 대변수 문제 - 랜덤 포레스트 (RF)
  • 빅 데이터 자동화 문제 - 다중 모델 앙상블 RF
  • Soft10-M을 통한 자동화
  • 텍스트 분석 도구 - Treeminer
  • 민첩 학습
  • 에이전트 기반 학습
  • 분산 학습
  • 예측 분석용 오픈 소스 도구 소개 : R, Rapidminer, Mahut

2일차: 세션-4 예측 분석 생태계 2부 - 정부에서의 일반적인 예측 분석 문제

  • 인사이트 분석
  • 시각화 분석
  • 구조화된 예측 분석
  • 비정형 예측 분석
  • 위협/사기/공급자 프로파일링
  • 추천 엔진
  • 패턴 탐지
  • 규칙/시나리오 발견 - 실패, 사기, 최적화
  • 원인 발견
  • 감성 분석
  • CRM 분석
  • 네트워크 분석
  • 텍스트 분석
  • 기술 지원 리뷰
  • 사기 분석
  • 실시간 분석

3일차: 세션-1 : Hadoop 위에서의 실시간 및 확장 가능한 분석

  • Hadoop/HDFS에서 일반적인 분석 알고리즘이 실패하는 이유
  • Apache Hama - 대량 동기화 분산 컴퓨팅을 위한
  • Apache SPARK - 실시간 분석을 위한 클러스터 컴퓨팅
  • CMU Graphics Lab2 - 그래프 기반 비동기 접근 방식의 분산 컴퓨팅
  • Treeminer에서 하드웨어 비용 절감을 위한 KNN p-대수학 기반 접근 방식

3일차: 세션-2: 전자발견 및 포렌식 도구

  • 빅 데이터 위의 전자발견 vs. 전통적 데이터 - 비용과 성능 비교
  • 예측 코딩 및 기술 지원 리뷰 (TAR)
  • Tar 제품 (vMiner) 데모를 통해 TAR이 더 빠른 발견을 위해 어떻게 작동하는지 이해
  • HDFS를 통한 더 빠른 색인 - 데이터의 속도
  • NLP 또는 자연어 처리 - 다양한 기법 및 오픈 소스 제품
  • 외국어 전자발견 - 외국어 처리용 기술

3일차: 세션-3: 사이버 보안을 위한 빅 데이터 BI - 빠른 데이터 수집부터 위협 식별까지 전체 360도 이해

  • 보안 분석의 기본 이해 - 공격 표면, 보안 설정 오류, 호스트 방어
  • 네트워크 인프라/대규모 데이터 파이프/실시간 분석을 위한 응답 ETL
  • 처방적 vs 예측적 - 고정 규칙 기반 vs 메타데이터에서 위협 규칙 자동 발견

3일차: 세션-4: 농업에의 빅 데이터 응용

  • 농업을 위한 IoT (인터넷 오브 씽스) - 센서 기반 빅 데이터 및 제어
  • 농업에서의 위성 영상 소개 및 응용
  • 토양 비옥도, 재배 추천, 예측을 위한 센서 및 이미지 데이터 통합
  • 농업 보험과 빅 데이터
  • 작물 손실 예측

4일차: 세션-1: 정부에서의 사기 방지를 위한 빅 데이터 BI - 사기 분석:

  • 사기 분석의 기본 분류 - 규칙 기반 vs 예측적 분석
  • 감독된 vs 비감독된 머신 러닝을 통한 사기 패턴 탐지
  • 공급자 사기/프로젝트 과다 청구
  • 메디케어 및 메디케이드 사기 - 청구 처리를 위한 사기 검출 기법
  • 여행 환급 사기
  • 국세청 환급 사기
  • 데이터가 가능한 경우 사례 연구와 실시간 데모 제공.

4일차: 세션-2: 소셜 미디어 분석 - 정보 수집 및 분석

  • 빅 데이터 ETL API를 사용한 소셜 미디어 데이터 추출
  • 텍스트, 이미지, 메타데이터, 비디오
  • 소셜 미디어 피드의 감성 분석
  • 소셜 미디어 피드의 문맥적 및 비문맥적 필터링
  • 다양한 소셜 미디어 통합을 위한 소셜 미디어 대시보드
  • 자동화된 소셜 미디어 프로파일 생성
  • Treeminer 도구를 통해 각 분석의 실시간 데모 제공.

4일차: 세션-3: 이미지 처리 및 비디오 피드의 빅 데이터 분석

  • 빅 데이터에서의 이미지 저장 기술 - 페타바이트를 초과하는 데이터 저장 솔루션
  • LTFS와 LTO
  • GPFS-LTFS (큰 이미지 데이터를 위한 계층적 저장 솔루션)
  • 이미지 분석의 기초
  • 객체 인식
  • 이미지 세그멘테이션
  • 운동 추적
  • 3D 이미지 재구성

4일차: 세션-4: NIH에서의 빅 데이터 응용:

  • 생물 정보학의 새로운 영역
  • 메타게놈 및 빅 데이터 마이닝 문제
  • 약물 유전체학, 대사체학, 단백질체학을 위한 빅 데이터 예측 분석
  • 다운스트림 게놈 프로세스에서의 빅 데이터
  • 공중 보건에의 빅 데이터 예측 분석 응용

다양한 데이터의 빠른 접근 및 표시를 위한 빅 데이터 대시보드 :

  • 기존 애플리케이션 플랫폼과 빅 데이터 대시보드 통합
  • 빅 데이터 관리
  • 빅 데이터 대시보드 사례 연구: Tableau와 Pentaho
  • 정부에서 위치 기반 서비스를 위한 빅 데이터 앱 활용
  • 추적 시스템 및 관리

5일차: 세션-1: 조직 내에서 빅 데이터 BI 구현을 정당화하는 방법:

  • 빅 데이터 구현의 ROI 정의
  • 데이터 수집 및 준비 시간 절약 사례 연구 - 생산성 향상
  • 라이선스된 데이터베이스 비용 절감 사례 연구
  • 위치 기반 서비스로부터의 수익 증가
  • 사기 방지로부터의 절감액
  • 빅 데이터 구현에 따른 대략적인 비용 vs. 수익/절감액 계산을 위한 통합 스프레드시트 접근 방식.

5일차: 세션-2: 전통적 데이터 시스템에서 빅 데이터 시스템으로의 단계별 절차:

  • 실제적인 빅 데이터 마이그레이션 로드맵 이해
  • 빅 데이터 구현을 설계하기 위한 중요한 정보는 무엇인가?
  • 데이터의 양, 속도, 다양성, 신뢰성을 계산하는 다양한 방법은 무엇인가?
  • 데이터 성장을 어떻게 예측할 것인가?
  • 사례 연구

5일차: 세션-4: 빅 데이터 벤더 및 제품 리뷰. Q&A 세션:

  • Accenture
  • APTEAN (이전 CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (이전 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (EMC의 일부)

요건

  • 정부의 비즈니스 운영 및 데이터 시스템에 대한 기본 지식
  • SQL/Oracle 또는 관계형 데이터베이스에 대한 기본 이해
  • 통계(스프레드시트 수준)에 대한 기본 이해
 35 시간

참가자 수


참가자당 가격

회원 평가 (1)

예정된 코스

관련 카테고리