문의를 보내주셔서 감사합니다! 팀원이 곧 연락드리겠습니다.
예약을 보내주셔서 감사합니다! 저희 팀 멤버 중 한 분이 곧 연락드리겠습니다.
코스 개요
각 세션은 2시간입니다
1일차: 세션 -1: 정부를 위한 빅 데이터 비즈니스 인텔리전스 개요
- NHI, DoE 사례 연구
- 정부 기관에서의 빅 데이터 채택률 및 미래 운영을 둘러싼 방향 설정
- DoD, NSA, IRS, USDA 등에서의 광범위한 응용 분야
- 빅 데이터와 구조화된 데이터의 연계
- 예측 분석 기술에 대한 기본 이해
- 데이터 통합 및 대시보드 시각화
- 사기 관리
- 비즈니스 규칙/사기 탐지 생성
- 위협 탐지 및 프로파일링
- 빅 데이터 구현의 비용 효과 분석
1일차: 세션-2 : 빅 데이터 입문 1부
- 빅 데이터의 주요 특성 - 용량, 다양성, 속도, 신뢰성. 대용량을 위한 MPP 아키텍처.
- 데이터 웨어하우스 - 정적 스키마, 천천히 진화하는 데이터셋
- Greenplum, Exadata, Teradata, Netezza, Vertica 등의 MPP 데이터베이스
- Hadoop 기반 솔루션 - 데이터셋의 구조에 대한 조건 없음.
- 일반 패턴 : HDFS, MapReduce (분석), HDFS에서 검색
- 배치 - 분석적/비대화적 용도에 적합
- 용량 : CEP 스트리밍 데이터
- 일반 선택 - CEP 제품 (예: Infostreams, Apama, MarkLogic 등)
- 생산성 미흡 - Storm/S4
- NoSQL 데이터베이스 - (열 기반 및 키-값): 데이터 웨어하우스/데이터베이스의 분석 보조로 가장 적합
1일차: 세션 -3 : 빅 데이터 입문 2부
NoSQL 솔루션
- KV 스토어 - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV 스토어 - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV 스토어 (계층적) - GT.m, Cache
- KV 스토어 (정렬된) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV 캐시 - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- 튜플 스토어 - Gigaspaces, Coord, Apache River
- 오브젝트 데이터베이스 - ZopeDB, DB40, Shoal
- 문서 스토어 - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- 넓은 열 스토어 - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
다양한 데이터: 빅 데이터에서의 데이터 정제 문제 소개
- RDBMS - 정적 구조/스키마, 민첩하고 탐색적인 환경을 촉진하지 않음.
- NoSQL - 반정형, 데이터를 저장하기 전에 정확한 스키마 없이도 충분히 구조화됨
- 데이터 정제 문제
1일차: 세션-4 : 빅 데이터 입문 3부 : Hadoop
- Hadoop 선택 시기는?
- 정형 - 기업 데이터 웨어하우스/데이터베이스는 대용량 데이터를 저장할 수 있지만 (비용이 들지만) 구조를 부과합니다 (활성 탐색에 적합하지 않음)
- 반정형 데이터 - 전통적 솔루션(DW/DB)으로는 어려움
- 데이터 웨어하우싱 = 막대한 노력이 필요하며 구현 후에도 정적임
- 다양성과 용량을 가진 데이터, 저렴한 하드웨어에서 처리 - HADOOP
- Hadoop 클러스터를 만들기 위한 저렴한 하드웨어/W 필요함
Map Reduce /HDFS 소개
- MapReduce - 여러 서버에 분산 컴퓨팅
- HDFS - 데이터를 로컬로 제공하여 컴퓨팅 프로세스에 사용 (중복 포함)
- 데이터 - 비정형/스키마 없음 (RDBMS와 달리)
- 개발자의 책임은 데이터의 의미 이해
- MapReduce 프로그래밍 = Java 작업 (장점/단점), 수동으로 데이터 HDFS에 로드
2일차: 세션-1: 빅 데이터 생태계 - 빅 데이터 ETL 구축: 빅 데이터 도구의 세계 - 언제 어떤 것을 사용할 것인가?
- Hadoop vs. 다른 NoSQL 솔루션
- 데이터에 대한 상호작용, 임의 접근
- Hbase (열 지향형 데이터베이스)를 Hadoop 위에
- 데이터에 대한 임의 접근 but 제약 조건 부과 (최대 1PB)
- 즉석 분석에는 적합하지 않음, 로깅, 카운팅, 시계열 용도로 좋음
- Sqoop - 데이터베이스에서 Hive나 HDFS로 가져오기 (JDBC/ODBC 접근)
- Flume - 데이터 스트림(예: 로그 데이터)을 HDFS에 전송
2일차: 세션-2: 빅 데이터 관리 시스템
- 구성 요소, 컴퓨팅 노드 시작/중단 : ZooKeeper - 구성/조정/네임링 서비스
- 복잡한 파이프라인/워크플로우: Oozie - 워크플로우 관리, 의존성, 다이시 체인
- 배포, 구성, 클러스터 관리, 업그레이드 등 (시스템 관리자) : Ambari
- 클라우드에서: Whirr
2일차: 세션-3: 예측 분석의 비즈니스 인텔리전스 1부 - 기초 기술 및 머신 러닝 기반 BI :
- 머신 러닝 소개
- 분류 기법 학습
- 베이지안 예측 - 훈련 파일 준비
- 서포트 벡터 머신
- KNN p-Tree 대수학 및 수직 마이닝
- 뉴럴 네트워크
- 빅 데이터 대변수 문제 - 랜덤 포레스트 (RF)
- 빅 데이터 자동화 문제 - 다중 모델 앙상블 RF
- Soft10-M을 통한 자동화
- 텍스트 분석 도구 - Treeminer
- 민첩 학습
- 에이전트 기반 학습
- 분산 학습
- 예측 분석용 오픈 소스 도구 소개 : R, Rapidminer, Mahut
2일차: 세션-4 예측 분석 생태계 2부 - 정부에서의 일반적인 예측 분석 문제
- 인사이트 분석
- 시각화 분석
- 구조화된 예측 분석
- 비정형 예측 분석
- 위협/사기/공급자 프로파일링
- 추천 엔진
- 패턴 탐지
- 규칙/시나리오 발견 - 실패, 사기, 최적화
- 원인 발견
- 감성 분석
- CRM 분석
- 네트워크 분석
- 텍스트 분석
- 기술 지원 리뷰
- 사기 분석
- 실시간 분석
3일차: 세션-1 : Hadoop 위에서의 실시간 및 확장 가능한 분석
- Hadoop/HDFS에서 일반적인 분석 알고리즘이 실패하는 이유
- Apache Hama - 대량 동기화 분산 컴퓨팅을 위한
- Apache SPARK - 실시간 분석을 위한 클러스터 컴퓨팅
- CMU Graphics Lab2 - 그래프 기반 비동기 접근 방식의 분산 컴퓨팅
- Treeminer에서 하드웨어 비용 절감을 위한 KNN p-대수학 기반 접근 방식
3일차: 세션-2: 전자발견 및 포렌식 도구
- 빅 데이터 위의 전자발견 vs. 전통적 데이터 - 비용과 성능 비교
- 예측 코딩 및 기술 지원 리뷰 (TAR)
- Tar 제품 (vMiner) 데모를 통해 TAR이 더 빠른 발견을 위해 어떻게 작동하는지 이해
- HDFS를 통한 더 빠른 색인 - 데이터의 속도
- NLP 또는 자연어 처리 - 다양한 기법 및 오픈 소스 제품
- 외국어 전자발견 - 외국어 처리용 기술
3일차: 세션-3: 사이버 보안을 위한 빅 데이터 BI - 빠른 데이터 수집부터 위협 식별까지 전체 360도 이해
- 보안 분석의 기본 이해 - 공격 표면, 보안 설정 오류, 호스트 방어
- 네트워크 인프라/대규모 데이터 파이프/실시간 분석을 위한 응답 ETL
- 처방적 vs 예측적 - 고정 규칙 기반 vs 메타데이터에서 위협 규칙 자동 발견
3일차: 세션-4: 농업에의 빅 데이터 응용
- 농업을 위한 IoT (인터넷 오브 씽스) - 센서 기반 빅 데이터 및 제어
- 농업에서의 위성 영상 소개 및 응용
- 토양 비옥도, 재배 추천, 예측을 위한 센서 및 이미지 데이터 통합
- 농업 보험과 빅 데이터
- 작물 손실 예측
4일차: 세션-1: 정부에서의 사기 방지를 위한 빅 데이터 BI - 사기 분석:
- 사기 분석의 기본 분류 - 규칙 기반 vs 예측적 분석
- 감독된 vs 비감독된 머신 러닝을 통한 사기 패턴 탐지
- 공급자 사기/프로젝트 과다 청구
- 메디케어 및 메디케이드 사기 - 청구 처리를 위한 사기 검출 기법
- 여행 환급 사기
- 국세청 환급 사기
- 데이터가 가능한 경우 사례 연구와 실시간 데모 제공.
4일차: 세션-2: 소셜 미디어 분석 - 정보 수집 및 분석
- 빅 데이터 ETL API를 사용한 소셜 미디어 데이터 추출
- 텍스트, 이미지, 메타데이터, 비디오
- 소셜 미디어 피드의 감성 분석
- 소셜 미디어 피드의 문맥적 및 비문맥적 필터링
- 다양한 소셜 미디어 통합을 위한 소셜 미디어 대시보드
- 자동화된 소셜 미디어 프로파일 생성
- Treeminer 도구를 통해 각 분석의 실시간 데모 제공.
4일차: 세션-3: 이미지 처리 및 비디오 피드의 빅 데이터 분석
- 빅 데이터에서의 이미지 저장 기술 - 페타바이트를 초과하는 데이터 저장 솔루션
- LTFS와 LTO
- GPFS-LTFS (큰 이미지 데이터를 위한 계층적 저장 솔루션)
- 이미지 분석의 기초
- 객체 인식
- 이미지 세그멘테이션
- 운동 추적
- 3D 이미지 재구성
4일차: 세션-4: NIH에서의 빅 데이터 응용:
- 생물 정보학의 새로운 영역
- 메타게놈 및 빅 데이터 마이닝 문제
- 약물 유전체학, 대사체학, 단백질체학을 위한 빅 데이터 예측 분석
- 다운스트림 게놈 프로세스에서의 빅 데이터
- 공중 보건에의 빅 데이터 예측 분석 응용
다양한 데이터의 빠른 접근 및 표시를 위한 빅 데이터 대시보드 :
- 기존 애플리케이션 플랫폼과 빅 데이터 대시보드 통합
- 빅 데이터 관리
- 빅 데이터 대시보드 사례 연구: Tableau와 Pentaho
- 정부에서 위치 기반 서비스를 위한 빅 데이터 앱 활용
- 추적 시스템 및 관리
5일차: 세션-1: 조직 내에서 빅 데이터 BI 구현을 정당화하는 방법:
- 빅 데이터 구현의 ROI 정의
- 데이터 수집 및 준비 시간 절약 사례 연구 - 생산성 향상
- 라이선스된 데이터베이스 비용 절감 사례 연구
- 위치 기반 서비스로부터의 수익 증가
- 사기 방지로부터의 절감액
- 빅 데이터 구현에 따른 대략적인 비용 vs. 수익/절감액 계산을 위한 통합 스프레드시트 접근 방식.
5일차: 세션-2: 전통적 데이터 시스템에서 빅 데이터 시스템으로의 단계별 절차:
- 실제적인 빅 데이터 마이그레이션 로드맵 이해
- 빅 데이터 구현을 설계하기 위한 중요한 정보는 무엇인가?
- 데이터의 양, 속도, 다양성, 신뢰성을 계산하는 다양한 방법은 무엇인가?
- 데이터 성장을 어떻게 예측할 것인가?
- 사례 연구
5일차: 세션-4: 빅 데이터 벤더 및 제품 리뷰. Q&A 세션:
- Accenture
- APTEAN (이전 CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (이전 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (EMC의 일부)
요건
- 정부의 비즈니스 운영 및 데이터 시스템에 대한 기본 지식
- SQL/Oracle 또는 관계형 데이터베이스에 대한 기본 이해
- 통계(스프레드시트 수준)에 대한 기본 이해
35 시간
회원 평가 (1)
트레이너가 과정을 단순히 제공하는 것이 아니라 조직의 요구 사항에 맞추는 능력입니다.
Masilonyane - Revenue Services Lesotho
코스 - Big Data Business Intelligence for Govt. Agencies
기계 번역됨