문의를 보내주셔서 감사합니다! 팀원이 곧 연락드리겠습니다.
예약을 보내주셔서 감사합니다! 저희 팀 멤버 중 한 분이 곧 연락드리겠습니다.
코스 개요
각 세션은 2시간입니다.
1일차: 세션 -1: Business 이유 개요 Big Data Business Govt.
- NIH, DoE의 사례 연구
- Big Data Govt의 적응 속도. 대행사 및 향후 운영을 조정하는 방법 Big Data Predictive Analytics
- DoD, NSA, IRS, USDA 등의 광범위한 응용 분야
- 레거시 데이터와의 인터페이스 Big Data
- 예측 분석 기술 활성화에 대한 기본 이해
- Data Integration 및 대시보드 시각화
- 사기 관리
- Business 규칙/사기 탐지 생성
- 위협 감지 및 프로파일링
- Big Data 구현에 대한 비용 이점 분석
Day-1: Session-2 : Big Data-1 소개
- Big Data의 주요 특징 - 볼륨, 다양성, 속도 및 진실성. 볼륨을 위한 MPP 아키텍처.
- Data Warehouses – 정적 스키마, 천천히 진화하는 데이터 세트
- Greenplum, Exadata, Teradata, Netezza, Vertica 등과 같은 MPP Database
- Hadoop 기반 솔루션 – 데이터세트 구조에 대한 조건이 없습니다.
- 일반적인 패턴: HDFS, MapReduce(크런치), HDFS에서 검색
- 분석적/비대화형에 적합한 배치
- 볼륨 : CEP 스트리밍 데이터
- 일반적인 선택 - CEP 제품(예: Infostreams, Apama, MarkLogic 등)
- 적은 생산 준비 – Storm/S4
- NoSQL Databases – (열 및 키-값): 데이터 웨어하우스/데이터베이스에 대한 분석 보조물로 가장 적합합니다.
Day-1 : 세션 -3 : Big Data-2 소개
NoSQL 솔루션
- KV 스토어 - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV 스토어 - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV 스토어(계층적) - GT.m, 캐시
- KV 스토어(주문) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV 캐시 - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBoss캐시, Velocity, Terracoqua
- 튜플 저장소 - Gigaspaces, Coord, Apache River
- 객체 Database - ZopeDB, DB40, Shoal
- 문서 저장소 - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- 넓은 컬럼형 저장소 - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
다양한 데이터: Big Data의 Data Cleaning 문제 소개
- RDBMS – 정적 구조/스키마는 민첩한 탐색 환경을 촉진하지 않습니다.
- NoSQL – 데이터를 저장하기 전에 정확한 스키마 없이 데이터를 저장하기에 충분한 반구조적 구조
- 데이터 정리 문제
Day-1 : 세션-4 : Big Data 소개-3 : Hadoop
- 언제 Hadoop을 선택하나요?
- 구조화 - 엔터프라이즈 데이터 웨어하우스/데이터베이스는 대규모 데이터를 저장할 수 있지만(유료) 구조를 부과합니다(활성 탐색에는 적합하지 않음)
- SEMI 구조화된 데이터 – 기존 솔루션(DW/DB)으로는 처리하기 어려움
- 데이터 보관 = 막대한 노력과 구현 후에도 정체됨
- 데이터의 다양성과 볼륨을 위해 상용 하드웨어에서 처리 – HADOOP
- Hadoop 클러스터를 생성하는 데 필요한 상용 하드웨어
맵 축소/HDFS 소개
- MapReduce – 여러 서버에 컴퓨팅 분산
- HDFS – 컴퓨팅 프로세스를 위해 로컬에서 데이터를 사용할 수 있도록 합니다(중복성 포함).
- 데이터 – 구조화되지 않거나 스키마가 없을 수 있습니다(RDBMS와 다름).
- 데이터를 이해하는 데 대한 개발자의 책임
- Programming MapReduce = Java 작업(장점/단점), 수동으로 HDFS에 데이터 로드
2일차: 세션 1: Big Data 생태계 구축 Big Data ETL: Big Data 도구의 세계 - 어떤 도구를 언제 사용할 것인가?
- Hadoop 대 기타 NoSQL 솔루션
- 데이터에 대한 대화형 무작위 액세스용
- Hadoop 위에 Hbase(열 기반 데이터베이스)
- 데이터에 대한 무작위 액세스(최대 1PB)
- 임시 분석에는 적합하지 않고 로깅, 계산, 시계열에는 적합합니다.
- Sqoop - 데이터베이스에서 Hive 또는 HDFS(JDBC/ODBC 액세스)로 가져오기
- Flume – HDFS로 데이터(예: 로그 데이터) 스트리밍
2일차: 세션 2: Big Data Management 시스템
- 움직이는 부품, 컴퓨팅 노드 시작/실패 : ZooKeeper - 구성/조정/이름 지정 서비스용
- 복잡한 파이프라인/워크플로: Oozie – 워크플로, 종속성, 데이지 체인 관리
- 배포, 구성, 클러스터 관리, 업그레이드 등(sys admin) :Ambari
- 인 클라우드 : 윙윙
2일 차: 세션 3: Business 지능의 예측 분석 -1: 기본 기술 및 기계 학습 기반 BI:
- 머신러닝 소개
- 분류 기술 학습
- 베이지안 예측 준비 훈련 파일
- 서포트 벡터 머신
- KNN p-Tree 대수학 및 수직 마이닝
- 신경망
- Big Data 대규모 변수 문제 - 랜덤 포레스트(RF)
- Big Data 자동화 문제 – 다중 모델 앙상블 RF
- Soft10-M을 통한 자동화
- 텍스트 분석 도구-Treeminer
- Agile 학습
- 에이전트 기반 학습
- 분산 학습
- 예측 분석을 위한 오픈 소스 도구 소개: R, Rapidminer, Mahut
2일차: 세션 4 예측 분석 생태계-2: Govt.의 일반적인 예측 분석 문제.
- 통찰력 분석
- 시각화 분석
- 구조화된 예측 분석
- 비정형 예측 분석
- 위협/사기 행위/공급업체 프로파일링
- 추천 엔진
- 패턴 감지
- 규칙/시나리오 발견 – 실패, 사기, 최적화
- 근본 원인 발견
- 감성분석
- CRM 분석
- 네트워크 분석
- 텍스트 분석
- 기술 지원 검토
- 사기 분석
- 실시간 분석
Day-3 : Session-1 : 실시간 및 Hadoop 이상의 분석 가능
- Hadoop/HDFS에서 일반적인 분석 알고리즘이 실패하는 이유
- Apache Hama- 대량 동기식 분산 컴퓨팅용
- Apache SPARK - 실시간 분석을 위한 클러스터 컴퓨팅용
- CMU 그래픽 랩2 - 분산 컴퓨팅에 대한 그래프 기반 비동기 접근 방식
- 하드웨어 운영 비용 절감을 위한 Treeminer의 KNN p-Algebra 기반 접근 방식
3일차: 세션 2 : eDiscovery 및 법의학 도구
- Big Data에 대한 eDiscovery와 기존 데이터 비교 - 비용 및 성능 비교
- 예측 코딩 및 기술 지원 검토(TAR)
- 더 빠른 발견을 위해 TAR이 어떻게 작동하는지 이해하기 위한 Tar 제품(vMiner)의 라이브 데모
- HDFS를 통한 더 빠른 인덱싱 – 데이터 속도
- NLP 또는 자연어 처리 - 다양한 기술 및 오픈 소스 제품
- 외국어의 전자증거개시 - 외국어 처리를 위한 기술
3일차: 세션 3: Big Data Cyber Security을 위한 BI – 위협 식별에 대한 신속한 데이터 수집에 대한 전체 360도 보기 이해
- 보안 분석의 기본 이해 - 공격 표면, 잘못된 보안 구성, 호스트 방어
- 네트워크 인프라/대규모 데이터파이프/실시간 분석을 위한 응답 ETL
- 규범적 vs 예측 – 고정 규칙 기반 vs 메타데이터의 위협 규칙 자동 검색
3일 차: 세션 4: Big Data USDA: 농업에 적용
- 농업용 센서 기반Big Data 및 제어를 위한 IoT(사물 인터넷) 소개
- 위성영상의 소개와 농업에서의 응용
- 토양의 비옥도, 재배 추천 및 예측을 위한 센서와 이미지 데이터를 통합
- 농업 보험 및 Big Data
- 작물 손실 예측
4일차: 세션 1: Govt-Fraud 분석의 Big Data에서 나온 사기 방지 BI:
- 사기 분석의 기본 분류 - 규칙 기반 분석과 예측 분석
- 사기 패턴 탐지를 위한 지도 및 비지도 기계 학습
- 공급업체 사기/프로젝트에 대한 과다 청구
- 메디케어 및 메디케이드 사기 - 청구 처리를 위한 사기 탐지 기술
- 여행비 상환 사기
- IRS 환급 사기
- 사례 연구와 라이브 데모는 데이터가 있는 곳이면 어디서든 제공됩니다.
Day-4 : Session-2: Social Media 분석-정보 수집 및 분석
- Big Data 소셜 미디어 데이터 추출을 위한 ETL API
- 텍스트, 이미지, 메타데이터 및 비디오
- 소셜 미디어 피드의 감정 분석
- 소셜 미디어 피드의 상황별 및 비맥락적 필터링
- Social Media 다양한 소셜미디어를 통합하는 대시보드
- 소셜 미디어 프로필 자동 프로파일링
- 각 분석의 라이브 데모는 Treeminer Tool을 통해 제공됩니다.
Day-4: 세션-3: Big Data 이미지 처리 및 비디오 피드 분석
- Big Data의 이미지 저장 기술 - 페타바이트를 초과하는 데이터를 위한 저장 솔루션
- LTFS 및 LTO
- GPFS-LTFS(빅 이미지 데이터를 위한 계층형 스토리지 솔루션)
- 이미지 분석의 기본
- 객체 인식
- 이미지 분할
- 모션 추적
- 3차원 이미지 재구성
4일차: 세션 4: Big Data NIH 지원:
- Bio-정보학의 신흥 영역
- 메타유전체학 및 Big Data 채굴 문제
- Big Data 약물유전체학, 대사체학, 단백질체학을 위한 예측 분석
- Big Data 다운스트림 유전체학 프로세스에서
- 공중 보건 분야의 빅데이터 예측 분석 적용
Big Data 다양한 데이터와 디스플레이에 대한 빠른 접근을 위한 대시보드 :
- Big Data 대시보드와 기존 애플리케이션 플랫폼의 통합
- Big Data 관리
- Big Data 대시보드 사례 연구: Tableau 및 Pentaho
- Govt에서 위치 기반 서비스를 푸시하려면 Big Data 앱을 사용하세요.
- 추적 시스템 및 관리
5일차: 세션 1: 조직 내에서 Big Data BI 구현을 정당화하는 방법:
- Big Data 구현을 위한 ROI 정의
- 분석가의 데이터 수집 및 준비 시간 절약에 대한 사례 연구 – 생산성 향상
- 라이센스 데이터베이스 비용 절감에 따른 수익 창출 사례 연구
- 위치 기반 서비스로 인한 수익 창출
- 사기 예방으로부터의 절약
- 대략적인 계산을 위한 통합 스프레드시트 접근 방식입니다. Big Data 구현으로 인한 비용 대 수익 이득/절감.
Day-5: 세션-2: 레거시 데이터 시스템을 Big Data 시스템으로 교체하기 위한 단계별 절차:
- 실무 이해 Big Data 마이그레이션 로드맵
- Big Data 구현을 설계하기 전에 필요한 중요한 정보는 무엇입니까?
- 데이터의 양, 속도, 다양성 및 진실성을 계산하는 다양한 방법은 무엇입니까?
- 데이터 증가를 예측하는 방법
- 사례 연구
5일차: 세션 4: Big Data 공급업체 검토 및 해당 제품 검토. Q/A 세션:
- 액센츄어
- APTEAN(이전의 CDC 소프트웨어)
- Cisco 시스템
- 클라우데라
- 작은 골짜기
- EMC
- Go오드데이터 코퍼레이션
- 구아부스
- 히타치 데이터 시스템즈
- 호튼웍스
- HP
- IBM
- 인포매티카
- 인텔
- 재스퍼소프트
- Microsoft
- MongoDB (이전의 10Gen)
- MU 시그마
- 넷앱
- 오페라 솔루션
- Oracle
- Pentaho
- 플라포라
- 클릭테크
- 양자
- 랙 공간
- 혁명 분석
- Salesforce
- SAP
- SAS 연구소
- 시스센스
- 소프트웨어 AG/테라코타
- Soft10 자동화
- Splunk
- Sqrrl
- 슈퍼마이크로
- Tableau 소프트웨어
- Teradata
- 빅 분석을 생각하세요
- 타이드마크 시스템
- 트리마이너
- VMware (EMC의 일부)
요건
- 정부 업무 운영 및 데이터 시스템에 대한 기본 지식 자신의 도메인에서
- SQL/Oracle 또는 관계형 데이터베이스에 대한 기본 이해
- Statistics에 대한 기본 이해(스프레드시트 수준)
35 시간
회원 평가 (1)
단순히 교육 과정을 제공하는 것이 아니라 조직의 요구 사항에 맞게 교육 과정을 조정할 수 있는 교육자의 능력입니다.
Masilonyane - Revenue Services Lesotho
코스 - Big Data Business Intelligence for Govt. Agencies
기계 번역됨