Course Outline

=====
1일차
=====
Big Data Business 범죄정보 분석을 위한 지능 개요

  • 법 집행 기관의 사례 연구 - 예측 경찰
  • Big Data 법 집행 기관의 채택률 및 향후 운영을 조정하는 방법 Big Data Predictive Analytics
  • 총상 센서, 감시 비디오, 소셜 미디어 등의 신기술 솔루션
  • Big Data 기술을 사용하여 정보 과부하 완화
  • 레거시 데이터와 Big Data 인터페이스
  • 예측 분석 기술 활성화에 대한 기본 이해
  • Data Integration 및 대시보드 시각화
  • 사기 관리
  • Business 규칙 및 사기 탐지
  • 위협 감지 및 프로파일링
  • Big Data 구현에 대한 비용 이점 분석

Big Data 소개

  • Big Data의 주요 특징 - 볼륨, 다양성, 속도 및 진실성.
  • MPP(대규모 병렬 처리) 아키텍처
  • Data Warehouses – 정적 스키마, 천천히 진화하는 데이터세트
  • MPP Database: Greenplum, Exadata, Teradata, Netezza, Vertica 등
  • Hadoop 기반 솔루션 – 데이터 세트 구조에 대한 조건이 없습니다.
  • 일반적인 패턴: HDFS, MapReduce(크런치), HDFS에서 검색
  • Apache Spark 스트림 처리용
  • 분석적/비대화형에 적합한 배치
  • 볼륨 : CEP 스트리밍 데이터
  • 일반적인 선택 - CEP 제품(예: Infostreams, Apama, MarkLogic 등)
  • 적은 생산 준비 – Storm/S4
  • NoSQL Databases – (열 및 키-값): 데이터 웨어하우스/데이터베이스에 대한 분석 보조물로 가장 적합합니다.

NoSQL 솔루션

  • KV 스토어 - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV 스토어 - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV 스토어(계층적) - GT.m, 캐시
  • KV 스토어(주문) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV 캐시 - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBoss캐시, Velocity, Terracoqua
  • 튜플 저장소 - Gigaspaces, Coord, Apache River
  • 객체 Database - ZopeDB, DB40, Shoal
  • 문서 저장소 - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • 넓은 컬럼형 저장소 - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

다양한 데이터: Big Data의 Data Cleaning 문제 소개

  • RDBMS – 정적 구조/스키마는 민첩한 탐색 환경을 촉진하지 않습니다.
  • NoSQL – 데이터를 저장하기 전에 정확한 스키마 없이 데이터를 저장하기에 충분한 반구조적 구조
  • 데이터 정리 문제

Hadoop

  • 언제 Hadoop을 선택하나요?
  • 구조화 - 엔터프라이즈 데이터 웨어하우스/데이터베이스는 대규모 데이터를 저장할 수 있지만(유료) 구조를 부과합니다(활성 탐색에는 적합하지 않음).
  • SEMI STRUCTURED 데이터 – 기존 솔루션(DW/DB)을 사용하여 수행하기 어려움
  • 데이터 보관 = 엄청난 노력과 구현 후에도 정적
  • 데이터의 다양성과 볼륨을 위해 상용 하드웨어에서 처리 – HADOOP
  • Hadoop 클러스터를 생성하는 데 필요한 상용 하드웨어

맵 축소/HDFS 소개

  • MapReduce – 여러 서버에 컴퓨팅 분산
  • HDFS – 컴퓨팅 프로세스를 위해 로컬에서 데이터를 사용할 수 있도록 합니다(중복성 포함).
  • 데이터 – 구조화되지 않거나 스키마가 없을 수 있습니다(RDBMS와 다름).
  • 데이터를 이해하는 데 대한 개발자의 책임
  • Programming MapReduce = Java 작업(장점/단점), 수동으로 HDFS에 데이터 로드

=====
2일차
=====
Big Data 생태계 - 구축 Big Data ETL(추출, 변환, 로드) - 어떤 Big Data 도구를 언제 사용할 것인가?

  • Hadoop 대 기타 NoSQL 솔루션
  • 데이터에 대한 대화형 무작위 액세스용
  • Hadoop 위에 Hbase(열 기반 데이터베이스)
  • 데이터에 대한 무작위 액세스(최대 1PB)
  • 임시 분석에는 적합하지 않고 로깅, 계산, 시계열에는 적합합니다.
  • Sqoop - 데이터베이스에서 Hive 또는 HDFS(JDBC/ODBC 액세스)로 가져오기
  • Flume – HDFS로 데이터(예: 로그 데이터) 스트리밍

Big Data Management 시스템

  • 움직이는 부품, 컴퓨팅 노드 시작/실패 : ZooKeeper - 구성/조정/이름 지정 서비스용
  • 복잡한 파이프라인/워크플로: Oozie – 워크플로, 종속성, 데이지 체인 관리
  • 배포, 구성, 클러스터 관리, 업그레이드 등(sys admin) :Ambari
  • 인 클라우드 : 윙윙

Predictive Analytics -- 기본 기술과 Machine Learning 기반 Business 지능

  • Machine Learning 소개
  • 분류 기술 학습
  • 베이지안 예측 - 훈련 파일 준비
  • 서포트 벡터 머신
  • KNN p-Tree 대수학 및 수직 마이닝
  • Neural Networks
  • Big Data 대규모 변수 문제 - 랜덤 포레스트(RF)
  • Big Data 자동화 문제 - 다중 모델 앙상블 RF
  • Soft10-M을 통한 자동화
  • 텍스트 분석 도구-Treeminer
  • Agile 학습
  • 에이전트 기반 학습
  • 분산 학습
  • 예측 분석을 위한 오픈 소스 도구 소개: R, Python, Rapidminer, Mahut

Predictive Analytics 범죄정보 분석에 있어서 생태계와 그 적용

  • 기술과 조사 과정
  • 통찰력 분석
  • 시각화 분석
  • 구조화된 예측 분석
  • 구조화되지 않은 예측 분석
  • 위협/사기 행위/공급업체 프로파일링
  • 추천 엔진
  • 패턴 감지
  • 규칙/시나리오 발견 – 실패, 사기, 최적화
  • 근본 원인 발견
  • 감성분석
  • CRM 분석
  • 네트워크 분석
  • 녹취록, 증인 진술, 인터넷 채팅 등에서 통찰력을 얻기 위한 텍스트 분석
  • 기술 지원 검토
  • 사기 분석
  • 실시간 분석

=====
03일차
=====
Hadoop 이상의 실시간 및 Scala블 분석

  • Hadoop/HDFS에서 일반적인 분석 알고리즘이 실패하는 이유
  • Apache Hama- 대량 동기식 분산 컴퓨팅용
  • Apache SPARK - 클러스터 컴퓨팅 및 실시간 분석용
  • CMU 그래픽 랩2 - 분산 컴퓨팅에 대한 그래프 기반 비동기 접근 방식
  • KNN p -- 하드웨어 운영 비용 절감을 위한 Treeminer의 대수 기반 접근 방식

eDiscovery 및 법의학 도구

  • Big Data에 대한 eDiscovery와 레거시 데이터 - 비용 및 성능 비교
  • 예측 코딩 및 TAR(기술 지원 검토)
  • TAR이 어떻게 더 빠른 검색을 가능하게 하는지 이해하기 위한 vMiner의 라이브 데모
  • HDFS를 통한 더 빠른 인덱싱 – 데이터 속도
  • NLP(자연어 처리) – 오픈 소스 제품 및 기술
  • 외국어 eDiscovery - 외국어 처리 기술

Big Data Cyber Security를 위한 BI – 360도 뷰 확보, 신속한 데이터 수집 및 위협 식별

  • 보안 분석의 기본 이해 - 공격 표면, 잘못된 보안 구성, 호스트 방어
  • 네트워크 인프라 / 대용량 데이터파이프 / 실시간 분석을 위한 응답 ETL
  • 규범적 vs 예측 – 고정 규칙 기반 vs 메타데이터의 위협 규칙 자동 검색

범죄 정보 분석을 위한 서로 다른 데이터 수집

  • IoT(사물 인터넷)를 데이터 캡처용 센서로 사용
  • 국내 감시를 위해 위성 이미지 사용
  • 범죄 식별을 위해 감시 및 영상 데이터 활용
  • 기타 데이터 수집 기술 - 드론, 바디 카메라, GPS 태깅 시스템, 열화상 기술
  • 제보자, 심문, 연구를 통해 얻은 데이터와 자동화된 데이터 검색을 결합
  • Forecasting 범죄 행위

=====
4일차
=====
사기 분석(Fraud Analytics)의 Big Data 사기 방지 BI

  • 사기 분석의 기본 분류 - 규칙 기반 분석과 예측 분석
  • 사기 패턴 탐지를 위한 지도 및 비지도 기계 학습
  • Business 영업사기, 의료보험사기, 보험사기, 탈세, 자금세탁 등에 대하여

Social Media 분석 - 정보 수집 및 분석

  • 범죄자들이 조직, 모집 및 계획을 위해 Social Media를 사용하는 방법
  • Big Data 소셜 미디어 데이터 추출을 위한 ETL API
  • 텍스트, 이미지, 메타데이터 및 비디오
  • 소셜 미디어 피드의 감정 분석
  • 소셜 미디어 피드의 상황별 및 비맥락적 필터링
  • Social Media 다양한 소셜미디어를 통합하는 대시보드
  • 소셜 미디어 프로필 자동 프로파일링
  • 각 분석의 라이브 데모는 Treeminer Tool을 통해 제공됩니다.

Big Data 이미지 처리 및 비디오 피드 분석

  • Big Data의 이미지 저장 기술 - 페타바이트를 초과하는 데이터를 위한 저장 솔루션
  • LTFS(선형 테이프 파일 시스템) 및 LTO(선형 테이프 개방형)
  • GPFS-LTFS(일반 병렬 파일 시스템 - 선형 테이프 파일 시스템) - 빅 이미지 데이터를 위한 계층형 스토리지 솔루션
  • 이미지 분석의 기초
  • 객체 인식
  • 이미지 분할
  • 모션 추적
  • 3차원 이미지 재구성

Bio메트릭스, DNA 및 차세대 식별 프로그램

  • 지문인식과 안면인식을 넘어
  • 음성인식, 키스트로크(사용자의 타이핑 패턴 분석), CODIS(Combined DNA Index System)
  • DNA 매칭 그 이상: 법의학 DNA 표현형을 사용하여 DNA 샘플에서 얼굴 구성

Big Data 다양한 데이터와 디스플레이에 대한 빠른 접근을 위한 대시보드 :

  • Big Data 대시보드와 기존 애플리케이션 플랫폼의 통합
  • Big Data 관리
  • Big Data 대시보드 사례 연구: Tableau 및 Pentaho
  • Govt에서 위치 기반 서비스를 푸시하려면 Big Data 앱을 사용하세요.
  • 추적 시스템 및 관리

=====
5일차
=====
조직 내에서 Big Data BI 구현을 정당화하는 방법:

  • Big Data 구현을 위한 ROI(Return on Investment) 정의
  • 데이터 수집 및 준비에 있어 분석가의 시간을 절약하여 생산성을 높이는 사례 연구
  • 데이터베이스 라이선스 비용 절감으로 인한 수익 증대
  • 위치 기반 서비스로 인한 수익 창출
  • 사기 예방으로 인한 비용 절감
  • 대략적인 비용과 Big Data 구현으로 인한 수익 이익/절감을 계산하기 위한 통합 스프레드시트 접근 방식입니다.

레거시 데이터 시스템을 Big Data 시스템으로 교체하기 위한 단계별 절차

  • Big Data 마이그레이션 로드맵
  • Big Data 시스템을 설계하기 전에 어떤 중요한 정보가 필요합니까?
  • 데이터의 양, 속도, 다양성 및 진실성을 계산하는 다양한 방법은 무엇입니까?
  • 데이터 증가를 예측하는 방법
  • 사례 연구

Big Data 공급업체 검토 및 해당 제품 검토.

  • 액센츄어
  • APTEAN(이전의 CDC 소프트웨어)
  • Cisco 시스템
  • 클라우데라
  • 작은 골짜기
  • EMC
  • Go오드데이터 코퍼레이션
  • 구아부스
  • 히타치 데이터 시스템즈
  • 호튼웍스
  • HP
  • IBM
  • 인포매티카
  • 인텔
  • 재스퍼소프트
  • Microsoft
  • MongoDB (이전의 10Gen)
  • MU 시그마
  • 넷앱
  • 오페라 솔루션
  • Oracle
  • Pentaho
  • 플라포라
  • 클릭텍
  • 양자
  • 랙 공간
  • 혁명 분석
  • Salesforce
  • SAP
  • SAS 연구소
  • 시스센스
  • 소프트웨어 AG/테라코타
  • Soft10 자동화
  • Splunk
  • Sqrrl
  • 슈퍼마이크로
  • Tableau 소프트웨어
  • Teradata
  • 빅 분석을 생각하세요
  • 타이드마크 시스템
  • 트리마이너
  • VMware (EMC의 일부)

Q/A 세션

Requirements

  • 법 집행 프로세스 및 데이터 시스템에 대한 지식
  • SQL/Oracle 또는 관계형 데이터베이스에 대한 기본 이해
  • 통계에 대한 기본 이해(스프레드시트 수준)
  35 Hours
 

Number of participants


Starts

Ends


Dates are subject to availability and take place between 10:00 and 17:00.
Open Training Courses require 5+ participants.

회원 평가 (4)

Related Courses

Related Categories