Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Course Outline
01일차
범죄정보분석을 위한 Big Data Business Intelligence 개요
- 법 집행 기관의 사례 연구 - 예측 경찰
- Big Data 법 집행 기관의 채택률 및 Big Data Predictive Analytics을 중심으로 미래 운영을 조정하는 방법
- 총기 센서, 감시 비디오, 소셜 미디어와 같은 새로운 기술 솔루션
- Big Data 기술을 사용하여 정보 과부하 완화
- Big Data 레거시 데이터와의 인터페이싱
- 예측 분석에서 활성화 기술에 대한 기본 이해
- Data Integration & 대시보드 시각화
- 사기 관리
- Business Rules 및 사기 감지
- 위협 탐지 및 프로파일링
- Big Data 구현을 위한 비용 편익 분석
Big Data 소개
- Big Data의 주요 특징은 볼륨, 다양성, 속도 및 진실성입니다.
- MPP(대규모 병렬 처리) 아키텍처
- Data Warehouses – 정적 스키마, 천천히 진화하는 데이터 세트
- MPP Database: Greenplum, Exadata, Teradata, Netezza, Vertica 등
- Hadoop 기반 솔루션 - 데이터 세트 구조에 대한 조건 없음.
- 일반적인 패턴: HDFS, MapReduce(크런치), HDFS에서 검색
- Apache Spark 스트림 처리를 위해
- 배치 - 분석/비대화에 적합
- 볼륨 : CEP 스트리밍 데이터
- 일반적인 선택 – CEP 제품(예: Infostreams, Apama, MarkLogic 등)
- 생산 준비가 덜 됨 – Storm/S4
- NoSQL Databases – (열 형식 및 키 값): 데이터웨어하우스/데이터베이스에 대한 분석 보조 도구로 가장 적합함
NoSQL 솔루션
- KV 스토어 - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV 스토어 - 다이너모, 볼드모트, 다이노마이트, 서브레코드, Mo8onDb, 도브테일DB
- KV 스토어(계층형) - GT.m, 캐시
- KV 스토어(주문됨) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV 캐시 - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- 튜플 스토어 - 기가스페이스, 코디, 아파치 리버
- 객체 Database - ZopeDB, DB40, Shoal
- 문서 저장소 - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- 와이드 컬럼 저장소 - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
다양한 데이터: Big Data의 Data Cleaning 문제 소개
- RDBMS – 정적 구조/스키마, 민첩하고 탐색적인 환경을 촉진하지 않습니다.
- NoSQL – 반구조화, 데이터를 저장하기 전에 정확한 스키마 없이도 데이터를 저장할 수 있는 충분한 구조
- 데이터 정리 문제
Hadoop
- Hadoop를 선택해야 하는 경우는 언제인가요?
- 구조화됨 - 엔터프라이즈 데이터웨어하우스/데이터베이스는 막대한 데이터를 저장할 수 있지만(비용이 들지만) 구조를 부과합니다(능동적인 탐색에 적합하지 않음)
- SEMI STRUCTURED 데이터 – 기존 솔루션(DW/DB)을 사용하여 수행하기 어려움
- 데이터 웨어하우징 = 엄청난 노력과 구현 후에도 정적
- 다양한 데이터와 대량의 데이터를 위해 상용 하드웨어에 저장 – HADOOP
- Hadoop 클러스터를 생성하는 데 필요한 상품 H/W
맵 축소/HDFS 소개
- MapReduce – 여러 서버에 컴퓨팅 분산
- HDFS – 컴퓨팅 프로세스에 로컬로 데이터를 사용 가능하게 함(중복성 포함)
- 데이터 – 비정형/스키마 없음(RDBMS와 달리)
- 데이터를 이해하는 것은 개발자의 책임입니다.
- Programming MapReduce = Java와 함께 작업(장단점), HDFS에 수동으로 데이터 로드
2일차
Big Data 생태계 - Big Data ETL(추출, 변환, 로드) 구축 - 어떤 Big Data 도구를 언제 사용해야 합니까?
- Hadoop vs. 기타 NoSQL 솔루션
- 데이터에 대한 대화형 임의 액세스를 위해
- Hadoop 위에 있는 Hbase(열 지향 데이터베이스)
- 데이터에 대한 임의 액세스가 가능하지만 제한이 있음(최대 1 PB)
- 임시 분석에는 적합하지 않지만 로깅, 계산, 시계열에는 적합합니다.
- Sqoop - 데이터베이스에서 Hive 또는 HDFS(JDBC/ODBC 액세스)로 가져오기
- Flume – HDFS로 스트림 데이터(예: 로그 데이터)
Big Data Management 시스템
- 이동 부품, 컴퓨트 노드 시작/실패 :ZooKeeper - 구성/조정/네이밍 서비스용
- 복잡한 파이프라인/워크플로: Oozie – 워크플로, 종속성, 데이지 체인 관리
- 배포, 구성, 클러스터 관리, 업그레이드 등(시스템 관리자) :Ambari
- 클라우드에서 : 휘르
Predictive Analytics -- 기본 기술과 Machine Learning 기반 Business 지능
- Machine Learning 소개
- 분류 기술 학습
- 베이지안 예측 -- 훈련 파일 준비
- 지원 벡터 머신
- KNN p-트리 대수 및 수직 마이닝
- Neural Networks
- Big Data 대변수 문제 -- 랜덤 포레스트(RF)
- Big Data 자동화 문제 – 다중 모델 앙상블 RF
- Soft10-M을 통한 자동화
- 텍스트 분석 도구-Treeminer
- Agile 학습
- 에이전트 기반 학습
- 분산 학습
- 예측 분석을 위한 오픈 소스 도구 소개: R, Python, Rapidminer, Mahut
Predictive Analytics 범죄정보 분석에 있어서 생태계와 그 적용
- 기술과 조사 과정
- 인사이트 분석
- 시각화 분석
- 구조화된 예측 분석
- 비정형 예측 분석
- 위협/사기꾼/공급업체 프로파일링
- 추천 엔진
- 패턴 감지
- 규칙/시나리오 발견 – 실패, 사기, 최적화
- 근본 원인 발견
- 감정 분석
- CRM 분석
- 네트워크 분석
- 필사본, 증인 진술, 인터넷 채팅 등에서 통찰력을 얻기 위한 텍스트 분석
- 기술 지원 검토
- 사기 분석
- 실시간 분석
03일차
실시간 및 Scala가능한 분석 Hadoop
- Hadoop/HDFS에서 일반적인 분석 알고리즘이 실패하는 이유
- Apache Hama- 대량 동기 분산 컴퓨팅을 위해
- Apache SPARK - 클러스터 컴퓨팅 및 실시간 분석을 위해
- CMU Graphics Lab2- 분산 컴퓨팅에 대한 그래프 기반 비동기 접근 방식
- KNN p -- 하드웨어 운영 비용 절감을 위한 Treeminer의 대수 기반 접근 방식
eDiscovery 및 법의학 도구
- Big Data 대 레거시 데이터에 대한 eDiscovery - 비용 및 성능 비교
- 예측 코딩 및 기술 지원 검토(TAR)
- TAR이 어떻게 더 빠른 발견을 가능하게 하는지 이해하기 위한 vMiner의 라이브 데모
- HDFS를 통한 더 빠른 인덱싱 – 데이터 속도
- NLP(자연어 처리) – 오픈 소스 제품 및 기술
- 외국어 eDiscovery -- 외국어 처리 기술
Big Data Cyber Security를 위한 BI – 360도 뷰 확보, 신속한 데이터 수집 및 위협 식별
- 보안 분석의 기본 사항 이해(공격 표면, 보안 오류, 호스트 방어)
- 네트워크 인프라 / 대규모 데이터파이프 / 실시간 분석을 위한 응답 ETL
- 규범적 vs 예측적 – 고정 규칙 기반 vs 메타 데이터에서 위협 규칙 자동 검색
범죄 정보 분석을 위한 서로 다른 데이터 수집
- IoT(사물인터넷)를 센서로 사용하여 데이터 수집
- 국내 감시를 위한 위성 이미지 사용
- 감시 및 이미지 데이터를 활용해 범죄 식별
- 기타 데이터 수집 기술 - 드론, 바디 카메라, GPS 태그 시스템 및 열화상 기술
- 정보 제공자, 심문 및 연구로부터 얻은 데이터와 자동화된 데이터 검색을 결합합니다.
- Forecasting 범죄 활동
4일차
Fraud Analytics의 Big Data에서 사기 방지 BI
- 사기 분석의 기본 분류 -- 규칙 기반 분석 대 예측 분석
- 사기 패턴 감지를 위한 지도 학습과 비지도 학습
- Business 사업 사기, 의료 청구 사기, 보험 사기, 세금 탈루 및 자금 세탁
Social Media 분석 - 정보 수집 및 분석
- Social Media은 범죄자들이 조직, 모집 및 계획하는 데 어떻게 사용되는가
- Big Data 소셜 미디어 데이터 추출을 위한 ETL API
- 텍스트, 이미지, 메타 데이터 및 비디오
- 소셜 미디어 피드의 감정 분석
- 소셜 미디어 피드의 문맥적 및 비문맥적 필터링
- Social Media 다양한 소셜미디어를 통합한 대시보드
- 소셜 미디어 프로필의 자동 프로파일링
- 각 분석의 라이브 데모는 Treeminer Tool을 통해 제공됩니다.
Big Data 이미지 처리 및 비디오 피드 분석
- Big Data의 이미지 저장 기술 - 페타바이트를 초과하는 데이터를 위한 저장 솔루션
- LTFS(선형 테이프 파일 시스템) 및 LTO(선형 테이프 오픈)
- GPFS-LTFS(General Parallel File System - Linear Tape File System) - 빅 이미지 데이터를 위한 계층형 저장 솔루션
- 이미지 분석의 기본
- 객체 인식
- 이미지 분할
- 동작 추적
- 3D 이미지 재구성
Bio메트릭스, DNA 및 차세대 식별 프로그램
- 지문 인식과 얼굴 인식을 넘어
- 음성 인식, 키 입력(사용자의 타이핑 패턴 분석) 및 CODIS(결합된 DNA 색인 시스템)
- DNA 매칭을 넘어서: 법의학적 DNA 표현형 분석을 사용하여 DNA 샘플에서 얼굴을 구성하다
Big Data 다양한 데이터와 디스플레이에 대한 빠른 접근을 위한 대시보드 :
- 기존 애플리케이션 플랫폼과 Big Data 대시보드의 통합
- Big Data 관리
- Big Data 대시보드 사례 연구: Tableau 및 Pentaho
- Govt에서 위치 기반 서비스를 푸시하려면 Big Data 앱을 사용하세요.
- 추적 시스템 및 관리
5일차
조직 내에서 Big Data BI 구현을 정당화하는 방법:
- Big Data 구현을 위한 ROI(Return on Investment) 정의
- 데이터 수집 및 준비에 있어 분석가의 시간을 절약하기 위한 사례 연구 – 생산성 향상
- 데이터베이스 라이선스 비용 절감으로 인한 수익 증가
- 위치 기반 서비스로 인한 수익 증가
- 사기 방지로 인한 비용 절감
- Big Data 구현을 통해 대략적인 비용 대비 수익 증가/절감을 계산하기 위한 통합 스프레드시트 접근 방식입니다.
레거시 데이터 시스템을 Big Data 시스템으로 교체하기 위한 단계별 절차
- Big Data 이민 로드맵
- Big Data 시스템을 설계하기 전에 어떤 중요한 정보가 필요합니까?
- 데이터의 양, 속도, 다양성 및 진실성을 계산하는 다양한 방법은 무엇입니까?
- 데이터 증가를 추정하는 방법
- 사례 연구
Big Data 공급업체 검토 및 해당 제품 검토.
- 액센추어
- APTEAN(이전 CDC 소프트웨어)
- Cisco 시스템
- 클라우데라
- 작은 골짜기
- 전자파 적합성
- GoodData 주식회사
- 구아부스
- 히타치 데이터 시스템
- 호튼웍스
- 마력
- 아이비엠(주)
- 인포매티카
- 인텔
- 재스퍼소프트
- Microsoft
- MongoDB (이전 10Gen)
- MU 시그마
- 넷앱
- 오페라 솔루션
- Oracle
- Pentaho
- 플랫폼
- 클릭텍
- 양자
- 랙스페이스
- 혁명 분석
- Salesforce
- SAP
- SAS 연구소
- 시센스
- 소프트웨어 AG/테라코타
- 소프트10 자동화
- Splunk
- 스퀘럴
- 슈퍼마이크로
- Tableau 소프트웨어
- Teradata
- 큰 분석 생각하기
- 타이드마크 시스템
- 트리마이너
- VMware (EMC의 일부)
Q/A 세션
Requirements
- 법 집행 프로세스 및 데이터 시스템에 대한 지식
- SQL/Oracle 또는 관계형 데이터베이스에 대한 기본적인 이해
- 통계에 대한 기본 이해(스프레드시트 수준)
청중
- 기술적 배경을 갖춘 법 집행 전문가
35 Hours