코스 개요

상세 교육 개요

  1. NLP 소개
    • NLP 이해하기
    • NLP 프레임워크
    • NLP의 상업적 활용
    • 웹에서 데이터 스크래핑
    • 텍스트 데이터를 검색하기 위한 다양한 API 사용
    • 텍스트 코퍼스 작업 및 저장: 내용과 관련 메타데이터 저장
    • Python과 NLTK 크래시 코스의 장점
  2. 코퍼스와 데이터셋의 실질적 이해
    • 코퍼스가 필요한 이유는?
    • 코퍼스 분석
    • 데이터 속성의 유형
    • 코퍼스를 위한 다양한 파일 형식
    • NLP 애플리케이션을 위한 데이터셋 준비
  3. 문장 구조 이해
    • NLP 구성 요소
    • 자연어 이해
    • 형태론적 분석: 어근, 단어, 토큰, 품사 태그
    • 구문 분석
    • 의미론적 분석
    • 모호성 처리
  4. 텍스트 데이터 전처리
    • 코퍼스 - 원시 텍스트
      • 문장 토큰화
      • 원시 텍스트의 어근 추출
      • 원시 텍스트의 레마화
      • 불용어 제거
    • 코퍼스 - 원시 문장
      • 단어 토큰화
      • 단어 레마화
    • Term-Document/Document-Term 행렬 작업
    • 텍스트를 n-그램과 문장으로 토큰화하기
    • 실제 및 맞춤 전처리
  5. 텍스트 데이터 분석
    • NLP의 기본 특성
      • 파서와 파싱
      • 품사 태깅과 태거
      • 이름 실체 인식
      • n-그램
      • 백 오브 워즈
    • NLP의 통계적 특성
      • NLP를 위한 선형 대수 개념
      • NLP를 위한 확률 이론
      • TF-IDF
      • 벡터화
      • 인코더와 디코더
      • 정규화
      • 확률 모델
    • 고급 피처 엔지니어링과 NLP
      • word2vec 기초
      • word2vec 모델 구성 요소
      • word2vec 모델의 로직
      • word2vec 개념 확장
      • word2vec 모델의 활용
    • 케이스 스터디: 백 오브 워즈의 활용: 단순화된 Luhn 알고리즘과 진정한 Luhn 알고리즘을 사용한 자동 텍스트 요약
  6. 문서 클러스터링, 분류 및 주제 모델링
    • 문서 클러스터링 및 패턴 채굴 (계층적 클러스터링, k-평균 클러스터링 등)
    • TFIDF, Jaccard, 코사인 거리 측정을 사용한 문서 비교 및 분류
    • 나이브 베이즈와 최대 엔트로피를 사용한 문서 분류
  7. 중요 텍스트 요소 식별
    • 차원 축소: 주성분 분석, 특이값 분해, 비음수 행렬 분해
    • 잠재 의미 분석을 사용한 주제 모델링 및 정보 검색
  8. 개체 추출, 감성 분석 및 고급 주제 모델링
    • 긍정 vs. 부정: 감성의 정도
    • 항목 반응 이론
    • 품사 태깅 및 활용: 텍스트에서 언급된 사람, 장소, 조직 찾기
    • 고급 주제 모델링: 잠재 디리클레 할당
  9. 케이스 스터디
    • 비정형 사용자 리뷰 채굴
    • 제품 리뷰 데이터의 감성 분류 및 시각화
    • 사용 패턴을 위한 검색 로그 채굴
    • 텍스트 분류
    • 주제 모델링

요건

NLP 원리에 대한 지식과 AI의 비즈니스 적용에 대한 이해

 21 시간

참가자 수


참가자당 가격

회원 평가 (1)

예정된 코스

관련 카테고리