ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • (AI) - 1 초거대 생성형 AI 이해 및 활용
    개발/AI 2024. 11. 11. 17:48

    * 생성 모델 : 실제 존재하지 않지만 있을 법한 이미지를 생성할 수 있는 모델

    - 학습했던 데이터와 유사한 데이터 생성

    - 데이터 분포 학습

    - 다음 단어 예측

    ex) chatGPT 도 동일하게 문맥 상황을 파악해서 나와야 하는 답을 도출

    -> 각 클라스의 분포(Distribution)

     

    - Training data 가 주어졌을 때 이 training data 가 가지는 real 분포와

    같은 분포에서 sampling 된 값으로 new data 를 생성하는 model

     

    ■ Word Embedding (글자를 숫자(백터값)으로 변경)

    - 숫자화된 단어의 나열로부터 sentiment 추출

    - 단어나 문장을 vector space 로 끼워 넣음(embedding) 

     

    ■ Tokenization

    - 토큰 : 단어화하는 최소 단위 

     

    1. 사전 방식 : 알려진 단어/형태소 및 이들의 결합

    2. sub-word 방식 (최근에 선호) : 알려진 글자 및 subword

     

    * 방법

    - rule-based tokenization : 공백 또는 구둣점으로 분리

    - Subword tokenization

    : 빈번히 사용되는 단어는 더 작은 Subword 로 나뉘어 지면 x

    가끔 사용되는 단어는 의미 있는 Subword 로 나뉘어져야 한다.

     

Designed by Tistory.