-
(AI) - 1 초거대 생성형 AI 이해 및 활용개발/AI 2024. 11. 11. 17:48
* 생성 모델 : 실제 존재하지 않지만 있을 법한 이미지를 생성할 수 있는 모델
- 학습했던 데이터와 유사한 데이터 생성
- 데이터 분포 학습
- 다음 단어 예측
ex) chatGPT 도 동일하게 문맥 상황을 파악해서 나와야 하는 답을 도출
-> 각 클라스의 분포(Distribution)
- Training data 가 주어졌을 때 이 training data 가 가지는 real 분포와
같은 분포에서 sampling 된 값으로 new data 를 생성하는 model
■ Word Embedding (글자를 숫자(백터값)으로 변경)
- 숫자화된 단어의 나열로부터 sentiment 추출
- 단어나 문장을 vector space 로 끼워 넣음(embedding)
■ Tokenization
- 토큰 : 단어화하는 최소 단위
1. 사전 방식 : 알려진 단어/형태소 및 이들의 결합
2. sub-word 방식 (최근에 선호) : 알려진 글자 및 subword
* 방법
- rule-based tokenization : 공백 또는 구둣점으로 분리
- Subword tokenization
: 빈번히 사용되는 단어는 더 작은 Subword 로 나뉘어 지면 x
가끔 사용되는 단어는 의미 있는 Subword 로 나뉘어져야 한다.