홈
태그
방명록

분류 전체보기 (234)

인기포스트

ABOUT ME

트위터
인스타그램

Today

Yesterday

Total

개발하는 인사담당자 개발하는 인사담당자

컨텐츠 검색 블로그 내 검색

(AI) - 1 초거대 생성형 AI 이해 및 활용

개발/AI 2024. 11. 11. 17:48

* 생성 모델 : 실제 존재하지 않지만 있을 법한 이미지를 생성할 수 있는 모델

- 학습했던 데이터와 유사한 데이터 생성

- 데이터 분포 학습

- 다음 단어 예측

ex) chatGPT 도 동일하게 문맥 상황을 파악해서 나와야 하는 답을 도출

-> 각 클라스의 분포(Distribution)

- Training data 가 주어졌을 때 이 training data 가 가지는 real 분포와

같은 분포에서 sampling 된 값으로 new data 를 생성하는 model

■ Word Embedding (글자를 숫자(백터값)으로 변경)

- 숫자화된 단어의 나열로부터 sentiment 추출

- 단어나 문장을 vector space 로 끼워 넣음(embedding)

■ Tokenization

- 토큰 : 단어화하는 최소 단위

1. 사전 방식 : 알려진 단어/형태소 및 이들의 결합

2. sub-word 방식 (최근에 선호) : 알려진 글자 및 subword

* 방법

- rule-based tokenization : 공백 또는 구둣점으로 분리

- Subword tokenization

: 빈번히 사용되는 단어는 더 작은 Subword 로 나뉘어 지면 x

가끔 사용되는 단어는 의미 있는 Subword 로 나뉘어져야 한다.

저작자표시

인기포스트

ABOUT ME

LINK

ADMIN

admin 글쓰기

Designed by Tistory.

티스토리툴바

개인정보

티스토리 홈
포럼
로그인

단축키

내 블로그

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

블로그 게시글

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

모든 영역

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.