LLM은 능숙하게 언어를 이해하고 언어를 만들어내는 것처럼보이지만, LLM도 다른 컴퓨터 기술처럼 실제로는 0과 1만를 다룹니다. 그럼 어떻게 0과 1만 아는 LLM이 언어를 사용해서 우리와 이토록 깊이 있는 대화를 나눌 수 있을까요? 그 비밀의 첫 번째 퍼즐 조각이 바로 오늘 이야기할 '토큰(Token)'입니다.이 글에서는 LLM의 세포와도 같은 토큰이 대체 무엇인지, 왜 그렇게 중요한지, 그리고 이 작은 단위 하나가 AI의 성능과 비용, 심지어는 언어적 공정성에까지 어떤 영향을 미치는지 파헤쳐 보겠습니다.오늘도 수학 공식은 싹 빼고 진행해보겠습니다.1. 토큰(Token) : 언어의 레고 블록먼저 토큰의 정체부터 밝혀봅시다.간단히 정의하자면, 토큰은 LLM이 텍스트를 처리하는 기본 단위입니다. 아직 모..
LLM을 처음 접하면 어렵고 헷갈리는 용어와 개념들이 많습니다. 그중에서도 가장 알듯 말듯 아리송한 개념이 바로 Token이 아닐까 합니다.Token이라는 단어를 처음 접하는 건 LLM을 사용하는 입장인지 LLM을 만드는 입장인지에 따라 다릅니다.LLM을 사용하는 입장에서는 "이 LLM의 최대 Context Window 크기가 4K tokens이다", "이 LLM은 비용이 1M tokens 당 0.5 달러다"와 같은 설명을 통해 Token이라는 표현을 처음 접하게 됩니다. Token이 입출력 텍스트 데이터의 크기를 나타내는 것 같기는 한데, 글자수도 아니고 단어수도 아니고 Token 수라는 이상한 단위 때문에 고개를 갸웃하게 되고요.그러고 나서 이어지는 자연스러운 질문은 "그래서 1,000 Token이 ..
지난 번 한국어 토큰 테스트(한국어 토큰의 단위는 뭐가 좋을까?)를 해보고나니, Tensorflow(Keras)의 Embedding은 어떨지 궁금했습니다. 그래서 지난번 테스트 중 가장 성능이 좋았던 "형태소+글자" 단위 토큰으로 비교를 해보았습니다. Embedding dimension은 fastText의 기본값 100으로 그대로 하고요. OOV를 위한 토큰을 추가합니다. import tensorflow as tf import numpy as np from tqdm import tqdm from konlpy.tag import Mecab OOV_TOKEN = '' EMBEDDING_DIM = 100 Toknizer와 코퍼스 읽는 건 앞에서 그대로 가져오고요. tagger = Mecab() def toke..
- Total
- Today
- Yesterday
- generator
- DEEPLEARNING
- GPU
- NLP
- tip
- LLM
- token
- Foundation Model
- docker
- word vector
- 파이썬
- Linux
- word embedding
- tensorflow
- Large Language Model
- fasttext
- MachineLearning
- keras
- speculativedecoding
- Ai
- 자연어처리
- pytorch
- GPT
- Python
- Deep Learning
- Import
- ChatGPT
- transformer
- sys.path
- iterator
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |