Large Language Model 3

LLM : In-Context Learning, 남은 이야기들

그래서 LLM이 Foundation Model이야?Large Language Model을 다시 요약하면 이렇습니다.Text 데이터를 엄청나게 모은다.이 데이터를 Language Model에게 보여준다.Language Model이 주어진 텍스트의 다음 단어를 예측하도록 훈련시킨다.Language Model의 결과(Decoder의 예측)를 다시 Language Model의 입력으로 넣으면 (auto-regressive) 긴 길을 지을 수 있다.결국 Language Model 하는 일은 다음 단어 예측, 그리고 더 길게 하면 글쓰기입니다. 이런 Language Model이 Large Language Model 됐다고 NLP Foundation Model의 역할을 할 수 있을까요? Yes, No로 대답하기는 어..

Deep Learning 2023.04.12

LLM : LLM을 가능케한 삼박자

스포일러! 2편은 다른 편에 비해 다소 기술적인 내용이 많습니다.Large Language ModelLanguage Model이 커지면 뭘까요? 바로 Large Language Model입니다. 하지만 무작정 크게 만들 수는 없습니다. 아래 세가지 문제 때문입니다.훈련 데이터 : 엄청 많은 데이터가 필요합니다.알고리즘 : 기존보다 엄청 강력한 알고리즘이 필요합니다.컴퓨팅 파워 : 엄청 많은 그리고 좋은 컴퓨터가 필요합니다.우리가 LLM을 만들고 있다는 것은 이 문제들이 어느 정도 해결이 됐다는 뜻이겠지요?(이 세가지는 전통적인 Machine Learning에서 Deep Learning으로 넘어갈 수 있었던 요인이기도 합니다. 앞으로 더 강력한 Machine Learning 기법이 나오더라도 반복될것이고요..

Deep Learning 2023.04.12

LLM : Foundation Model

시작시작하기 전에글을 마무리하고 처음으로 돌아와보니 처음 계획보다 매우 긴 글이 됐습니다. 그래서 몇 편으로 나누어서 올려보려고 합니다.ChatGPT를 시작으로 Generative AI, Large Language Model(LLM)에 대한 열기가 엄청납니다. 수개월 전까지만해도 Generative, Language Model 같은 표현은 AI 계에 몸담고 있는 사람들만이 쓰는 것 같았는데 말이죠. 이제는 주위에서 이런 표현을 듣는 일이 어렵지만은 않습니다.더 놀라운 사실은 이런 표현들이 말에서 그치지 않고 일상 생활에서 직접 쓰는 단계가 시작됐다는 점입니다. 몇달 전만 해도 개인 컴퓨터에서 Image-to-Text 모델을 돌려본다거나, LLaMA 같은 Language Model을 직접 돌려본다는 것은 ..

Deep Learning 2023.04.12