둔진의 소프트웨어 이야기

  • 홈
  • 태그

from_generator 1

대용량 훈련 데이터 처리 - Generator로 TF Dataset 만들기

1. 너무 큰 데이터 tf.data.Dataset는 Tensorflow의 훈련 데이터를 다룰 때 참 편리합니다. Padding, Batch, Shuffle, Map 등을 다 지원해주니까요. 일단 데이터를 Dataset으로 변환만 시키면 그다음부터는 아주 편리하게 사용할 수 있습니다. from_tensor_slices를 쓰면 numpy array를 바로 Dataset으로 변환해주니까 더할나위 없이 편리하고요. 하지만! 이 방법에는 치명적인 문제가 있으니... 바로 변환하려는 전체 데이터가 메모리에 올릴 수 있는 크기여야 한다는 겁니다. 물론 가상 메모리를 써서 메모리를 가짜로 늘릴 수는 있지만 이 순간부터 Thrashing으로 속도가 급격하게 떨어지고, Out-of-memory로 죽기도 합니다. 이 문제가..

Deep Learning 2020.05.07
이전
1
다음
더보기
프로필사진

둔진의 소프트웨어 이야기

자연어처리, 인공지능, 파이썬, 소프트웨어 개발 이야기를 다룹니다.

  • 분류 전체보기
    • Python
    • Linux
    • Deep Learning
    • IT 이야기

Tag

LLM, DEEPLEARNING, NLP, pytorch, word vector, Foundation Model, transformer, Deep Learning, Linux, 자연어처리, sys.path, tensorflow, keras, Python, ChatGPT, fasttext, Large Language Model, 파이썬, word embedding, GPT,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바