:: 게시판
:: 이전 게시판
|
- PGR21 관련된 질문 및 건의는 [건의 게시판]을 이용바랍니다.
- (2013년 3월 이전) 오래된 질문글은 [이전 질문 게시판]에 있습니다. 통합 규정을 준수해 주십시오. (2015.12.25.)
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
21/10/30 10:43
코랩에서 CPU만 사용해야 비슷한 수준이고 GPU들어가면 비교대상 조차 아닙니다.
랩탑은 랩탑일 뿐입니다. 로컬머신 필요하시면 그래픽 카드를 사세요.
21/10/31 07:30
그럼 맥북프로에서 cuda를 통해서 가속을 시켜도 코랩에서 CPU를 사용했을 때 비슷한 수준인가요? 사실이라면 매우매우 실망스럽긴 하네요.
21/10/31 12:20
cuda는 Nvidia 그래픽 카드 전용 프로그램이라 맥북에서 사용 하실수 없구요, Metal이나 opencl을 사용하셔야 합니다.
21/10/31 12:47
아 그렇죠... GPU를 통해서 가속했을 경우에도 비슷한지 여쭙는 질문이었는데, 결국 가속했을 때도 코랩에서 CPU만 사용해야 비슷한 수준이라는 뜻이라고 이해하면 될까요?
21/10/31 16:00
답변 감사드립니다! 여러 번 이어 질문을 하게 되어 죄송스러운데, 그러면 이 부등호가 의미가 있는 정도인지는 둘째 치고, colab CPU < GPU 가속된 M1 < colab GPU 라고 이해하면 될까요?
21/10/30 14:32
경험상 텐서 코어가 있는 GPU를 쓰는 환경에서는, 꽤 높은 확률로 메모리 대역폭(또는 용량)이 주 병목지점이고, 이 경우 성능도 메모리 대역폭 스펙에 대강 비례해서 나옵니다. 메모리 대역폭은 다음과 같습니다.
- M1 68GB/s - M1 Pro 204.8GB/s - M1 Max 409.6GB/s - 3080 760GB/s - 3090 936GB/s 메모리 대역폭이 아니라 텐서 코어나 GPU 성능에 바운드 되는 경우, 성능은 대체로 코어 스펙상 성능을 따라가고, 자주 쓰이는 것만 적어보면 다음과 같습니다. INT8 M1 - 11 TOPS (Pro, Max 동일) 3080 - 238 TOPS 3090 - 284 TOPS FP16 multiply FP32 accumulate(M1은 이 부분 스펙이 따로 없어서 그냥 FP32인데 실제 차이도 대강 이 정도 납니다) M1 - 2.6 TFLOPS M1 Pro - 5.2 TFLOPS M1 Max - 10.4 TFLOPS 3080 - 59.5 TFLOPS 3090 - 71 TFLOPS 여기까지는 둘 다 GPU 쓰는 환경에서의 이야기이고, M1은 그냥 CPU 쓸 때가 많습니다(예: PyTorch).
21/10/31 07:35
자세한 답변 정말 감사드립니다!
보여주신 내용만 봐서는 M1 Pro로는 로컬머신으로서의 가치는 거의 기대하기 어렵다고 보면 될까요? M1은 그냥 CPU 쓸 때가 많다는 말씀은, Pytorch가 M1용이 안나와서 그렇다는 말씀이시죠? 그러면 올려주신 스펙을 통해서 예상할 수 있는 것보다 Pytorch는 더 낮은 성능을 보여준다고 생각하면 되는 걸까요?
21/11/03 19:49
쓸만한 속도가 나오는지는 구체적으로 어떤 모델과 데이터를 돌리시느냐에 따라 달라집니다. 일반적으로 학습용 내지 연습용 정도라면 별로 무리 없이 돌릴 수 있는데, 이건 사실 M1이 아니라 어떤 랩탑을 써도 마찬가지입니다. 반대로 진지한 모델/데이터라면 어렵습니다. PyTorch는 M1 GPU 대응이 안되기 때문에 CPU로 돌아가고(다른 것들도 M1에서는 이러는 경우가 많습니다. GPU 가속이 알아서 잘 작동할 확률이 가장 높은 환경은 x86 + nVidia GPU입니다), CPU로 돌아가면 일반적으로 GPU보다 현저히 느립니다.
|