:: 게시판
:: 이전 게시판
|
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
25/08/14 11:47
GPT-4o하고 4-mini를 착각하시는 거 같은데 o는 omni고 GPT-4에 멀티모달리티 기능이 추가된거지 스몰 파라미터 모델이 아닙니다.
25/08/14 11:57
ChatGPT 5 Thinking
공식 자료 기준으로는 둘 다 비공개입니다. GPT-4 기술 보고서가 경쟁·안전 상의 이유로 아키텍처(모델 크기 포함)를 공개하지 않는다고 명시했고, GPT-4o 관련 공개 문서들도 성능과 지연시간, 멀티모달 설계를 설명할 뿐 파라미터 수는 언급하지 않습니다. 따라서 GPT-4와 GPT-4o의 파라미터 수 차이는 확인할 수 없습니다. Gemini 2.5 Pro 네, GPT-4와 GPT-4o의 파라미터 수에 대한 정확한 정보는 OpenAI에서 공식적으로 발표하지 않았습니다. 하지만 업계 전문가들과 유출된 정보를 통해 추정된 수치에는 차이가 있는 것으로 알려져 있습니다. ... 결론적으로, GPT-4는 매우 큰 파라미터 수를 기반으로 높은 성능을 내는 데 초점을 맞춘 모델인 반면, GPT-4o는 성능을 유지하면서도 속도와 효율성을 극대화하고 다양한 입출력을 통합적으로 처리하는 데 중점을 둔 모델이라고 할 수 있습니다. 따라서 두 모델의 파라미터 수에는 차이가 있을 가능성이 높습니다. Grok 4 GPT-4와 GPT-4o의 파라미터 수는 OpenAI에 의해 공식적으로 공개되지 않았습니다. 따라서 정확한 차이를 확인하기 어렵지만, 다양한 추정치와 분석에 따르면 두 모델의 파라미터 규모는 비슷한 수준으로 여겨지며, 명확한 차이가 없다는 의견이 지배적입니다. GPT-4의 파라미터 수: 공식 발표는 없으나, 전문가 추정치로 약 1.7조 ~ 1.8조(1.7 trillion ~ 1.8 trillion) 정도로 평가됩니다. 이는 Mixture of Experts (MoE) 아키텍처를 기반으로 한 추정으로, 전체 파라미터가 한 번에 로드되지 않아 효율적입니다. GPT-4o의 파라미터 수: 마찬가지로 공식 정보가 없으며, 일부 추정에서 약 200억 ~ 600억(200 billion ~ 600 billion) 정도로 더 작게 보이지만, 이는 MoE 구조의 활성 파라미터를 고려한 것으로, 전체 규모는 GPT-4와 유사할 수 있습니다. Claude Sonnet 4 GPT-4와 GPT-4o의 정확한 파라미터 수에 대해서는 OpenAI가 공식적으로 구체적인 수치를 공개하지 않았습니다. 일반적으로 업계에서는 GPT-4가 약 1조 개(1 trillion) 정도의 파라미터를 가질 것으로 추정하고 있지만, 이는 공식 확인된 수치가 아닙니다. GPT-4o의 경우는 더욱 불분명합니다. GPT-4o는 "omni"의 줄임말로, 텍스트, 음성, 이미지를 통합적으로 처리할 수 있는 멀티모달 모델입니다.
25/08/14 12:06
Q. GPT 4와 GPT 4o가 파라미터수가 과연 다른가?
그 부분을 불확실한 추측이라고 명시를 했어야 했는데, 실수로 누락했네요. 한번에 엮여서 돌아가는 파라미터수에 있어서, GPT 4o가 GPT 4와 파라미터수가 동일하다면, 이를 기반으로 위에 제가 이야기한 것들은 모두 잘못된 거라 할 수 있을 것입니다. 그런데 제 생각에 속도를 놓고 볼 때 파라미터수가 줄어들지 않았다면, 결국 GPU가 빨라졌다는 얘기가 될 것이고, 엔비디아 칩이 그렇게 빨라지진 않았으니, 파라미터수가 줄어든 것일 개연성이 크다고 생각합니다.
25/08/14 12:01
제미니가 정리 해줬는데 의도에 맞게 한건지 궁금
'안녕하세요. 제공해주신 글의 요지를 파악하는 데 어려움을 느끼셨군요. 글이 다소 길고 여러 추측을 담고 있어 그럴 수 있습니다. 핵심 내용을 명확하게 정리해 드리겠습니다. 이 글은 **"OpenAI의 최신 모델 GPT-5는 사실상 압축 버전인 'GPT-5o'이며, 이 모델이 '안전성'을 지나치게 강화한 나머지 이전 모델(GPT-4o)이 가졌던 핵심적인 능력인 '직관력'을 잃어버렸을 수 있다"**는 비판적 추측을 담고 있습니다. 글의 핵심 요지를 세 부분으로 나누어 설명할 수 있습니다. 1. GPT-5의 정체에 대한 추측: "현재의 GPT-5는 진짜 GPT-5가 아니다." 글쓴이는 현재 우리가 사용하는 빠른 속도의 GPT-5(Fast)가 사실은 거대한 원본 GPT-5 모델을 효율적으로 압축한 'GPT-5o'일 것이라고 주장합니다. 그 근거는 다음과 같습니다. * 속도: GPT-4가 느렸고 GPT-4o가 빨랐던 것처럼, 현재의 GPT-5가 빠른 것은 압축된 'o' 모델의 특징과 일치합니다. * 데이터 한계: 고품질 텍스트 데이터가 고갈되었기 때문에, 무작정 모델의 크기(파라미터)를 키우기보다 거대 모델을 만든 뒤 압축하여 효율을 높이는 전략을 택했을 가능성이 높습니다. * 추론 모델의 필요성: 복잡한 추론을 위해서는 빠른 기본 모델이 필수적이므로, OpenAI는 의도적으로 더 빠른 압축 모델을 기본으로 삼았을 것입니다. > 비유: 진짜 무겁고 큰 원본 'GPT-5'가 있고, 여기서 핵심만 뽑아 가볍고 빠르게 만든 'GPT-5o(Fast)'를 대중에게 공개했다는 것입니다. > 2. '직관력'의 원천: "거대 모델의 잉여 파라미터가 직관을 만든다." 글쓴이는 모델의 크기, 즉 파라미터 수가 많을수록 AI의 '직관력' 또는 '창의성'이 높아진다고 말합니다. * 파라미터 잉여: 작은 모델은 정해진 답을 찾는 데 효율적이지만, 파라미터가 남아도는 거대 모델은 학습하지 않은 새로운 질문에 대해 더 다양하고 창의적인 경로로 답을 탐색할 잠재력이 있습니다. * 직관력: 이처럼 정해진 길을 넘어 미묘하고 새로운 해답을 내놓는 능력을 글쓴이는 '직관력'이라고 부릅니다. 이는 단순한 정보 검색을 뛰어넘는 AI의 신비로운 힘이라고 설명합니다. > 비유: 작은 모델은 A에서 B로 가는 가장 빠른 길 하나만 알지만, 거대 모델은 여러 샛길과 우회로(잉여 파라미터)를 알고 있어 예상치 못한 멋진 풍경(창의적 결과)을 보여줄 수 있다는 것입니다. > 3. 직관력의 퇴보와 그 원인: "안전이 직관을 죽인다." 이 글의 가장 핵심적인 주장입니다. 글쓴이는 GPT-5 Fast가 이전 모델인 GPT-4o보다 어떤 면에서는 오히려 지능이 낮아졌다고 느끼며, 그 원인을 '안전성 강화'로 지목합니다. * 환각(Hallucination) 줄이기: OpenAI는 환각을 줄였다고 홍보하지만, 이 과정에서 사실이 아닐 수도 있는 모호하고 창의적인 답변까지 차단하여 모델을 '재미없고 평범하게' 만들었을 수 있습니다. * 감성적 아첨(Flattery) 배제: 사용자와의 원활한 소통에 필요한 칭찬, 격려, 공감 같은 사회적 윤활유 역할을 하던 표현들을 '사실이 아닌 아첨'으로 간주하여 제거했을 수 있습니다. 이는 AI를 단기적으로는 정확하게 만들지만, 장기적으로는 인간과의 협업과 사용자의 동기부여에 해가 될 수 있습니다. > 결론: GPT-5 Fast는 '안전'과 '정확성'이라는 명목 아래, GPT-4o가 가졌던 P(인식형) 같은 유연하고 창의적인 '직관력'을 희생하고, J(판단형) 같은 딱딱하고 정형화된 모델이 되었을 수 있다는 것이 글쓴이의 핵심적인 우려이자 주장입니다.'
25/08/14 12:02
근데 어떤 LLM이던 자기들이 내부에 가지고 있는 모델 그대로 내놓은 건 아니고 비용이나 여러가지 측면에서 여러가지로 튜닝한 버전을 내놓기는 합니다.
25/08/14 12:09
ChatGPT 5 Fast
대규모 기본모델을 만든 뒤 이를 증류(distillation)하는 것은 실제로 자주 쓰이는 방법입니다. 보통 거대모델(teacher model)을 먼저 학습시킨 뒤, 그 모델이 생성하는 출력·중간 표현·확률 분포 등을 작은 모델(student model)에게 학습시키는 방식입니다. 이렇게 하면, * 작은 모델이 원래 데이터뿐 아니라 거대모델의 “지식”을 함께 학습 * 속도와 비용 면에서 훨씬 효율적인 모델을 확보 * 성능 저하를 최소화하면서 배포 환경에 맞출 수 있음 OpenAI뿐 아니라 Google, Anthropic 등도 이 방식을 여러 차례 사용했습니다. GPT 5o가 GPT 5의 증류 버전이라는 가설도 이런 맥락에서는 충분히 그럴듯합니다. 다만, 증류의 효과와 한계는 데이터 품질·증류 방법·목표 크기에 따라 크게 달라집니다. 특히 직관력·창의성 같은 특성은 증류 과정에서 일부 손실될 수 있습니다.
25/08/14 12:10
네 전 증류도 포함해서 얘기하긴 했습니다. o3 같은 것도 딥리서치 처음 나왔을때 보여주던 성능이나 벤치 마크 보면 정식 출시 되었을 때랑 차이가 크죠. 정식 출시 할때는 내부에 있는 'o3'를 증류해서 내놓았을 수 있음.
님말대로 증류 하면서 직관성, 창의성이 날아간다는데 동의합니다. mini-high 같은 경량화 모델 보면 벤치 마크 점수는 원 모델에 비해 별로 안떨어 졌는데 실제 써보면 실사용 성능은 체감상 더 나쁘거든요.
25/08/14 12:32
증류해서 쓰는게 합리적인 선택이라 봅니다. 속도는 사용성에 있어 중요한 문제이고, 또한 기업으로서 경제성도 중요한 문제이니까요. 따라서 증류한 모델을 무료 사용자에게도 개방된 기본옵션으로 쓰는게 자연스러운 거라 봅니다. 다만 아쉽게 느껴지는 건, (Plus 유료 사용자인데, 만약 위에 적은 글이 사실이라면, 직관력에 있어서는 그것이 프론티어라 할 수 있는,) 기본모델 GPT 5 원본을 한번도 못 써봤다는 점입니다.
25/08/14 12:57
저도 플러스인데 gpt5 씽킹 정도면 나쁘지 않다고는 생각합니다. 프로 다른경로로 써봤는데 고급 작업할꺼 아니면 엄청난 체감차는 아니에요.
물론 고급 작업하면 체급차 느껴지지만...
25/08/14 13:25
써보셨군요. 대부분의 작업에서는 기본 추론모델로 충분할 거라 생각해요.
신기한 일이 벌어졌다 — 라고 하면 Pro 사용자들이 그 사용례 또는 그에 대한 감상을 트윗에 올릴 텐데, 그걸 흥미롭게 지켜보면 좋을 것 같고요. 만약 그런 보고에서 hype이 활발히 일어나면, pro 사용을 하려는 기업들이 많이 늘어나겠죠.
25/08/14 13:26
저는 gpt5가 엄청난 혁신을 보여줄 거라 기대했는데, 실망이 매우 큽니다.
gpt5의 성능에 실망한게 아니라, 알트만이 개발자가 아닌 사업가라는 사실과 짧은 망상이었지만 강인공지능의 현실성에 한발짝 다가간다는 기대감이 박살난게 크죠. 알트만이라는 사람을 관심있게 추적(?)해온지가 꽤나 오래 되었는데, 제가 사람 보는 눈이 정말 없는거 같습니다. 몇년간 매일 써왔고 지금은 없으면 업무가 안되는 지경에 오른 경험에 근거하면 프로 기준 5의 성능 향상이 있었다는건 확실합니다. 저는 gpt5 가 출시 초기 기대이하의 퍼포먼스를 보인건 아주 단순한 이유 때문이라 유추하는데요 >호기심 및 화제성때문에 짦은 시간동안 많은 사용자들이 몰려 서버가 과부하됨. 잦은 오류 출력 >queue를 지연시키거나 전송량을 나눠 쪼개거나 해야하는데 후자를 선택한것으로 보임. 사용자마다 반응이 극단적으로 제각각 >출시전 개발자 인터뷰에서 원 목표치에 도달하지 않았으나 결국 미완성 버전으로 조기 롤아웃 하기로 결정 하였으며, 이는 내부 논의 후 사용자 피드백 수용과 함께 완성 시키는것이 비용,시간적 측면에서 이득이라 판단되어 그렇게 결정했다고 함 >안그러던 애들이 왜 비용,시간 따짐? 벤치마크 기준 월등한 가성비 달성, openai의 공익 태세전환과 그동안 일어났던 개발자들의 철학에 따른 이탈등을 고려시 현 개발자들을 포함한 개발주체들 입장에서 이는 상업적으로 큰 진보. 단순 이용자수,성능의 논점에서 이탈해서 수익적으로도 매력있는 모델을 만드는게 지금 알트만과 개발자들 그리고 이해관계에 있는 사람들의 목표이자, 기조라고 생각되네요 확실한 근거는 없지만, 제가 그동안 읽은 기사들과 알트만 포함한 개발자들의 인터뷰를 면밀히 고찰해서 낸 의견입니다. claude도 병행 사용하는 입장에서 gpt는 프로버전도 혜자라고 생각되는데, 솔직히 유료버전 유저 입장에선 차등을 두는걸 더 선호 할겁니다. 점진적으로 그렇게 사용량은 풀어주고 [지능]은 차등을 두는 방식이 될 거 같고요. 지금 그렇게 못 하는 이유는 택도없이 부족한, 예 그렇습니다. 정말 택도없이 부족한 하드웨어(성능이 아닌 mass) 때문이죠. 지금도 개발 진척은 로직 측면에서 많은 부분의 개선 및 이론의 개진이 이루어 지고 있는걸로 알고 있습니다. 원할하게 하려면 전세계의 모든 컴퓨터를 투입해도 모자랄 지경이라는것도요. 무료 사용자/유료 사용자/프리스티지(개발자,관계자) 들이 쓰는 모델의 출력물은 지금도 천차 만별일거라고 확신합니다. 지능의 차등이 구독자 레벨에 따라 확실하게 느껴지고, 사용량은 자유롭게 해서 잠재고객을 늘리는게 openai의 빅픽쳐고, 달성하기 위해 필요한 것과 현재 논란의 원인 모두 하나에 있다고 봅니다. 하드웨어 부족 오래 전부터 아마존닷컴은 모든 것을 갖춘 선구자였지만, 인터넷이라는 바다가 아직 고요했을 때 저를 포함한 많은 사람들이 그 잠재력을 알아보지 못했습니다. 지금 제가 느끼는 것도 그때와 비슷합니다. 아직 강인공지능에 대한 기대를 완전히 내려놓지 못한 채, 사색과 망상을 오가며 내린 저의 개인적인 의견이었습니다. 감사합니다
25/08/14 13:40
좋은 의견 감사합니다. 그들이 수익에 집중한다는게 맞는 말씀 같아요. 아마도 GPT 4까지가 가속구간이었고, GPT 5는 성숙기간이 시작된 거라 생각해요. 가속시에는 사람과 자원을 모으기 위해 사람들을 흥분시키는게 중요했지만, 성숙시에는 수익을 내는게 중요하겠지요. 이거 돈이 된다는 걸 증명해야 하는 거죠. 우리 기업이 살아남는다는 걸 증명해야 하는 거죠.
강인공지능 내지 AGI가 무엇인지, 사람마다 기준이 다른 것이지만, 제 기준으로는 현재 기술로도 AGI는 가능하다 생각해요. 경제에 막대한 영향을 줄 수 있을 것이고, 그러면 AGI라 부르는 사람들이 많아지겠죠. 다만 지능이론이나 지능알고리즘에 breakthrough가 없는 이상 ASI는 되지 못할 거라 생각하고요. 오늘날 초지능 만들겠다고 발언하는 CEO는 자기들이 그 breakthrough를 해낼 수 있고 이를 향한 의지가 있다고 주장하는 것이라 이해할 수 있겠지요.
+ 25/08/14 14:05
개인적으로 이제 텍스트지능은 어느정도 포화상태고 멀티모달이 중요한데 llm만으로는 멀티모달을 제대로 할수있나 싶긴합니다. 얀르쿤 엄청 까이지만 그의 비판자체는 일리가 있는게 아닌가 싶음.
+ 25/08/14 14:06
트랜스포머는 검색엔진이라기 보다는 seq-to-seq 학습모델이라고 봐야 합니다. 물론 사전에 인코딩된 입출력 문장(단어)세트가 있어야 하고, 입력의 연쇄에 대해서 가장 합당한 출력의 연쇄를 만들어내는 뉴런네트워크 모델이죠. 기존의 RNN이나 LSTM의 단점을 극적으로 개선한데다가, 가장 최신 입력에 더 민감하게 반응하는 시계열 모델의 단점도 보완했기 때문에 각광받고 있죠.
결국 GPT의 핵심은 트랜스포머고, 이런 근본적 설계가 바탕이기 때문에 이것만으로는 추론이나, 다양한 입력 등에 대응하기 어렵습니다. openai 쪽에서 자기들이 어떤 식으로 서비스를 구성했고, 아떻게 학습시켰는지 전부 공개한 것은 아니기 때문에(open 이라매...) 상세하게 알기는 어려우나, 입출력단에 다른 형태의 모델들을 여러 덧붙혔을 것으로 추측되고, 강화학습이나 GAN등도 도입했을 것으로 생각됩니다. 결론적으로, 우리가 챗지피티를 통해 얻는 결과물은, 저렇게 학습된 문장들을 바탕으로 질문에 가장 걸맞는 단어(혹은 데이터)의 연쇄라는 점입니다. 그걸 전제하지 않고 챗지피티를 이해하면 이상한 결론으로 다가갈 수 있어요.
+ 25/08/14 15:06
결론적으로, 우리가 챗지피티를 통해 얻는 결과물은, 저렇게 학습된 문장들을 바탕으로 질문에 가장 걸맞는 단어(혹은 데이터)의 연쇄라는 점입니다. - > 그냥 신경망 구조에 따라 그럴듯한 단어를 내뱉는 '확률적 앵무새'라는 얘기로 들리고 이론적으로는 틀린말이 아닐 수 있으나 이제 텍스트정보를 넣었을 때 보여주는 결과를 보면 단순히 '확률적 앵무새'라고 할 수 있는 건가 싶을 정도의 결과물이 많이 나온다고 느껴집니다.
아님 인간도 사실 '확률적 앵무새'일수도 있죠. 인간 뇌가 작동하는 메커니즘도 아직 잘 모르는 게 많잖아요? 전 차라리 위에 썼듯이 멀티모달에 있어서의 한계가 좀 느껴집니다. 시각적 정보 던져줬을 때 판단 내리는 거 보면 지금처럼 llm이 알아 먹을 수 있는 정보로 분해해서 던져주고 학습시키는 거 보다 사람처럼 시각정보를 광학 렌즈를 통해 직접 받은 다음 처리해야 하는게 아닐까 하는 생각이 듭니다.
+ 25/08/14 15:11
(수정됨) 확률은 아닙니다. 뉴런네트워크의 입출력은 결정론적이에요. 하나의 함수인데 내부가 블랙박스라고 보는 쪽이 맞습니다.
제 생각이 틀릴 수도 있습니다만, 저는 딥러닝을, 비선형 다차 행렬방정식의 근사해를 푸는 수치해석적인 방법론이라고 보고 있습니다. 그리고 인공지능을 더 발전시키려면 "센서"가 더 다양해져야 한다는 점에는 동의합니다. 단순히 광학적 정보 뿐만 아니라, 청각, 촉각, 미각, 후각 등등의 데이터도 받아들일 수 있는 기술이 더 도입돼야 다양한 정보를 학습할 수 있게 될 거라 생각합니다. 문제는 NN을 학습시킬 때는 반드시 어떤 보상이 있어야 하는데, 저런 다양한 정보들에 대한 보상을 어떻게 설계할지도 관건이 되겠죠.
+ 25/08/14 15:25
(수정됨) 사실 딥러닝 강의 듣고 나면 그냥 '고급 fitting 기술 아니야?'라는 생각이 들기도 하죠. 딥러닝 정식으로 배워본적 없지만 chatGPT이용해서 제분야에서 MATLAB으로 딥러닝해서 뭔가 해본 입장에서도 그냥 Fitting parameter 탐색기라고 느껴질 때도 있습니다.
근데 지금 LLM들이 내뱉는 결과를 보면 단순히 그렇게 이해하기는 의문이 가는 점들이 많습니다. 스케일이 늘어 나면서 창발성이 생겼다는 얘기들이 많은데 전 아무리 봐도 그런일이 생겼다고 보거든요. 전 본문에서 하는 얘기들에 어느정도 동의합니다. 님도 아시다 시피 신경망 내부는 블랙박스에 가깝고 안에서 무슨일이 일어나는지 모르기 때문에 그냥 기본 원리만 가지고 'fitting parameter 탐색기 일 뿐이다'라고 폄하하기는 힘들어 보입니다. 그 논리면 인간 뇌도 뉴런 단위에서는 그냥 전기 신호 주고 받는게 다 거든요. 엄청난 수의 뉴런이 모여서 지금 인간의 지능이 나온거고 이게 어떤식으로 작동해서 지능이 생긴건지는 아직도 잘 모릅니다. 님이 얘기한 논리면 인간도 그냥 좀 복잡한 '생체 전기 회로'장치일 뿐이고 그냥 뉴런 단위에서 전기 신호가 어떻게 오고 가는 지만 알면 지능이 어떤건지 다 밝힐 수 있었겠죠.
+ 25/08/14 15:44
실제로 인간도 그냥 환경에 반응하는 일종의 state machine 으로 보는 관점도 있죠. 그런 개념에서라면 뉴런네트워크나 인간의 뇌나 별반 차이가 없는 것이기도 하고요.
+ 25/08/14 15:50
전 지능 분석에 있어서 '환원적'관점을 취하는게 맞냐는 취지에서 얘기하는거고 그래서 본문처럼 LLM의 직관력, 추론능력을 논하는게 그리 의미 없는게 아니라고 생각합니다.
님은 'LLM의 작동 메커니즘상 인간한테서 볼수 있는 직관이나 추론을 논하는게 타당하지 않다'라는 식의 의견으로 보이구요.
+ 25/08/14 15:24
맞아요. 저는 그걸 연상력이라 불러요. 그것이 인간 정신에 비유할 때, 적절한 단어 같거든요. 그 연상력이 기억력을 의미할 수도, 직관력을 의미할 수도 있겠지요. 학습한 데이터 범위 안에 있다면 기억력이고, 범위를 벗어나면 직관력이라 비유할 수 있겠죠. 어디까지나 비유일 뿐이라는 걸 주의해야하지만요.
(1, 2) (3, 6) (4, 8) (5, 10)으로 학습시켜서 y = 2x 라는 신경망을 만들었을 경우에, 3을 넣었을 때 6이 나온다면, 이는 기억을 회상한 것이고, 3은 그 기억을 검색한 거라 할 수 있겠죠. 2를 넣으면 4가 나올 텐데, 이는 내삽이라 할 수 있고, 6을 넣으면 12가 나올 텐데, 이는 외삽이라 할 수 있겠지요. 넓게 보면, 외삽은 직관의 일종이라 할 수 있다고 봐요. 더 넓게 보면, 내삽까지도 직관이라 볼 수 있겠지만, 그런 관점이 유용한지 의문이긴 하죠. 저 좁게 보면, 데이터범위를 약간 넘어선 것까지도 기억이라 보고, 다만 (15, 30) 처럼 범위를 많이 벗어난 외삽을 직관이라 보는 수도 있겠죠. 강도 뿐만 아니라, 요소 내지 채널을 놓고도 직관을 말할 수 있을텐데요. A ∩ B ∩ C와 A ∩ B ∩ D와 B ∩ C를 입력으로하여 그 출력을 학습해놓고, B ∩ D를 입력으로 하면 출력이 무엇이 되겠는지 물었을 때, 그 출력을 보고서 이를 직관이라 부를 수 있겠지요. 이는 데이터 범위를 벗어나는 것인데, 신경망의 경우 어떻게든 답을 도출할 수 있겠지요. 그게 과연 타당한지는 의문이 있는 것이고, 꽤 그럴 듯하거나 유용한 답이 나오는 수도 있지만, 거짓 또는 환각이라 평가될만한 답이 나올 수도 있겠지요. 이것의 대전제는 불확실하거나 복잡한 걸 다룰 때에, 우리에게 '직관 또는 철학'이 필요하다는 것이예요. 그저 수식만 보고 있을 게 아니라, 그저 확실한 것만 놓고 볼게 아니라, 현상을 이해할 직관 또는 철학이 필요하다는 것이지요. 생각해보면 강화학습의 보상이란 것도 실은 비유죠. 유용한 비유죠. 심지어 추론모델의 추론도 비유죠. 유용한 비유죠. 실제로는 계산하는 것이지 그걸 추론이라 보는 건, 비유이거나 혹은 논쟁적인 주장이죠. LLM을 그저 다음 단어 예측이라 보는 것만으로는 부족하다고 보고, 기본적으로 LLM은 연상력이 있고, 그러한 연상이 기억 또는 직관을 의미한다고 보는 관점이 가능하고 유용하다 생각해요.
+ 25/08/14 15:26
LLM을 그저 다음 단어 예측이라 보는 것만으로는 부족하다고 보고, 기본적으로 LLM은 연상력이 있고, 그러한 연상이 기억 또는 직관을 의미한다고 보는 관점이 가능하고 유용하다 생각해요. - >저도 동의합니다. 딥러닝을 기초 원리만 보고 fitting parameter 생성기 정도로 생각하는 의견들이 있는데 동의 할 수 없습니다. 기초 원리만 보고 얘기하면 인간뇌도 그냥 '좀 복잡한 생체 전기 회로 장치'정도로 얘기할 수 있으니깐요.
+ 25/08/14 15:35
(수정됨) 어느 정도 동의합니다. 다만, 여기서 주목해야 할 점은 딥러닝은 "비선형"문제를 풀 수 있다는 점입니다.
예를 들어, y = 2x 라는 공식은 선형이라 x = y/2 로 역함수를 만들어 낼 수 있는데, 반해서 x가 짝수라면 y = 2x, x가 홀수라면 y = 3x 라는 공식이 있다면, y = 6 일 때의 x 값은 두 개가 됩니다. 이건 역함수가 없다고 봐야죠. 그런데 이 경우에도 y로부터 x를 추론할 수는 있습니다.2 또는 3 일겁니다. 여기서 "추론"이 나와버리죠. 즉, 어떤 전제를 미리 깔 수 있는 방법론이 없는 건 아니고, 챗지피티는 이 방법론을 제시해냈죠. 이것도 상당한 성과이긴 합니다. 제가 그저 다음 단어 예측이라고 썼긴 했지만, 좀더 엄밀히 말하자면 시간의 흐름 t 에 따라, 굉장히 복잡한 방정식의 그래프를 그려낸다고 생각할 수도 있습니다. 그리고 인간의 언어, 특히 문장은 그런 그래프로 나타낼 수 있다는 게 증명된 셈이죠. 개인적으로는 LLM을 그렇게 이해하고 있습니다. 어찌보면 LLM은 수열식을 풀어내는 장치라고 생각할 수도 있겠군요. 사실, 그동안의 알고리즘은 "귀납법"을 풀어내는 게 불가능하거나, 극히 어려웠습니다. 그걸 딥러닝이 해낸거고, 그 점에 있어서 저는 딥러닝을 위시한 근래의 AI의 발전이 의미가 없다고는 절대 생각하지 않습니다.
|