:: 게시판

:: 이전 게시판

- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.

Date	2025/02/01 14:14:25
Name	Quantumwk
File #1	수능29.png (23.3 KB), Download : 156
Subject	[일반] AI가 수능 수학 킬러문제도 맞추네요 (수정됨)
https://ppt21.com/freedom/103651 삭게로! open AI가 딥시크에 자극 받았는지 수학-코딩이 대폭 강화된 O3-mini-high를 예상보다 빨리 내놓았습니다. (어제 새벽) 혹평도 있지만, 수학-코딩은 엄청난 향상이 있었다고 해서 올해 수능 킬러문제 풀려 봤는데 정답을 맞췄습니다. 예전 버전은 뒷걸음 질 치다가 우연히 맞추는 경우는 있었지만 풀이가 틀렸거나, 아예 엉뚱하게 풀었는데 이번에는 어느정도는 제대로 푸는 느낌.(유튜브로 풀이 보니까 쓸데 없이 복잡하게 풀긴함) 푸는 시간은 36초 걸렸습니다. 풀이 쓰는데 한 3~4분 걸렸고 메가 스터디 가보니 난이도 최상으로 분류 되어있고, 정답률은 21프로로 올해 수능 수학에서 3번째로 어려운 문제입니다. (미적분 기준) 수학강사 유튜브 풀이만 봤을 때에는 아주 어려운 문제는 아니긴 하지만, 시험장에서 제한되어있는 시간내에 풀기에는 만만치 않은 문제임. 이제 이런 류의 수학은 안 한지 오래되서 그냥 시간 주고 풀라고 하면 풀어도 시험장에서 풀라고 하면 시간내에는 못 풀었을 거 같네요. 하지만 이제 AI 님한테는 36초짜리 문제일 뿐이네요.... 풀이과정은 인간에 비해서는 좀 비효율 적인 느낌이 있고 너무 길어서 문제만 이미지 따고 풀이는 링크로 겁니다. 딥시크에 자극 받았는지 cot (chain of thought)도 앞에 집어 넣어줬네요. o3-mini-high 풀이 https://chatgpt.com/share/679dad31-36cc-8000-8481-b4c68e3062c0 수학 강사 풀이 ps. o3 풀이를 다시 검토해보니 오류가 하나 있습니다. 수학 강사님의 풀이 마지막이랑 o3의 풀이 마지막이랑 비교해보니 약간 값 차이가 나서 검토해보니 o3에서 무한급수 계산할때 오류를 범한거 같네요. 무한 급수 summation index의 끝값이 2n이라 그냥 무한대로 취급하면 안될 텐데 그냥 무한대를 대입해버리고 계산 했습니다. 끝값이 n이었다면 맞겠지만 2n이기 때문에 똑같지 않을 텐데 lim n -> 무한대라고 2n을 그냥 무한대 취급하고 계산해 버렸고, 수학강사 풀이와 좀 달라져 버렸음. 훨씬 비효율 적으로 풀기도 했구요. 결국은 이번에도 뒷걸음 치다가 맞았기는 했음. 그래도 대수 분야에서는 어느 정도 감 잡고 거의 정답에 가깝게 푼다고 봐야 합니다. 실제 풀이랑 소수점만 다른 정도이고, 어차피 부등호 문제라서 답을 맞추는 데에는 문제는 없었음. 근데 만약에 급수의 값을 물어 보는 문제 였다면 오답이긴 했을 듯 합니다. 어쨌든 중요한건 사칙연산도 제대로 못하던 2년전에 비하면 발전속도가 엄청 나고 올해 늦어도 내년 중에는 수능 수석도 가능하지 않을 까 싶습니다.

통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."

데몬헌터

해시 아이콘

25/02/01 14:50

컴퓨터가 가장 강한 분야가 계산이죠. 다들 울브램알파는 몰라도 계산기는 쓰잖아요?(지금까지는 돈받고 로그를 팔았지만요..)

Quantumwk

해시 아이콘

25/02/01 14:53

(수정됨) 수학 강사 풀이 보니 o3가 무식하게 푼 느낌은 있습니다. o3는 an을 구한 후 집어넣고 직접 계산했는데 수학강사들 풀이보면 그렇게 할 필요가 없더군요. 그리고 다시 검토해보니 오류가 하나 있습니다. 이번에도 뒷걸음 치다가 맞은 게 맞기는 함. 그래도 이제는 대수 분야에서는 어느정도 감 잡고 거의 정답에 가깝게 푸네요.

어쨌든 간단한 사칙연산도 틀리던 2년 전쯤에 비하면 장족의 발전이죠. 발전 속도가 무시무시하고 올해, 늦어도 내년 정도에는 AI가 수능 수석 충분히 할 수 있지 않을 까 하는 생각도 듭니다.

사다드

해시 아이콘

+ 25/02/01 15:02

29번은 킬러문항이 아닙니다. 또한 올림피아드 문제에 대한 AI의 능력은 이미 알려져 있고요. 다만 미적분, 수2의 그래프 관련 킬러문항은 AI가 어떻게 접근하는지, 어떻게 해결하는지가 궁금하네요. 잘 푸는 것보다 잘 가르치는 것이 중요한 영역이라 조금은 다르게 접근할 필요는 있어보입니다.

Quantumwk

해시 아이콘

+ 25/02/01 15:05

(수정됨) 요즘 수능 수학에 대해서 잘 모르고 그냥 메가스터디 통계 보니 정답률 하위 3위라 킬러 문항이라고 생각했습니다. 킬러문항의 기준을 잘 몰라서....

아직은 문제에 따라 헤메는 경우도 많다 합니다. 기하 문제 30번 풀게 해봤는데 틀리더군요. 그냥 현재 AI의 발전상을 소개 하는 측면에서 써봤습니다. AI가 얼마나 똑똑해졌는지를 한국사람들한테 가장 확 와닿게 하는 것 중 하나가 수능 문제 푸는 거 보여주는 거니깐요.

그리고 o3 풀이를 다시 검토해보니 오류가 하나 있습니다. 이번에도 뒷걸음 치다가 맞았기는 했음. 그래도 대수 분야에서는 어느 정도 감 잡고 거의 정답에 가깝게 푸네요.

그렇군요

해시 아이콘

+ 25/02/01 15:02

수포자는 웁니다 ㅠ

사업드래군

해시 아이콘

+ 25/02/01 15:15

근데 O1 PRO로 초등학교 약간 어려운 수학문제 올려서 풀어보게 했는데 풀이과정의 논리가 이상해서 이게 맞아? 할 때마다 답을 다르게 내놓더라고요. 저만 그런 경험을 하는지는 몰라도 저는 아직 완전히 신뢰를 하지 못하겠더라고요.

Quantumwk

해시 아이콘

+ 25/02/01 15:18

(수정됨) 사람들 평으로는 계산으로 때려 박는 대수 문제는 잘 풀고 함수, 기하 이쪽은 아직도 좀 해메는 듯 합니다. 이 문제도 풀이과정 검토해보니 오류가 하나 있었는데 소숫점 차이만 나고 어차피 부등호 문제 답을 맞추는 데에는 문제가 없었지만 무한급수의 정확한 값을 물어 봤으면 틀렸을 거에요.

그리고 이번에 나온 o3가 언어를 너프 시키고 수학 쪽을 특히 강화 시킨거라 (언어쪽에서는 혹평이 많음) 언어에 강점이 있는 o1 pro는 더 오류가 많이 날꺼에요. o1 PRO는 대신에 언어는 이제 거의 다 맞춘다고 하더군요.

전기쥐

해시 아이콘

+ 25/02/01 15:26

컴퓨터는 단순 사칙연산에 강하고 언어능력이 떨어지는 거라는 게 일반 상식이었는데 지피티는 그 반대인 거 같아요. 이번 버젼은 본문처럼 한번 테스트해보고 판단해야겠네요.

Quantumwk

해시 아이콘

+ 25/02/01 15:28

제가 흥분해서 좀 급하게 올렸는데 여러 사람들의 평이나 제가 다른 문제로 테스트 해본 결과로 보면 아직은 부족한 면이 있습니다. 다시 검토해보면 이 문제도 좀 운이 좋아서 맞춘거고(이전처럼 완전히 쌩뚱맞게 풀었는데 우연히 맞춘건 아니라 한 군데 실수가 있던거지만....), 함수나 기하 문제는 완전 핀트 잘못 잡는 경우가 꽤 있어요.

그래도 엄청난 발전이고, 수능 수석급이 되는데에는 긴 시간이 걸리지 않을 것이 확실해보입니다.

포스

해시 아이콘

+ 25/02/01 15:31

저도 문제 몇개 넣고 돌려봤는데 수능 문제 학습한거 같습니다. 풀이 다 틀리고 정답만 맞추는 경우가 자주 있어요.

Quantumwk

해시 아이콘

+ 25/02/01 15:33

(수정됨) 이 문제는 학습했다기 보다는 (학습했다기에는 비효율 적으로 품) 설명 했듯이 부등호 문제라 약간의 오류가 있어도 답 맞추는 거에는 문제가 없었던거였습니다. 비효율적으로 풀어서 그렇지 이전 처럼 완전 엉뚱한 풀이는 아니네요. 무한 급수 처리하는 과정에서 오류하나가 있었을 뿐 거의 정답에 근접하게 풀었고, 부등호 문제여서 답도 맞췄습니다.

그리고 기하나 함수 문제는 아예 답도 틀리고, 풀이도 엉뚱하게 합니다.

어쨌든 수능 수석급이 되는 데에는 오랜 시간이 걸리지는 않을 거 같습니다.

pnr23

해시 아이콘

+ 25/02/01 15:47

주장에 대한 근거가 명확하다면야
사람들이 그것에 대해 동의도 하도, 납득도 하겠지만

그냥 계속 수능 수석만 외치고 있는 상황을 보니까
좀 당황스럽네요

어느 부분에서 그렇게 강한 흥분을 느꼈는지 전혀 모르겠습니다
악의적으로 쓴 댓글은 아닙니다

Quantumwk

해시 아이콘

+ 25/02/01 15:58

(수정됨) GPT 2년 전 버전 만 해도 간단한 사칙연산도 다 틀리는 수준이었습니다.... 그리고 언어쪽에 더 강점이 있는 o1 pro의 경우는 이미 수능 언어영역 대부분 맞추고 있구요.

이 문제도 메가스터디상에서는 난이도 '최상'으로 분류된 문제고 정답률 20프로대인데 맞췄습니다. 풀이 검토해보니 좀 비효율 적으로 풀었고 오류도 있었지만 값 차이가 거의 없었고 부등호 문제라서 답 맞 추는데에는 문제가 없었음. 심지어 이건 o3-mini 버전으로 아직 릴리즈 안된 o3에 비해서는 많이 너프된 버전입니다. 이 정도 발전 속도면 수석급이 되는 데에는 그리 오랜 시간이 걸리지 않을 거라고 추론 할 수 있죠.

사실 어제 o3-mini 나오기 전 논문에서 수학 올림피아드 문제에서 보인 성과 들만 봐도 (윗 댓글에도 올림피아드에 대한 언급은 있었음) 충분히 예측은 가능한건데 우리한테 가장 잘 와닿는 건 수능 문제 푸는 거이기에.....

Quantumwk

해시 아이콘

+ 25/02/01 15:59

(수정됨) 지금 정도의 결과로 수능 수석급이 되는게 아무 근거가 없어보여서 당혹 스럽고 함부로 추측하는 게 잘못되었다면 2년전에 간단한 사칙 연산도 다 틀리는 gpt를 보고 2년내에 지금 정도 레벨에 도달한다고 말하는 것도 굉장히 당혹스럽고 근거 없는 잘못된 추측에 불과했겠죠.

pnr23

해시 아이콘

+ 25/02/01 16:41

사실 아까 전에 댓글로 쓰려다가, 너무 비아냥 거리는 거 같아서 그냥 지운 내용인데

그래도 수능 문제 굳이 찾아보고, 무슨 문제들 있나 살펴볼 정도면
객관식/주관식 정답률이 어느 정도 느낌인지는 알고 있지 않나요?

가형 나형 전부 섞은 표본 기준으로, 주관식 정답률 20%면 진짜 말도 안 되게 높은 겁니다
좀 더 와닿게 말하면, 가형 4등급 학생들도 저 문제 맞춘다는 말입니다
이거는 수능 제도가 바뀌고 말고 하기 전에, 30년전 응시하셨던 현재 50대 분들도 다 아는 내용이지 않을까요

아니 정답률을 따지기 전에, 무슨 문제인지 한 번 직접 풀어보세요
저도 도대체 저게 뭔 문제인가 싶어서 한 번 a4 용지 꺼내서 풀어보고, 버벅거리긴 했지만 답이 나왔는데
시간만 있으면 무슨 최첨단 ai가 아니라 그냥 지극히 평범한 일반 사람들도 다 맞히고 바로 다음 문제 넘어가는 난이도입니다

문제 정답률에 의탁해서 그냥 넘겨짚지 말고, 직접 풀어보세요
전혀 흥분할 필요도 없고, 놀랄 이유도 없습니다

Quantumwk

해시 아이콘

+ 25/02/01 16:47

(수정됨) GPT가 2년전에 수학문제 푸는 거 보면 충분히 놀랄만합니다..... 수능 고득점 출신에 수능 본지 얼마 안됐거나 관련 업계 분이신 입장이라면 호들갑떨 정도 까지는 아니라고 볼 수는 있겠지만 핵심은 발전 속도와 지금 여러 벤치마크에서 나오는 결과를 보는 게 중요한겁니다. 그냥 일반 사람들 와닿게 수능 문제 푸는 거 가져왔을 뿐이고, 논문이나 벤치마크 테스트에서 고급 수학문제를 대상으로 나오는 결과들 보면 무시 무시 합니다.

전 업계 사람도 아니고 수능 본지 너무 오래 되서 감도 없습니다만은 어쨌든 통계에서 보니 정답률 하위에서 3번째에 드는 문제입니다. 수능 30문제 중에 3번째로 어려웠던 문제라는 뜻이죠. 최상위권 or 수학 강사 입장에서는 별거 아닐 수 있겠지만 어쨌든 평균 보다는 훨씬 어려운 문제임이 명백하죠. 전 아직도 수학 어느 정도는 접하는 사람인데도 이런 입시 수학은 손 놓은지 오래되서 그런지 풀이 따라가고 분석하는 것도 애먹었습니다. 수능이 너무 오래된 시험이라 문제 난이도가 많이 올라갔다고 들었는데 정말 그렇게 느껴 집니다. 경기고-서울대 물리학과 학부(예비고사 수석임)-스탠포드 박사에 이 과정에서 엥간한 시험은 다 휩쓸었던 오세정 교수도 나중에 문제 출제 요원으로 들어 갔다가 수능 수학 거의 하루종일 붙잡고 풀면서 기겁했다고 하죠.

o3 풀이 잘못된 것도 못 찾았다가 한참 들여다보고 알아냈구요.

참고로 2년전에는 LLM들한테 수능 문제 던져 주면 핀트 거의 하나도 못 잡고 완전 엉뚱하게 풀었습니다. 기본적인 사칙연산도 다 틀렸었구요.

pnr23

해시 아이콘

+ 25/02/01 16:49

뭐 제 생각이 당연히 틀릴 수도 있는 거니까
재차 말씀하시는 그 발전 속도에 저도 조금 더 마음 열어서 관심 기울여 보겠습니다

목록 삭게로! 맨위로

번호	제목	이름	날짜	조회	추천
공지	[정치] [공지] 정치카테고리 운영 규칙을 변경합니다. [허들 적용 완료] [126]	오호	20/12/30	287686	0
공지	[일반] 자유게시판 글 작성시의 표현 사용에 대해 다시 공지드립니다. [16]	empty	19/02/25	349030	10
공지	[일반] [필독] 성인 정보를 포함하는 글에 대한 공지입니다 [51]	OrBef	16/05/03	470422	31
공지	[일반] 통합 규정(2019.11.8. 개정) [2]	jjohny=쿠마	19/11/08	349074	3
103651	[일반] AI가 수능 수학 킬러문제도 맞추네요 [17]	Quantumwk2305	25/02/01	2305	0
103650	[일반] 미국 필라델피아 도심지에서 경비행기 추락사고가 발생했습니다 [3]	EnergyFlow4743	25/02/01	4743	0
103649	[일반] 눈 내리는 서울, 겨울 출사(사진 多) [4]	판을흔들어라3899	25/01/31	3899	19
103648	[일반] 그 여자는 무슨 생각을 했을까 [14]	글곰7969	25/01/31	7969	15
103645	[정치] 트럼프 "워싱턴 항공 충돌 사고, FAA의 다양성 채용이 문제일 수도 있다" [93]	EnergyFlow13217	25/01/31	13217	0
103644	[일반] 이제는 대부분의 사람들이 모르는 SK하이닉스의 놀라운 과거 [23]	독서상품권9557	25/01/31	9557	1
103643	[정치] 우려되는 국민의힘 지지자들의 극우화 [196]	계층방정16999	25/01/31	16999	0
103642	[일반] 소리로 찾아가는 한자 72. 볕 양(昜)에서 파생된 한자들 [4]	계층방정1640	25/01/31	1640	2
103641	[정치] 전한길 선을 한참 넘네요. [140]	This-Plus18365	25/01/30	18365	0
103640	[일반] 방송 pd로 살아남기(pd는 어떻게 나뉘는가) [26]	만렙법사6731	25/01/30	6731	39
103639	[일반] 영화 도망자 로 본 미국 행정 경찰제도 [5]	흰둥5154	25/01/30	5154	7
103638	[일반] 자작 소설입니다. '대학원생 그녀' (최종화) [10]	우르르쾅쾅4122	25/01/30	4122	12
103637	[일반] DeepSeek 이해하기(기술적인 측면들) [46]	스폰지뚱10556	25/01/29	10556	12
103636	[일반] 음향기기 그룹 마샬, 중국 HongShan Capital Group에 인수 [11]	SAS Tony Parker 6574	25/01/29	6574	3
103635	[정치] 보건복지부, 중증환자 대상 의료개혁 가속 [52]	Quilian11408	25/01/29	11408	0
103634	[일반] <이제 그만 끝낼까 해> - 되돌이표 끝 마침표를 향해.(스포) [3]	aDayInTheLife5005	25/01/29	5005	5
103633	[일반] 어머님이 돌아가셨습니다 [84]	라비018447	25/01/28	8447	76
103632	[일반] 김해공항서 에어부산 항공기 꼬리에 불…승객 169명 비상탈출 [32]	매번같은8807	25/01/28	8807	1
103631	[정치] 안철수 페북 딥시크 입장 나왔네요. [97]	호옹이 나오14039	25/01/28	14039	0

목록 이전 다음

+ : 최근 1시간내에 달린 댓글
+ : 최근 2시간내에 달린 댓글

맨 위로

PGR21.com

통합규정 1.3 이용안내 인용