딥러닝이 강력한 이유는 어려운 것을 쉽게 만들기 때문이다: 10년 후의 회고

핵심 요약

10년 전 딥러닝의 단순함을 비판하며 더 어려운 분야를 공부하라고 조언했던 저자가 자신의 예측 실패를 회고한다. 트랜스포머 아키텍처와 스케일링 법칙의 등장은 단순한 방법론이 복잡한 이론을 압도할 수 있음을 증명했다. 딥러닝의 핵심 가치는 자동 미분과 GPU를 통해 고도의 수학적 지식 없이도 누구나 AI를 개발할 수 있게 만든 민주화에 있다. 현재 LLM을 둘러싼 논쟁 속에서 저자는 과거의 회의론을 뒤로하고 주류 기술의 잠재력을 긍정하며 미래를 전망한다.

배경

딥러닝 기본 개념, Transformer 아키텍처 이해, Scaling Laws 개념

대상 독자

AI 연구자, 개발자, 그리고 AI 분야 커리어를 고민하는 학생

의미 / 영향

AI 발전은 이론적 정교함보다 시스템적 효율성과 대중화에 의해 주도되며, 이는 향후 연구 방향이 복잡한 이론보다 확장 가능한 단순함에 집중될 것임을 시사한다.

섹션별 상세

아키텍처와 스케일링에 대한 예측 실패가 확인됐다. 과거에는 아키텍처 개선만으로 한계가 올 것이라 보았으나, 트랜스포머와 막대한 컴퓨팅 자원을 투입하는 스케일링 법칙이 현대 AI의 폭발적 성장을 이끌었다. 단순한 구조의 모델이 방대한 데이터를 만났을 때 보여주는 성능은 이론적 한계를 뛰어넘었다.

단순함의 승리와 이론적 엄밀성의 한계가 드러났다. GAN이나 기하학적 딥러닝 등 수학적으로 정교한 모델보다, 단순한 구조에 강력한 귀납적 편향을 가진 모델들이 실전에서 더 우수한 성능을 보였다. 수학적 엄밀함이 항상 성능 향상으로 이어지지 않는다는 비터 레슨(Bitter Lesson)이 입증됐다.

딥러닝의 본질적 가치는 어려운 것을 대중화한 데 있다. 자동 미분과 SGD, GPU 라이브러리의 조합은 박사급 연구자만 가능했던 작업을 10대 청소년도 할 수 있는 레고 블록 수준으로 단순화했다. 이러한 추상화는 기술의 영향력을 극대화하는 가장 큰 기회 요인이 되었다.

베이지안 추론과 확률적 프로그래밍은 기대만큼 성장하지 못했다. 딥러닝처럼 복잡한 확률 통계 이론을 추상화하여 대중화하려 했던 시도는 딥러닝만큼의 성공을 거두지 못했다. 저자는 자신의 전문 분야가 미래의 핵심이 될 것이라는 편향에 빠졌음을 인정했다.

생성 모델링에 대한 과거의 조언은 유효했다. 2016년에 제안했던 생성 모델링 학습 권고는 현재 LLM과 확산 모델의 시대를 맞아 가장 정확했던 예측 중 하나로 남았다. 비록 구체적인 방법론은 변했지만 생성 모델이라는 큰 흐름을 짚어낸 점은 유효했다.

학계와 산업계의 위상이 변화했다. 과거와 달리 최첨단 연구가 더 이상 공개되지 않고 막대한 자원이 필요해짐에 따라 박사 학위 과정의 효율성이 상대적으로 낮아졌다. 특히 LLM 분야는 변화 속도가 너무 빨라 학위 논문 주제가 졸업 전에 구식이 될 위험이 크다.

얀 르쿤의 LLM 회의론에 대해 반론을 제기한다. LLM이 물리적 세계를 이해하지 못한다는 비판이 있으나 언어 기반 지능만으로도 충분히 깊은 영향력을 미칠 수 있다. 현재 LLM은 단순한 패턴 매칭을 넘어 탐색과 추론, 계획 능력을 갖추는 방향으로 진화하고 있다.

실무 Takeaway

기술의 강력함은 복잡함이 아니라 복잡한 것을 얼마나 단순하게 추상화하여 대중화하느냐에 달려 있다.
이론적으로 완벽한 모델보다 대규모 데이터와 연산 자원을 효율적으로 활용할 수 있는 단순한 구조가 실무에서 더 강력하다.
AI 분야의 변화 속도가 극도로 빨라짐에 따라 전통적인 학위 과정보다 실전 프로젝트와 산업계의 학습 속도가 더 효율적일 수 있다.

언급된 리소스

문서Deep Learning is Easy - Learn Something Harder (2016)