본문 바로가기
지식 확장/테크

Ilya Sutskever의 10년 여정: "시퀀스 투 시퀀스 학습에서 슈퍼지능까지"

by Augmentia 2024. 12. 29.

Sutskever의 NeurIPS 2024 컨퍼런스 발표 영상이 공개됬어요. "Sequence to sequence learning with neural networks: what a decade" 라는 제목의 발표였어요. 📖 인공지능 산업이 지금의 위치에 오기까지 Sutskever의 기여가 상당하다고 생각해요. 😊

Sutskevers는 Geoffrey Hinton 교수의 지도하에 박사과정을 마쳤고, Andrew Ng 교수의 연구실에서 박사후연구원 과정을 거치면서 수많은 연구 논문(google scholar)을 출판했어요. 😊 이후, OpenAI에서 ChatGPT 및 GPT-4의 설계를 주도한 것으로 알려져 있어요. 하지만, 2024년 5월 15일부로 OpenAI를 퇴사하여, Safe Superintelligence (SSI)를 설립했어요. Sutskever가 인공지능 기술 발전에 기여한 지난 10년을 돌아보며, NeurIPS 2024 에서 발표했어요. 🚀


2014 NIPS Conference

2014년 몬트리올에서 열린 NIPS 컨퍼런스에서 Ilya Sutskever와 그의 동료들은 시퀀스 투 시퀀스 학습에 관한 획기적인 논문을 발표했어요. 이 논문은 auto-regressive model trained on text with a large neural network에 대한 연구 내용이 포함되어 있었어요. 지금과 비교하면 이 당시의 연구는 간단한 수준 이었지만, 오늘날의 AI 발전의 초석이 되는 연구였어요. 😊

Sutskever는 당시 발표 슬라이드에서 "10 layers of neural network를 통해서 인간이 할 수 있는 모든 일을 할 수 있다"는 도전적인 가설을 제시하기도 했어요. 당시 이런 연구를 추진할 수 있었던 데는 "생물학적 뉴런"과 "인공 뉴런"의 유사성에 기반한 딥러닝의 기본 원칙에 대한 믿음이 있었기 때문이었어요. 📖


Auto-regressive Model and LSTM

10 layers of neural network에서 진전이 있었던 이 연구의 핵심은 "auto-regressive model이 다음 토큰을 예측함으로써 시퀀스의 분포를 정확히 포착할 수 있다"는 아이디어에 있었어요. 이 아이디어는 기계 번역과 같은 작업에 적용되었으며, 당시로서는 매우 도전적인 과제였어요. 🚀

이러한 아이디어를 구현하기 위해, LSTM(Long Short-Term Memory)을 활용해 모델을 구축했는데, 이는 트랜스포머 이전 시대의 가장 진보된 기술이었어요. LSTM은 복잡한 구조를 가지고 있었지만, 병렬화를 통해 3.5배의 속도 향상을 달성했었어요. 🔗


Scaling hypothesis and Era of Pre-training

Pre-training 모델에 대한 연구는 스케일링 가설이 그 시작점이 되었어요. "매우 큰 데이터셋과 매우 큰 신경망을 훈련시키면 성공이 보장된다"는 아이디어는 오늘날의 GPT 모델과 같은 대규모 AI 모델을 개발이 가능케한 기반이예요. Sutskever는 이 아이디어가 오랜 시간의 시험을 견뎌냈다고 강조했어요. 😊

하지만, Sutskever는 Pre-training 모델을 경쟁적으로 개발하는 시대는 언젠가 끝날 것이라고 예측했어요. 데이터는 더 이상 증가하지 않기 때문에, AI의 미래는 Agent, synthetic data, and inference time 최적화와 같은 접근 방식의 고도화에 달려 있을 것이라고 했어요. 📖


Super-intelligence and  unpredictability

Sutskever는 AI의 궁극적인 목표는 슈퍼지능의 개발이라고 언급했어요. 슈퍼지능은 현재의 AI와 질적으로 다를 것이며, 예측 불가능한 특성을 가질 것이라고 설명했어요. 이러한 시스템은 제한된 데이터만 있어도 이해할 수 있고, 혼란스러워하지 않으며, 자기 인식(self-awareness)을 가질 수 있을 것이라고 언급하기도 했어요. 🚀
또한 이러한 시스템이 인간과 공존하며 권리를 가질 가능성에 대해 언급하며, 이에 대한 논의가 필요하다고 강조했습니다. 🔗


Summary

Sutskever의 지난 10년 간의 연구는 AI 분야의 발전에 지대한 영향을 미쳤어요. auto-regressive model and scaling hypothesis는 오늘날의 거대 AI 모델의 기반이 되었으며, 미래의 AI는 더욱 예측 불가능하고 강력한 시스템으로 진화한 super-intelligence를 갖게 될 것이라고 언급했어요. 🚀


Reference

  • Sutskever의 NeurIPS 2024 발표 영상 (YouTube)