본문 바로가기
지식 확장/테크

Ilya Sutskever, 학습 데이터의 고갈과 AI Pre-Training의 종말에 대한 언급

by Augmentia 2024. 12. 29.

Sutskever는 NeurIPS 2024에서, 인터넷에서 얻을 수 있는 고품질 데이터가 점점 고갈되고 있다는 ‘Peak Data’ 개념을 제시했어요. 🚀 이 개념을 바탕으로 "이제 학습 데이터는 고갈했으며, 거대 언어 모델의 Pre-training 시대는 끝났다고 선언" 했어요. 이는 화석 연료가 고갈되면 더이상 화력 발전을 할 수 없는 것처럼, 학습에 사용할 수 있는 추가적인 데이터가 없다면 Pre-training 중심의 AI 기술 개발이 새로운 도전에 직면 할 수 있음을 강조하는 언급이었어요. 📖

Sutskever는 이러한 한계로 인해, 기존의 대규모 데이터를 학습하는 방식에서 벗어나, AI 모델이 적은 데이터로도 효율적이고 독립적으로 학습할 수 있는 새로운 접근법이 필요하다고 언급했어요. 이러한 변화는 단순한 데이터 이용 방식의 전환을 넘어, AI 기술의 근본적인 진화가 필요함이 강조되고 있음을 의미해요.

 

새로운 접근의 필요성

현재 글로벌 빅테크 기업의 AI 기술 개발은 더 많은 데이터와 컴퓨팅 파워를 투입해 성능을 향상시키는 방식에 의존하고 있어요. 하지만, Sutskever는 이러한 접근법이 더 이상 유효하지 않다고 지적했어요. 🔗 그는 "컴퓨팅 파워는 증가하고 있지만, 데이터는 더 이상 늘어나지 않는다"며, 새로운 전략이 필요하다고 주장 했어요. 🧠

Sutskever는 앞으로 기업들은 에이전트(agents), 합성 데이터(synthetic data), 그리고 추론 시간 최적화(inference time compute)를 통한 차세대 AI 모델 개발에 집중하게 될꺼라고 언급했어요. 🌐 그는 현재의 에이전트 시스템은 여러 측면에서 한계에 다다르고 있지만, 미래에는 더 발전된 형태로 진화하게 될꺼라고 했어요. 🚀


‘Agentic AI’ 로의 전환

Sutskever는 생물학 및 뇌과학에 빚대어 AI의 미래를 설명했어요. 포유류의 뇌 크기와 체중 사이의 관계를 예로 들며, 인간의 뇌는 다른 종과는 완전히 다른 방식으로 진화했음을 강조했어요. 🧬  이와 유사하게 AI도 현재의 스케일링 방식을 넘어서 근본적으로 다른 방식으로 발전할 수 있음을 시사해요. 🧠

미래의 AI가 인간처럼 스스로 판단하고 결정할 수 있는 ‘Agentic AI’로 진화할 것이라고 전망했어요. 🚀 이러한 AI는 거대한 규모의 사전 학습 없이도 제한된 데이터에서도 적용될 수 있으며, 실제 환경에서 자율적으로 작동할 수 있는 시스템을 목표로 한다고 언급했어요. 이는 AI 모델이 점점 더 인간의 사고 방식과 유사해지는 방향으로 발전하고 있음을 의미해요. 🔗

구글과 OpenAI는 이미 이러한 모델 개발에 착수했으며, 이를 위해 고급 다중 모달(multimodal) 접근법과 고도의 추론 능력을 결합하고 있다고 언급했어요. 이 기술은 이미지, 텍스트, 음성 데이터를 동시에 처리하며 더 적응력 있고 효율적인 AI를 만드는 데 중점을 두고 있어요.


실시간 학습 모델과 미래 전망

기존 AI는 방대한 양의 데이터를 기반으로 학습한 후에 정적인 형태로 작동하는 방식이 일반적이지만,💡 최근 AI 연구의 초점은 실시간 모델 학습으로 이동하고 있어요. 이러한 모델은 과거 데이터 대신, 현재 사용자의 피드백이나 상호작용을 기반으로 실시간으로 모델을 학습하며, 환경 변화에 민첩하게 대응할 수 있는 장점이 있어요. 🌍

Sutskever는 이러한 실시간 모델 학습이 사전 학습에 대한 의존도를 줄이는 데 결정적인 역할을 할 것이라고 언급했어요. 가령, 고객 서비스 챗봇이나 의료 AI실시간으로 데이터를 분석하고 문제를 해결하는 방식으로 발전할 가능성이 높은 분야같아요. 이는 기존의 데이터 의존적인 AI 모델과 차별화되며, 실시간으로 사용자와의 상호작용으로부터 획득한 피드백 정보 등을 활용하는 학습 방식은 데이터 부족 문제를 극복하는 데 중요한 역할을 하게될 예정이예요.


윤리적 AI 개발과 글로벌 협력

AI의 자율성이 증가하면서 윤리적 문제가 더욱 중요해지고 있습니다. 🤖 Sutskever는 AI가 점점 더 예측 불가능한 방식으로 작동할 가능성이 커지며, 이는 윤리적 통제와 사회 구성원의 역할 조정이 필요한 상황이 발생할 수 있음을 언급했어요.

이와 관련된 내용으로 유럽연합은 AI법을 통해 AI 시스템의 데이터 이용 및 개발 과정의 투명성을 강화하고 있는데요. 💼 (2024년 12월에 대한민국 국회에서도 "AI 기본법"이 통과되었죠.💡 유럽연합의 AI법은 새로운 형태의 AI 개발이 윤리적으로 이뤄질 수 있도록 규제를 강화하고 있어요. 이 법은 AI 모델의 투명성과 책임성을 강조하며, AI의 자율성 증가로 인한 사회적 영향을 최소화하는 데 목적을 두고 있는 것으로 알려져 있어요.

글로벌 차원에서는 AI 개발의 윤리성을 확보하기 위해 국제적인 협력이 점점 강조되는 추세예요. 주요 AI 컨퍼런스에서는 AI의 투명성 강화, 편향성 완화, 공정한 기술 사용에 초점이 맞춰지고 있습니다. 이러한 노력은 AI의 빠른 발전 속도에 맞춰 윤리적 기준을 마련하려는 세계적 움직임이 반영되고 있다고 볼 수 있어요.


사회 경제적 영향

AI 기술의 자율성과 효율성이 증가함에 따라 사회와 경제에 광범위한 영향을 미칠 것으로 예상되요. 🌟 경제적으로는 실시간 모델 학습이 기업의 운영 방식을 혁신적으로 변화시킬 것으로 기대되요. 가령, 제조업이나 물류업에서 실시간 학습 AI를 활용하면 비용 절감과 생산성 향상이 가능해질 수 있어요.

하지만 이러한 기술 발전은 사회적 도전과제를 동반해요. 특히 자동화로 인한 일자리 감소가 우려되며, 새로운 직업 교육 프로그램사회 안전망 강화가 필요할 것입니다. 정치적으로는 각국의 정부가 AI 규제를 통해 기술 발전을 관리하고, 국제 협력을 통해 AI의 안전한 발전을 도모해야 되요. 📈 대한민국의 AI기본법에는 해외 사업자가 국내에서 AI 서비스를 제공하기 위해서는 국내 대리인을 지정해 AI 사업자로서 안전성 및 신뢰성을 확보하도록 규정하고 있어요(>> AI 기본법 제정안의 주요 내용 요약).


마무리 및 제언

AI 기술이 발전하는 과정에서 "사전 학습"에 의존하는 기술 개발의 종식(End of Pre-training)은 AI 산업의 기술적, 윤리적 도약을 예고하며, 사회와 산업 전반에 걸쳐 시사하는 바가 큰거 같아요. 🚀 글로벌 협력과 각국의 합리적인 규제가 AI 발전의 방향성을 결정할 중요한 나침반이 될꺼 같습니다. 🤝

EU의 AI Act와 대한민국의 AI 기본법은 안전 및 사용자 보호에 방점이 있는 반면, 트럼프 2기 행정부의 AI 정책 방향성은 "AI 혁신, 연구개발, 국가안보 활용 및 민간 부분 경쟁력 강화"에 방점이 있는데요. 이러한 방향성은 EU 및 대한민국의 AI Act와는 조금 결이 다른거 같아요. 앞으로 미국이 어떤 방향으로 AI 산업을 바라보게 될지 지켜보며, 대응해야 할꺼 같아요. 🌍


References

  • U.S. AI Policy Expectations in the Trump Administration, GOP Congress, and the States (article)
  • Ilya Sutskever Predicts the End of Pre-Training as AI Hits 'Peak Data' (article)
  • Ilya Sutskever Calls Peak Data and the End of Pretraining (YouTube)