5월 초의 짧은 연휴를 틈타 가족들과 친척들을 뵈고 왔어요. 그 중 테크무새는 저 혼자입니다. 세상이 이렇게 재밌어요 하면서 부모님께 이런거 저런거 많이 보여드렸죠. GPT4 쓰시도록 하고 싶은데 유료니까 뤼튼 깔아드리고. 스마트폰으로 이것저것 잘하시는 분들인데 이쪽은 또 잘 모르시는 거 보면서, AI가 일상에 깊게 침투하기까지는 아직 한참 멀었다는 생각과 함께, 그러면 또 이게 제대로 침투하면 앞으로의 포텐셜은 또 얼마나 크려나, 하는 생각도 들었어요.
동서가 자기 ChatGPT 앱을 보여주면서 “얘는 내가 일하는 쪽 이야기하니까 잘 모르고 이상한 말만 하드만” 해서 받아서 보니까 3.5 버전이더라구요. 유료구독자로서 4 버전을 맛보여주니까 “오 이건 진짜 괜찮네요 잘 알아듣네” 하고 인정을 받았습니다. 처제가 그걸 보더니 옆에서 “이거 ㅇㅇ(4살짜리 조카)랑 이야기하게 할 수 있어요?” 하길래 음성모드를 켜줬더니 조카가 몇 마디 나눠보더라구요. 근데 아무래도 워키토키같은 대화방식이 좀 적응이 힘들어서 금방 그만뒀습니다. 꼬마들이랑 잘 이야기하는 AI는 부모들의 고충을 좀 덜어주려나 싶어요.
그… GPT-4o가 발표가 되었죠. 유튜브로 클립들 보시면 재밌습니다. ‘o’가 omni의 줄임말이라고 하니 옴니라고 할께요. 옴니가 업그레이드냐! 하면 좀 애매합니다. 네 뭐 챗봇 대결 랭킹에서 1등먹고 리더보드 1등한거 압니다 알아요. 그런데 이걸 GPT-5 레벨이라고 봐야하나? 그렇다기에는 좀 애매하다는 건 공감하시죠? 제대로 된 능지 업그레이드는 차세대 버전에서 선보이지 않을까 싶구요.
이번 옴니 업데이트는 가격이나 속도나 인터페이스가 주요 포인트라 일반 소비자 대상 편의성 개선이라고 봐야 합니다. 그런데 이걸 높은 수준의 멀티모달로 달성했다는 게 너무나 멋진 포인트죠. (텍스트, 이미지, 사운드 등을 종합적으로 다룰 수 있는 모델)
멀티모달을 통한 편의성 개선
예를 들어, 이전의 챗봇과의 음성대화가 어떻게 이루어지느냐?
User Speech - STT - Text - LLM - Text - TTS - Bot Speech
1. 유저가 말하면
2. Speech-2-Text 엔진이 돌아서 텍스트가 나오고
3. 이걸 LLM이 먹어서 답변을 밷고
4. 이 답변으로 Text-2-Speech 엔진을 돌려서 챗봇이 말을 하는거죠.
근데 당연히도 이게 참 한계가 많은게
- 중간단계가 많아 오버헤드 때문에 지연시간이 깁니다. 그 동안에 벌써 지루해집니다(드르렁)
- 텍스트가 매개가 되면서 뉘앙스가 사라집니다. “참 잘했네”랑 “차암 자아알했네”가 구분이 안되죠.
(이렇게 구현된 것 중에는 이게 아주 인상깊었어요. 포탈의 GlaDOS 아세요? 로컬이라 가능합니다.)
근데! 옴니는!
User Speech - 옴니 - Bot Speech
네… 훨씬 빨라질 수 밖에 없고, 사운드를 그대로 처리하기 때문에 뉘앙스나 어조도 살리고, 챗봇이 말하는 데에 우리가 끼어들어 말할 수도 있고, 흥얼거림이나 감정표현도 가능합니다.
(저는 이걸 위해서 Sound to Sound 모델이 나오지 않을까 했는데 더 멋진 방법으로 해버렸네요. 조카도 옴니하고는 재밌게 말할 것 같아요)
이야기해보고 싶은 건 왜… 굳이? 이런 업그레이드를 했나? 싶은 거죠. 되게 Human-like-AI를 강조해서 많이 보여줬는데, 이건 굉장히 B2C 마켓스러운 움직임이잖아요. 현재 가장 인기있는 카테고리 중 하나가 이런 컴패니언/롤플레잉이에요. Character.ai의 인기는 다들 들어보셨을 거고, 다분히 성인향을 풍기는 AI여친남친 챗봇(클릭주의)들은 돈 쓸어담는 노다지로 알려져있고, 틱톡에서 바이럴을 탄 AI 콘텐츠도 OpenAI 음성채팅 남친 세팅 레시피였고 ㅋㅋ… AGI 만든다는 팀이 왜 이런 걸 하나 싶어요. $20짜리 구독인구를 더 늘리려고? AI 스타트업들 다 뿌수려고?
(개인적으로 AI relationship 비즈니스는 billion-dollar-scale을 넘어 humanity-scale 스케일 비즈니스가 될 거라고 생각합니다)
뭐, 답은 데이터겠죠.
최근에 이런 연구가 있었어요. 종종 즐겨보는 computerphile 채널에서도 다뤘는데:
No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance(https://arxiv.org/abs/2404.04125)
이 논문을 요약하면
성능의 선형적 증가를 위해서는 데이터의 지수적 증가가 필요하다
…일단 현재의 아키텍쳐에서는 그런가봐요. 지수함수의 무서움을 아시는 분들이라면, ‘야 이거 AGI 하려면 지금 아키텍쳐로 안되겠네?’ 이런 생각이 바로 드실텐데, OpenAI의 답은 “이 아키텍쳐로 된다고 생각하는 건가!… 라고 꾸짖기에는 너무나 많은 데이터였다 짤” 이라고 생각합니다.
ChatGPT 설정에 이런 거 있는 거 아시죠?
아마 인터넷에 공개된 접근 가능한 데이터는 이미 싸그리 다 학습시켰을 거고 더 많은, 다양한 리얼 데이터가 필요하겠죠. 아키텍쳐를 바꾸든 말든 양질의 데이터는 언제든 유용할거구요. 어차피 지금 1등이고 잘하고 있는데, 트랜스포머 베이스로 할 수 있는 끝까지 밀어부쳐보지 않을까 싶습니다.
그리고 그러려면… 더더더 많은 데이터가… 더 많은 데이터가 필요하죠…
이번 OpenAI 발표, 다소 쇼맨십이 많았죠. 하지만 그 쇼맨십은 정말! 효과적이었습니다. (her가 드디어 어쩌구) 빅데이터 시대에 데이터가 석유라는 말 많이 들어보셨죠? 석유 때문에 전세계에서 얼마나 많은 전쟁을 했게요?
이제 전 세계에서 더 많고 다양한 real-life 데이터 몰려들건데, 이렇게 몰려드는 데이터를 윤리문제로 안 쓸 거에요? 진짜? ㅎㅎ
인간과 소통하는 AI에 대해 공부랑 연구랑 관심사 많은 분들이랑
디스코드에서 놀고 싶어서 하나 팠습니다!
wemakebeings(wmb) - https://discord.gg/p8u2Z5Tx
사람 거의 없어서… 편하게 오세요.
디코 아직 운영하시면 인비 링크를 새로 주실 수 있을까요