상세 컨텐츠

본문 제목

말로 지시하는 로봇 모델도 오픈소스로 풀렸다

robot

by spacenews 2025. 2. 10. 15:59

본문

반응형

우리의 말을 실제 동작으로 변환하는 AI 모델이 등장했다. 이 모델을 사용하면 대형언어모델(LLM)이나 챗봇에 요청하듯이 팔과 다리가 달린 로봇에게 원하는 작업을 시킬 수 있게 된다. 로봇 피겨나 옵티머스에 이미 적용된 방식이지만 이런 '범용 로봇 파운데이션 모델'이 오픈 소스로 공개된 것은 이번이 처음이다.  

논문 사이트 : https://arxiv.org/html/2410.24164v1

 

 

허깅페이스와 피지컬 인텔리전스는 현지시간 6일 자연어 명령을 직접 로봇의 자율 행동으로 변환하는 비전언어행동(VLA, Vision-Language-Action) 모델 ‘파이제로(Pi0)’를 오픈 소스로 출시했다. 파이제로의 특징은 데이터를 학습하고 텍스트 지시를 따라 수행하는 LLM과 달리, 이미지와 텍스트, 행동을 모두 처리할 수 있다. 파이제로는 또한 로봇의 실제 경험을 학습해 즉시 움직일 수 있는 모터 명령을 생성하는 로봇 전용 파운데이션 모델이다.

파이제로는 로봇에서 수집한 비전-언어 모델(VLM)의 의미적 지식과 시각적 이해 능력을 기반으로 초당 최대 50회 모터 명령을 생성하도록 훈련됐다. 이를 위해 확산(diffusion) 모델의 변형인 '흐름 매칭(Flow Matching)'을 사용해 VLM이 연속적인 행동을 출력할 수 있도록 하는 새로운 방법을 개발했다.

'오픈VLA(OpenVLA)'나 '옥토(Octo)' 등 다른 VLA과 비교한 결과, 30억 매개변수의 파이제로(Pi0)는 모든 작업에서 가장 높은 성과를 기록했다. 9억3000 매개변수의 파이제로-스몰은 두 번째로 높은 성과를 기록했다. 

이에 대해 레민 케이든 허깅페이스 수석 연구 과학자는 X(트위터)를 통해 "여러분 중 많은 분들이 코드와 가중치를 요청, 파이제로와 사전 훈련된 체크포인트를 출시하게 됐다"라며 "몇몇 공개 로봇에서 모델을 테스트했고, 여러분이 직접 미세조정할 수 있도록 코드를 포함했다"라고 밝혔다.

 

은이은 | unyiun@outlook.kr 

반응형

관련글 더보기