말로 지시하는 로봇 모델도 오픈소스로 풀렸다

robot

by spacenews 2025. 2. 10. 15:59

우리의 말을 실제 동작으로 변환하는 AI 모델이 등장했다. 이 모델을 사용하면 대형언어모델(LLM)이나 챗봇에 요청하듯이 팔과 다리가 달린 로봇에게 원하는 작업을 시킬 수 있게 된다. 로봇 피겨나 옵티머스에 이미 적용된 방식이지만 이런 '범용 로봇 파운데이션 모델'이 오픈 소스로 공개된 것은 이번이 처음이다.

논문 사이트 : https://arxiv.org/html/2410.24164v1

허깅페이스와 피지컬 인텔리전스는 현지시간 6일 자연어 명령을 직접 로봇의 자율 행동으로 변환하는 비전언어행동(VLA, Vision-Language-Action) 모델 ‘파이제로(Pi0)’를 오픈 소스로 출시했다. 파이제로의 특징은 데이터를 학습하고 텍스트 지시를 따라 수행하는 LLM과 달리, 이미지와 텍스트, 행동을 모두 처리할 수 있다. 파이제로는 또한 로봇의 실제 경험을 학습해 즉시 움직일 수 있는 모터 명령을 생성하는 로봇 전용 파운데이션 모델이다.

파이제로는 로봇에서 수집한 비전-언어 모델(VLM)의 의미적 지식과 시각적 이해 능력을 기반으로 초당 최대 50회 모터 명령을 생성하도록 훈련됐다. 이를 위해 확산(diffusion) 모델의 변형인 '흐름 매칭(Flow Matching)'을 사용해 VLM이 연속적인 행동을 출력할 수 있도록 하는 새로운 방법을 개발했다.

'오픈VLA(OpenVLA)'나 '옥토(Octo)' 등 다른 VLA과 비교한 결과, 30억 매개변수의 파이제로(Pi0)는 모든 작업에서 가장 높은 성과를 기록했다. 9억3000 매개변수의 파이제로-스몰은 두 번째로 높은 성과를 기록했다.

이에 대해 레민 케이든 허깅페이스 수석 연구 과학자는 X(트위터)를 통해 "여러분 중 많은 분들이 코드와 가중치를 요청, 파이제로와 사전 훈련된 체크포인트를 출시하게 됐다"라며 "몇몇 공개 로봇에서 모델을 테스트했고, 여러분이 직접 미세조정할 수 있도록 코드를 포함했다"라고 밝혔다.

은이은 | unyiun@outlook.kr

저작자표시 비영리 변경금지 (새창열림)

'robot' 카테고리의 다른 글

웨스트월드의 인공 근육 로봇, 현실 되나? (0)	2025.02.21
빅테크의 새로운 전장은 로봇 (1)	2025.02.19
전기 모터 넘어선 엑추에이터, 가능할까? (2)	2025.02.17
몸을 가진 AI, 어떻게 봐야 할까? (1)	2025.02.11
삼성전자, 레인보우로보틱스와 손잡고 휴머노이드 개발 본격화 (0)	2025.02.04

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

spacenews

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

'robot' 카테고리의 다른 글

관련글 더보기

추가 정보

인기글

최신글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역