Multistage-VLA

오일러 로보틱스의 Multistage VLA(Multi-stage Vision-Language-Action)는 로봇이 작업 환경을 이해하고 최적의 행동을 생성하는 AI 제어 아키텍처입니다.
사용자는 음성이나 텍스트 명령만으로 로봇의 이동, 신호 및 주변 기기 제어, 다양한 대상물에 대한 피킹 앤 플레이스 작업을 지시할 수 있으며,
작업자와 같은 공간에서 유연하게 협업할 수 있습니다.

Introduction

Physical AI 기반 자동화 시스템

Multistage-VLA는 각 단계에 적합한 AI 모델과 알고리즘을 적용함으로써 산업 현장에서 요구되는
안정적인 작업 수행과 처리 속도를 동시에 고려한 구조로 설계된 시스템입니다.
이러한 접근 방식을 통해 로봇이 비정형 물리 환경을 이해하고 실제 작업으로 연결하는
Physical AI 기반 자동화 시스템 구현을 가능하게 했습니다.

Process

작동 프로세스

기존 단일 End-to-End 방식의 VLA 모델이 산업 환경에서 겪는 작업 성공률과 추론 속도 문제를 개선하기 위해, 로봇의 의사결정 과정을 여러 단계로 분리하여 설계했습니다.

1

음성·텍스트 입력 처리
2

시각 기반 상황 인지 인지
3

3D 공간 인지
4

작업 계획
5

로봇 실행

Key Feature

Multistage-VLA의 특장점

01산업 환경 적용 가능한 Physical AI

Multistage-VLA는 빠른 Cycle Time과 높은 작업 성공률을 기반으로 실제 산업 환경에 적용 가능한 Physical AI 시스템입니다.

02작업자와 협업하는 자연어 로봇 제어

작업자는 자연어 명령만으로 로봇과 소통하며, 같은 작업 공간에서 로봇과 유연하게 협업할 수 있습니다.

03비정형 환경 대응 및 시스템 연동

비정형 작업 환경에서도 대상물과 작업 상황을 이해하며, 다양한 센서·로봇·주변 시스템과 연동해 현장 자동화 범위를 확장합니다.

Specification

주요 사양

기술 검토를 위한 상세 스펙입니다.

아키텍처	Multistage VLA (멀티스테이지 Vision-Language-Action)
처리 단계	음성·텍스트 입력 → 시각 인지 → 3D 공간 인지 → 작업 계획 → 로봇 실행 (5단계)
언어 입력	음성·텍스트 자연어 (한국어·영어)
시각 인지	VLM 기반 객체 인식 (브랜드·라벨·SKU 단위)
공간 인지	ToF 3D 카메라 기반 중심 좌표·크기·자세 추출
Agent 구조	LLM 기반 Agent (복합 조건 지시 분해·실행)
명령 처리	파지·이송·적재 등 로봇 수행 가능 작업에 대한 자연어 명령 분해·실행
로봇 호환	현대로보틱스, 가와사키, 두산, 화낙 등 (제조사 비종속)
연동 시스템	RBS 팔레타이징·디팔레타이징, AMR, 컨베이어
비교 우위	End-to-End VLA 대비 작업 성공률·추론 속도 개선

Validation

진행 중인 협업

Multistage-VLA는 공인 기관 선정과 실제 현장 PoC를 통해 기술력을 확인하고 있습니다.

TIPS

2025 딥테크 팁스 선정

중소벤처기업부 딥테크 팁스(TIPS) 프로그램에 선정되어 약 20억 원의 R&D 지원을 받고 있습니다. Multistage VLA 기술을 기반으로 한 RBS 2.0 — 물류 하차부터 분류·적재 전 과정 자동화 개발을 진행 중입니다.

LG사이언스파크 협업 PoC

Multistage-VLA를 포함한 4개 분야 PoC를 LG사이언스파크와 공동으로 진행 중입니다. 시맨틱 그래스핑 기반 SKU 선별 이송, VLA 학습 데이터 확보 테스트베드 구축이 포함됩니다.

원하는 제품·솔루션이 있으신가요?

제품 데모·현장 분석 신청