멀티모달 AI

공간·시각·언어·음성을 통합 인지해 로봇 행동으로 연결하는 멀티모달 AI 기술입니다.

Introduction

공간·시각·언어·음성을 통합하는 멀티모달 AI

멀티모달 AI는 사용자의 명령과 작업 환경을 동시에 이해하여
로봇의 실제 행동으로 연결하는 인공지능 기술입니다.
공간, 시각, 언어, 음성 정보를 통합적으로 처리하여
로봇이 작업 의도와 환경을 함께 이해하도록 설계되었습니다.

Key Feature

멀티모달 AI의 특장점

01시맨틱 그래스핑

로봇이 작업 대상의 형태뿐 아니라 작업 맥락을 이해하여 물체를 식별하고 파지하도록 하는 기술입니다. 공간 인지 기술과 VLM(Vision-Language Model) 기반 영상 인식을 결합하여 특정 브랜드 로고나 제품 단위까지 구분하고, 대상 객체의 파지 좌표와 작업 경로를 생성합니다.

02음성 및 자연어 인터페이스

사용자의 음성을 인식하고 자연어를 해석하여 로봇의 작업 명령을 생성합니다. LLM 기반 Agent 제어 구조를 적용해 복잡한 시스템 제어 없이 자연어 기반 로봇 운영이 가능합니다.

03SKU 단위 인식·운영 환경

다양한 상품이 혼재된 물류 환경에서도 SKU(Stock Keeping Unit) 단위 인식 기반 자동화가 가능하며, 현장 작업자가 직접 로봇을 제어할 수 있는 운영 환경을 구축합니다.

Specification

주요 사양

기술 검토를 위한 상세 스펙입니다.

인지 모달	공간(Spatial), 시각(Vision), 언어(Language), 음성(Voice) 통합 처리
시각 인식	VLM(Vision-Language Model) 기반 객체 인식 (브랜드 로고·제품 단위 구분)
식별 단위	SKU(Stock Keeping Unit) 단위 인식
언어 입력	음성·텍스트 자연어
Agent 구조	LLM 기반 Agent 제어 (작업 목적에 맞는 로봇 행동 생성)
작업 출력	대상 객체 파지 좌표·작업 경로 생성
운영 방식	별도 프로그래밍 없이 자연어 기반 로봇 운영
적용 환경	다품종 혼재 물류·산업 환경

Validation

진행 중인 협업

멀티모달 AI 기반 로봇 인지 기술은 공인 기관 R&D 지원을 통해 고도화되고 있습니다.

TIPS

2025 딥테크 팁스 선정

중소벤처기업부 딥테크 팁스(TIPS) 프로그램에 선정되어 약 20억 원 규모의 연구개발 지원을 통해 멀티모달 AI 기술 고도화를 진행하고 있습니다.

원하는 제품·솔루션이 있으신가요?

제품 데모·현장 분석 신청