All That Software
Android-Lab 소개
androidlab에서 seeact와 react 평가 방식의 차이는 무엇인가요
AndroidLab에서 SeeAct와 ReAct는 안드로이드 에이전트의 서로 다른 평가 방식을 나타냅니다. 두 방식의 주요 차이점은 다음과 같습니다:
## SeeAct 평가 방식
SeeAct는 시각적 이해에 기반한 접근법으로:
- **시각적 인식 기반**: 멀티모달 모델(LMM)을 활용하여 스크린샷을 시각적으로 인식한 후 행동을 생성합니다[2]
- **2단계 프로세스**:
1. 시각적 인식을 통한 액션 생성(Action Generation): GPT-4V와 같은 LMM을 활용해 웹사이트나 앱을 시각적으로 인식하고 텍스트 형태의 계획을 생성합니다[2]
2. 액션 그라운딩(Action Grounding): 텍스트 계획을 실제 UI 요소와 연결하여 실행 가능한 작업으로 변환합니다[2]
- **멀티모달 접근**: 이미지(스크린샷)와 텍스트 정보를 모두 활용하는 방식입니다[1][5]
## ReAct 평가 방식
ReAct는 추론 및 행동(Reasoning and Acting) 기반 접근법으로:
- **텍스트 기반 추론**: 주로 XML과 같은 텍스트 기반 표현을 사용하여 UI 구조를 이해하고 추론합니다[1]
- **단계적 추론과 행동**: 모델이 현재 상태를 분석하고 추론한 후 행동을 결정하는 방식으로 작동합니다[1]
- **텍스트 중심**: 멀티모달 정보보다는 텍스트 정보(XML)에 중점을 둔 접근 방식입니다[1]
## AndroidLab의 구현
AndroidLab은 두 가지 기본 작동 모드를 정의하여 이러한 평가 방식을 구현합니다:
- **XML 모드**: UI 요소의 XML 표현을 사용하는 텍스트 기반 모드
- **SoM(Set-of-Mark) 모드**: 스크린샷을 사용하는 시각 기반 모드
각 기본 모드에 대해 ReAct와 SeeAct 두 가지 평가 방식을 적용하여, 텍스트 기반 모델(LLM)과 멀티모달 모델(LMM)이 동일한 액션 스페이스에서 작동할 수 있도록 합니다.
이러한 다양한 평가 방식을 통해 AndroidLab은 138개의 작업에 걸쳐 안드로이드 에이전트의 성능을 체계적으로 평가할 수 있는 프레임워크를 제공합니다.
Subscribe to:
Posts (Atom)