본문 바로가기

AI 소식/오픈소스 AI 모델

[오픈소스 AI] LFM2-VL 모델 소개 | 온디바이스 최적화 멀티모달 비전-언어 모델

안녕하세요,

최근 인공지능 기술은 대규모 모델에서부터 점차 온디바이스(On-Device) 환경 최적화 모델로 발전하고 있습니다. 클라우드 서버에 의존하지 않고도 스마트폰, 노트북, 웨어러블, 임베디드 기기와 같은 자원이 제한된 환경에서 직접 동작할 수 있는 경량 AI 모델의 수요가 급격히 높아지고 있기 때문입니다.

이러한 흐름 속에서 등장한 LFM2-VL(LFM2-Vision-Language) 모델은 텍스트와 이미지를 동시에 이해할 수 있는 멀티모달 모델로, 크기는 작지만 빠른 속도와 효율성을 자랑합니다. 특히 실시간 응답이 가능하도록 설계되어 있어, 온디바이스 AI 모델이 지향하는 미래 방향성을 잘 보여주는 사례라 할 수 있습니다.

이번 글에서는 LFM2-VL 모델의 특징과 성능을 살펴보고, 실제로 모델을 실행하여 이미지를 설명하는 과정을 통해 활용 가능성을 알아보겠습니다.


반응형

LFM2-VL 모델

LFM2-VL(LFM2-Vision-Language)Liquid AI가 처음 선보인 멀티모달 비전-언어 모델 시리즈로, 언어 기반의 LFM2 모델을 확장하여 텍스트와 이미지를 동시에 이해하고 처리할 수 있습니다. 이 시리즈는 경량성 및 실시간 응답 속도를 중시하여 설계되었으며, 휴대폰, 노트북, 웨어러블, 임베디드 기기 등 리소스가 제한된 디바이스에서도 원활하게 작동하도록 최적화되어 있습니다.
450M 파라미터 모델과 1.6B 파라미터 모델 두 가지 버전이 제공되며, GPU 기준으로 기존 비전-언어 모델에 비해 최대 2× 빠른 추론 속도를 구현합니다. 또한 512×512 해상도까지 원본 그대로 이미지를 처리하며, 더 큰 이미지는 패치 단위로 분할하고 썸네일 정보를 함께 활용해 정확도를 유지합니다.

 

 

Liquid AI: Build efficient general-purpose AI at every scale.

We build efficient general-purpose AI at every scale. Liquid Foundation Models (LFMs) are a new generation of generative AI models that achieve state-of-the-art performance at every scale, while maintaining a smaller memory footprint and more efficient inf

www.liquid.ai

 

[모델 정보 요약]

항목 내용
모델명 LFM2-VL
파라미터 수 450M, 1.6B (두 가지 버전 제공)
개발사 LiquidAI
출시일 2025년 8월 공개
컨텍스트 길이 32,768 tokens
특징 - 텍스트+이미지 멀티모달 처리 지원
- GPU에서 기존 모델 대비 최대 2배 빠른 추론 속도
- 경량화·실시간 응답 최적화 (휴대폰, 노트북, 웨어러블, 임베디드 기기에서도 동작 가능)
라이선스 LFM Open License v1.0

 

 

주요 특징

  1. 멀티모달 확장
    • 기존 LFM2 언어 모델을 기반으로 발전하여, 텍스트와 이미지 입력을 동시에 이해하고 처리할 수 있도록 설계되었습니다.
    • 단순한 텍스트 질의응답을 넘어, 시각적 맥락과 언어적 맥락을 결합한 복합 추론이 가능합니다.
  2. 경량성과 효율성
    • 450M1.6B 파라미터 두 가지 버전이 제공되어, 리소스가 제한된 환경에서도 유연하게 활용할 수 있습니다.
    • GPU 환경에서 기존 비전-언어 모델 대비 최대 2배 빠른 추론 속도를 보여줍니다.
  3. 온디바이스 최적화
    • 휴대폰, 노트북, 웨어러블, 임베디드 기기와 같은 저전력·소형 디바이스에서도 충분히 구동될 수 있도록 설계되었습니다.
    • 클라우드 의존도를 줄이고, 로컬 환경에서 빠른 응답을 제공하는 데 중점을 두고 있습니다.
  4. 이미지 처리 능력
    • 512×512 해상도 이미지를 원본 그대로 처리할 수 있으며, 더 큰 이미지는 패치 분할 및 썸네일 전략을 활용하여 왜곡 없이 인식합니다.
    • 다양한 해상도의 이미지를 안정적으로 다루며, 실제 응용 사례에서 유연성을 확보했습니다.

 

 

벤치마크 성능

LFM2-VL-1.6B 모델은 RealWorldQA에서 65.23점을 기록하며 InternVL3-2B와 유사한 수준의 성능을 보여주고 있습니다. InfoVQA와 SEEDBench_IMG에서도 안정적인 결과를 나타내며, 상대적으로 적은 파라미터 수에도 불구하고 균형 잡힌 성능을 유지하고 있습니다. 특히 1B급 모델과 비교했을 때는 전반적으로 근접하거나 더 높은 점수를 기록하고 있습니다.

LFM2-VL-450M 모델은 초소형 모델임에도 SmolVLM2-500M을 전반적으로 상회하는 성능을 보이고 있습니다. RealWorldQA, InfoVQA, OCRBench 등 대부분의 지표에서 더 우수한 결과를 기록하여, 경량 환경에서도 충분히 활용 가능한 성능을 제공합니다.

종합적으로 LFM2-VL 시리즈는 소형 모델 대비 뛰어난 성능과 높은 효율성을 특징으로 합니다. LFM2-VL-1.6B는 중형 모델과 경쟁할 수 있는 수준을 갖추고 있으며, LFM2-VL-450M은 소형 모델 중에서도 두드러진 성능을 보여주는 것이 강점입니다.

벤치마크 지표 LFM2-VL-
1.6B
LFM2-VL-
450M
InternVL3-
2B
InternVL3-
1B
SmolVLM2-
2.2B
SmolVLM2-
500M
RealWorldQA 65.23 52.29 65.10 57.00 57.50 49.90
MM-IFEval 37.66 26.18 38.49 31.14 19.42 11.27
InfoVQA (Val) 58.68 46.51 66.10 54.94 37.75 24.64
OCRBench 742 655 831 798 725 609
BLINK 44.40 41.98 53.10 43.00 42.30 40.70
MathVista 51.10 44.70 57.60 46.90 51.50 37.50
SEEDBench_IMG 71.97 63.50 75.00 71.20 71.30 62.20
MMLU 50.99 40.16 64.80 49.80 - -

 

[벤치마크 의미]

  • RealWorldQA : 실제 생활과 가까운 질문에 대해 상식적이고 자연스러운 응답을 생성하는 능력
  • MM-IFEval : 멀티모달 입력(텍스트+이미지)을 기반으로 지시를 정확히 따르는 능력
  • InfoVQA (Val) : 표·다이어그램·문서 이미지 등에서 정보를 추출하고 질의응답을 수행하는 능력
  • OCRBench : 이미지 속 텍스트를 인식하고 정확히 이해하는 능력
  • BLINK : 이미지 속 개체(Entity)를 식별하고 외부 지식과 연결하는 능력
  • MathVista : 수학적 도형·그래프·수식을 분석하여 추론과 계산을 수행하는 능력
  • SEEDBench_IMG : 다양한 이미지 이해·분류·추론 과제를 처리하는 종합적 시각 이해 능력
  • MMLU : 여러 학문 분야(과학, 법학, 인문학 등)에 걸친 지식과 언어 이해 능력

 

 

 

라이선스

LFM2-VL 모델은 LFM Open License v1.0을 따릅니다. 이 라이선스는 Liquid AI에서 제공하는 것으로, 사용·복제·배포·수정이 자유롭게 허용되는 오픈소스 조건을 기반으로 하고 있습니다. 다만 상업적 활용에는 제한이 있으며, 연간 매출이 1천만 달러 미만인 개인이나 기업은 상업적 사용이 가능하지만, 그 이상의 매출 규모를 가진 법인은 본 라이선스 하에서 상업적 사용이 허용되지 않습니다. 비영리 기관이나 연구 목적의 사용은 이러한 제한과 관계없이 가능합니다. 따라서 LFM2-VL 모델은 개인 개발자, 연구자, 중소기업에서 상업적으로 활용할 수 있는 모델입니다.

 

자세한 내용은 아래 라이선스를 참고하시기 바랍니다.

LFM Open License v1.0 라이선스 : https://huggingface.co/LiquidAI/LFM2-VL-450M/blob/main/LICENSE

 


LFM2-VL 모델 사용하기

LFM2-VL 모델은 온디바이스 환경을 주요 목표로 설계된 경량 멀티모달 모델입니다. 스마트폰, 노트북, 웨어러블, 임베디드 기기 등과 같이 자원이 제한된 환경에서도 원활히 실행될 수 있도록 최적화되어 있으며, 작은 크기에도 불구하고 텍스트와 이미지를 동시에 이해하고 처리할 수 있는 능력을 갖추고 있습니다. 이러한 특성 덕분에 클라우드에 의존하지 않고도 빠른 응답 속도와 안정적인 성능을 경험할 수 있습니다.

아래에서는 LFM2-VL 모델을 직접 활용하기 위해 필요한 환경을 설정하고, 간단한 예제 코드를 작성하여 실행하는 과정을 단계별로 소개하겠습니다.

 

1) 사전 준비 사항

이번 포스팅에서는 LFM2-VL-450M 버전을 활용하여 실행 과정을 살펴보겠습니다. 해당 모델을 직접 코드로 실행하려면 Python 환경이 필요하므로, 먼저 로컬 환경에 맞는 버전의 Python을 설치해야 합니다. 그리고 구글 허깅페이스에서 제공하는 LFM2-VL-450M 모델을 다운로드합니다.

Python 설치 : https://www.python.org/downloads/
LiquidAI 허깅페이스 (LFM2-VL-450M 모델) :
https://huggingface.co/LiquidAI/LFM2-VL-450M/tree/main

 

2)  실행 환경

  • 운영체제 : Windows 11
  • Python : 3.10.0
  • transformers : 4.55.2
  • accelerate : 1.10.0
  • torch : 2.6.0 + cu126
  • GPU : NVIDIA GeForce RTX 4060 Ti (VRAM 16 GB)

 

3) 패키지 설치

LFM2-VL-450M 모델을 실행하기 위해 필요한 패키지를 설치합니다. 아래 명령어를 Windows PowerShell에서 실행하면 됩니다.

# Windows PowerShell
pip install transformers accelerate
pip install torch==2.6.0 torchvision==0.21.0 --index-url https://download.pytorch.org/whl/cu126

 

4) 코드 작성

아래와 같이 코드를 작성합니다.

from transformers import AutoProcessor, AutoModelForImageTextToText
from transformers.image_utils import load_image
import torch

# 1) 모델/프로세서 로드
model_id = "Path/to/LFM2-VL-450M"  # 사용자 환경에 맞게 수정 (모델 경로)
model = AutoModelForImageTextToText.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
)
processor = AutoProcessor.from_pretrained(model_id, trust_remote_code=True)

# 2) 이미지 + 프롬프트 준비
image_path = "Path/to/LFM2-VL-450M/image/test3.png"  # 사용자 환경에 맞게 수정 (이미지 경로)
image = load_image(image_path)

conversation = [
    {
        "role": "user",
        "content": [
            {"type": "image", "image": image},
            {"type": "text", "text": "Describe this image in English, one sentence only."},
        ],
    },
]

# 3) 전처리 및 생성
with torch.no_grad():
    inputs = processor.apply_chat_template(
        conversation,
        add_generation_prompt=True,
        return_tensors="pt",
        return_dict=True,
        tokenize=True,
    ).to(model.device)

    outputs = model.generate(
        **inputs,
        max_new_tokens=64,
        do_sample=False,
        temperature=0.0,
    )

# 4) 디코딩
gen_only = outputs[:, inputs["input_ids"].shape[1]:]
text = processor.batch_decode(gen_only, skip_special_tokens=True)[0].strip()

# 5) 콘솔 출력
print(text)

 

[실행 결과]

이번 테스트에서는 모델이 약 2.2GB의 VRAM만을 사용하여 매우 가볍게 동작하였으며, 답변을 생성하는 데 소요된 시간은 평균 2~3초에 불과했습니다. 즉, 이미지를 입력받고 이를 해석해 텍스트로 설명을 제공하기까지의 과정이 상당히 신속하게 이루어졌습니다. 모델의 크기가 작고 응답 속도도 빠르기 때문에, 노트북이나 휴대폰, 웨어러블 기기와 같은 자원이 제한된 환경에서도 실시간으로 활용할 수 있을 가능성이 큽니다. 특히 클라우드 연동 없이 온디바이스에서 직접 동작할 수 있다는 점은, 개인정보 보호나 오프라인 환경에서도 안정적으로 사용할 수 있다는 의미이기도 합니다. 

테스트에 사용한 이미지
실행 결과 (위 이미지 왼쪽부터 순서대로 실행된 결과)

 

현재 LFM2-VL 모델은 한국어 출력을 지원하긴 하지만, 아직 정확도 면에서는 다소 아쉬운 부분이 있습니다. 세 번째 테스트 이미지(도로 표지판)를 입력했을 때, 영어 프롬프트에서는 표지판의 색상, 모양, 글자, 숫자까지 세부적으로 비교적 정확히 설명했지만, 한국어 프롬프트에서는 반복적인 표현과 불필요한 중복이 나타났습니다. 업로드한 예시 이미지를 통해 동일한 표지판에 대한 영어와 한국어 출력 결과를 직접 비교할 수 있으며, 이를 통해 모델이 한국어를 일부 지원하고 있음을 확인할 수 있습니다. 다만 실제 활용을 위해서는 후처리나 추가적인 개선 작업이 필요할 것으로 보입니다.

한국어 출력 예시

 


 

LFM2-VL 모델은 가볍고 빠른 응답 속도, 낮은 자원 소모, 그리고 텍스트와 이미지를 동시에 이해하는 멀티모달 능력이라는 장점을 고루 갖추고 있습니다. 특히 450M 버전은 소형 모델 중에서도 돋보이는 성능을 보여주며, 1.6B 버전은 중형 모델과도 경쟁할 수 있을 정도로 균형 잡힌 결과를 제공합니다. 이러한 특성은 단순히 연구용을 넘어, 실제 환경에서의 실시간 활용 가능성을 열어주고 있습니다. 예를 들어 스마트폰, 노트북, 웨어러블, 임베디드 기기 등 자원이 제한된 환경에서도 충분히 구동될 수 있다는 점은 온디바이스 AI의 장래를 잘 보여줍니다.

 

최근 AI 모델 개발은 온디바이스 활용을 목표로 한 방향으로 나아가는 것으로 보입니다. LFM2-VL은 이러한 흐름을 잘 보여주는 대표적인 사례이며, 앞으로는 더 많은 AI 모델들이 작고 효율적인 형태로 발전하여 일상 속 다양한 기기에서 자연스럽게 활용될 것으로 기대됩니다.

 

 

감사합니다. 😊

 

 

반응형