Google, Gemini 3.1 Flash-Lite와 Gemma 4 공개

입력 토큰 100만 개당 $0.25. Google이 Gemini 3.1 Flash-Lite, Gemini 3.1 Pro, 그리고 오픈소스 모델 Gemma 4를 동시에 공개하며 효율 모델 경쟁의 새 기준선을 제시했습니다.

배경

LLM 시장은 '최고 성능'과 '최저 비용'이라는 두 축으로 빠르게 분화하고 있습니다. OpenAI, Anthropic, Meta가 각각 경량 모델 라인업을 강화하는 가운데, Google은 이번 발표로 세 트랙을 동시에 가동합니다 — 최고 성능(Pro), 최고 효율(Flash-Lite), 오픈소스(Gemma).

Gemini 3.1 Flash-Lite: 속도와 가격의 새 기준

Flash-Lite는 기존 모델 대비 응답 속도 2.5배, 출력 생성 속도 45% 향상을 달성했습니다. 가격은 입력 토큰 100만 개당 $0.25로, 대량 호출이 필요한 프로덕션 워크로드에 특화된 초저가 전략입니다.

실시간 음성 에이전트, 대규모 문서 처리, IoT 디바이스 연동처럼 호출 빈도가 높고 지연시간에 민감한 유스케이스에서 Flash-Lite의 가격 구조는 의미 있는 차이를 만듭니다.

Gemini 3.1 Pro: 추론 벤치마크 1위

효율 모델과 동시에 공개된 Gemini 3.1 Pro는 GPQA Diamond에서 94.3%를 기록하며 추론 벤치마크 1위를 차지했습니다. Google이 '싸고 빠른 모델'만 추구하는 것이 아니라, 고난도 추론 영역에서도 선두를 유지하겠다는 의지를 보여줍니다.

Gemma 4: 오픈소스 진영의 새 카드

Gemma 4는 Google이 '가장 지능적인 오픈 모델'로 소개한 오픈소스 모델입니다. 고급 추론 능력과 함께 에이전틱 워크플로에 최적화된 설계가 특징입니다. Meta의 Llama 시리즈와 직접 경쟁하는 포지션으로, 오픈소스 모델 생태계의 경쟁이 한층 격화될 전망입니다.

삼성과의 협업: 디바이스 8억 대 목표

Samsung은 2026년 말까지 Gemini AI를 탑재한 모바일 기기 8억 대를 목표로 하고 있습니다. 클라우드 API뿐 아니라 온디바이스 추론까지 확장하겠다는 Google의 전략이 하드웨어 파트너십으로 구체화되는 지점입니다.

국내 시사점

한국 기업에게 Flash-Lite의 가격 구조는 LLM 비용 최적화의 실질적 선택지가 됩니다. 입력 토큰당 $0.25는 대량 호출 기반 서비스 — 고객센터 자동화, 실시간 번역, 문서 요약 — 의 운영 비용을 유의미하게 낮출 수 있는 수준입니다. 기존에 비용 문제로 LLM 도입을 보류했던 중견기업에게도 재검토의 계기가 될 수 있습니다.

Gemma 4 오픈소스 공개는 국내 AI 스타트업에 직접적인 기회입니다. 자체 파인튜닝을 통해 도메인 특화 모델을 구축할 수 있고, 에이전틱 워크플로 최적화 설계는 음성 AI, RPA, 업무 자동화 영역에서 즉시 활용 가능한 기반을 제공합니다. Llama 대비 Google 생태계(Vertex AI, GKE)와의 통합 용이성도 국내 GCP 사용 기업에게는 실질적 이점입니다.

📌

핵심: Flash-Lite 입력 $0.25/1M 토큰, Pro GPQA 94.3% 1위, Gemma 4 오픈소스 에이전틱 모델 — Google의 3트랙 전략이 효율 모델 경쟁의 새 판을 열었습니다.

Google, Gemini 3.1 Flash-Lite와 Gemma 4 공개 — 효율 모델 경쟁 가속

배경

Gemini 3.1 Flash-Lite: 속도와 가격의 새 기준

Gemini 3.1 Pro: 추론 벤치마크 1위

Gemma 4: 오픈소스 진영의 새 카드

삼성과의 협업: 디바이스 8억 대 목표

국내 시사점

Related Posts

Telnyx, 'LiveKit on Telnyx' 출시 — Voice AI 인프라 비용 혁신

Anthropic Conway — 항시 가동 자율 에이전트의 등장