vlm
-
로컬 VLM으로 가족사진 3만 장 분석하기 — 열흘간의 대장정IT 2026. 4. 3. 21:00
왜 3만 장의 사진에 AI를 붙이려 했나가족사진은 쌓이기만 한다. 폰에서 NAS로, NAS에서 사진 관리 서버로 옮겨도 결국 "찾을 수 없는 사진"이 되어간다. "작년 여름 바다에서 찍은 사진" 같은 자연어 검색을 하려면 사진마다 설명과 태그가 있어야 하는데, 3만 장을 사람이 수동으로 분류하는 것은 불가능에 가깝다.해결책은 VLM(Vision Language Model)이었다. 이미지를 보고 자연어로 설명을 생성하는 AI 모델을 로컬 GPU에서 돌려, 사진마다 한국어 설명·인물 수·장소 유형·장면 분류·키워드 태그를 자동으로 붙이기로 했다.시스템 구성구성요소역할Immich사진 관리 서버 (API로 에셋 목록 조회, 썸네일 다운로드, 태그 부착)Ollama로컬 LLM 서빙 엔진 (VLM 모델 호스팅)Qw..
-
수만 장 가족사진에 AI가 메타데이터를 입히는 과정 — Immich + VLM 파이프라인 해부IT 2026. 3. 18. 23:00
사진을 Immich에 올리면 끝일까? 26,841장의 가족사진을 Immich에 넣은 뒤, 진짜 작업이 시작되었다. 사진 한 장에 붙는 메타데이터가 어떤 종류가 있고, 각각 어떻게 만들어지며, 지금 어디까지 진행되었는지 정리한다.사진 한 장에 붙는 정보들Immich에 사진을 업로드하면 여러 겹의 정보가 사진 위에 쌓인다. 크게 네 가지 레이어로 나눌 수 있다.하나씩 살펴보자.Layer 1: EXIF — 카메라가 남기는 기본 정보사진 파일 안에 원래 들어 있는 정보다. Immich가 새로 만드는 게 아니라, 카메라(또는 스마트폰)가 촬영 시점에 기록한 것을 Immich가 읽어서 DB에 저장한다.항목예시활용촬영일시2023-08-15 14:32:07타임라인 정렬, "이 날의 추억"GPS 좌표37.5665°N, ..