분류 전체보기
-
수만 장 가족사진에 AI가 메타데이터를 입히는 과정 — Immich + VLM 파이프라인 해부IT 2026. 3. 18. 23:00
사진을 Immich에 올리면 끝일까? 26,841장의 가족사진을 Immich에 넣은 뒤, 진짜 작업이 시작되었다. 사진 한 장에 붙는 메타데이터가 어떤 종류가 있고, 각각 어떻게 만들어지며, 지금 어디까지 진행되었는지 정리한다.사진 한 장에 붙는 정보들Immich에 사진을 업로드하면 여러 겹의 정보가 사진 위에 쌓인다. 크게 네 가지 레이어로 나눌 수 있다.하나씩 살펴보자.Layer 1: EXIF — 카메라가 남기는 기본 정보사진 파일 안에 원래 들어 있는 정보다. Immich가 새로 만드는 게 아니라, 카메라(또는 스마트폰)가 촬영 시점에 기록한 것을 Immich가 읽어서 DB에 저장한다.항목예시활용촬영일시2023-08-15 14:32:07타임라인 정렬, "이 날의 추억"GPS 좌표37.5665°N, ..
-
gogcli에서 gws로: REST API → CLI → AI Agent, 도구의 진화를 따라가다IT 2026. 3. 17. 23:00
들어가며터미널을 열고 gog gmail send 한 줄이면 메일이 나가던 시절이 있었다. 브라우저를 열고 Gmail에 로그인할 필요가 없었다. 그런데 어느 날 Google이 직접 CLI를 내놓았다. 이름은 gws. "그냥 또 하나 나온 거 아냐?"라고 생각했는데, 써보니 결이 달랐다.이 글은 gogcli에서 gws로 갈아탄 과정을 기록하면서, 그 뒤에 깔린 더 큰 흐름 — REST API → CLI → AI Agent 통합 — 을 함께 짚어보려 한다.왜 CLI인가? — REST API의 불편함Google Workspace API를 직접 쓰려면 이런 과정을 거쳐야 했다:Google Cloud Console에서 프로젝트 생성OAuth 2.0 자격 증명 설정토큰 발급 및 갱신 코드 작성각 API 엔드포인트마다..
-
DGX Spark에서 Immich로 가족앨범 GPU 가속 관리하기IT 2026. 3. 16. 22:00
들어가며가족앨범을 AI로 관리하고 싶었다. "레고 블록을 쌓는 아이"로 검색하면 해당 사진이 나오고, 얼굴 인식으로 인물별 앨범이 자동으로 만들어지는 것. 구글 포토가 해주는 것을 내 서버에서 직접 돌리고 싶었다.Immich는 이 모든 것을 제공하는 셀프호스팅 사진 관리 솔루션이다. 하지만 DGX Spark(ARM64 + Blackwell GPU)에서 돌리려니 생각보다 많은 장벽이 있었다. 이것은 그 구축 과정의 기록이다.Immich란?구글 포토의 셀프호스팅 대안이다. GitHub 60,000+ stars.항목구글 포토Immich데이터 위치구글 서버내 서버원본 보존15GB 이후 압축/유료압축 없음, 무제한얼굴 인식✅✅자연어 검색✅✅ (CLIP)비용15GB 초과 유료무료프라이버시❌✅환경과 도전 과제항목값서..
-
DGX Spark에서 ONNX Runtime GPU 빌드 성공기 — 8번의 실패와 1번의 성공IT 2026. 3. 16. 21:00
들어가며22,500장의 가족 사진을 AI로 분석하고 싶었다. CLIP으로 자연어 검색을, InsightFace로 얼굴 인식을 돌리면 된다. 문제는 GPU 없이 CPU로 돌리면 며칠이 걸린다는 것이었다.NVIDIA DGX Spark라면 128GB 통합 메모리에 Blackwell 아키텍처 GB10 GPU까지 있으니 충분히 빠르게 돌릴 수 있을 것 같았다. 하지만 GPU를 쓰기까지 8번의 실패를 거쳐야 했다. 이것은 그 기록이다.환경항목값서버NVIDIA DGX SparkCPUNVIDIA Grace (ARM64 / aarch64)GPUNVIDIA GB10 (Blackwell, SM 121, compute 12.1)메모리128GB LPDDR5x (CPU/GPU 통합)CUDA13.0.88Driver580.126.0..
-
왜 MoE 아키텍처가 등장했나? - Trinity 모델 툴콜링 이슈에서 출발한 탐구IT 2026. 3. 15. 23:00
도입: Trinity 모델의 툴콜링 한계최근 OpenRouter에서 무료로 제공되는 Trinity 모델을 사용하면서 흥미로운 현상을 발견했습니다. 이 모델은 복잡한 추론에는 꽤 강한데, 툴콜링(API나 스크립트 호출)이 제대로 동작하지 않는 경우가 종종 발생합니다. 원인을 찾아보니 이 모델은 Mixture of Experts(MoE) 아키텍처를 사용하며, 추론 시 전체 파라미터 중 일부 전문가(Expert)만 활성화된다는 사실을 알게 되었습니다.그렇다면 왜 MoE 같은 아키텍처가 등장하게 되었을까요? 그리고 이 설계 선택은 어떤 trade-off를 내포하고 있을까요?MoE 아키텍처의 핵심 아이디어MoE는 "전문가들의 혼합"입니다. 하나의 거대한 모델 안에 여러 전문가 서브네트워크(Expert)를 두고, ..
-
Claude Code Remote Control 실전 가이드 - 서버의 AI를 모바일에서 이어 쓰기IT 2026. 3. 15. 22:00
Remote Control이 뭔가요?서버나 개발 PC에서 돌아가는 Claude Code 세션을 모바일 폰이나 다른 컴퓨터의 브라우저에서 그대로 이어서 사용하는 기능입니다.Claude Code는 내 머신에서 계속 실행되고, 웹이나 모바일은 세션을 보는 창 역할만 합니다. 로컬 파일, Git, MCP, 도구 전부 그대로 쓸 수 있습니다.로컬 PC / 서버 └ Claude Code 실행 │ │ Remote Control (HTTPS) ▼모바일 / 다른 PC └ claude.ai/code 또는 Claude 앱일반적인 원격 데스크톱과 달리, 외부 포트를 열 필요가 없고 outbound HTTPS만 사용합니다. 네트워크 설정이 훨씬 단순합니다.사용 조건Claude Code..
-
블록체인에서 AI 개발까지 - Proof of Work는 어떻게 진화했나IT 2026. 3. 15. 21:00
학교에서 배운 것과 AI 개발이 연결됐다학교에서 블록체인 생태계를 배울 때 이런 문장이 기억에 남았다."블록은 기록하는 비용은 극히 비싸게 만든 반면, 기록이 타당한지 검증하는 비용은 극히 싸게 만들어 부당한 거래를 하려는 요인을 거의 모두 제거한 것이 Proof of Work다."최근 AI 코딩 에이전트를 공부하다가 OpenAI의 에이전트 프레임워크를 접했는데, 거기서도 "Proof of Work"라는 용어가 등장했다. CI를 통과하고 작업 영상을 첨부해야만 PR을 올릴 수 있다는 개념이었다.단순히 같은 단어를 쓴 것이 아니었다. 두 시스템이 풀려는 문제가 본질적으로 같았다.두 시스템이 푸는 문제 - "신뢰 없이 신뢰하기"블록체인이 해결한 문제를 한 문장으로 정리하면 이렇다:"은행(중앙기관) 없이 어떻..
-
AI 에이전트에게 자율권을 얼마나 줄 것인가 - HITL Policy 설계IT 2026. 3. 14. 23:00
AI가 일을 대신 해준다면서, 왜 이렇게 자꾸 물어보는 거야?AI 에이전트 도구를 쓰다 보면 이런 경험 해보셨을 겁니다."파일 읽어도 될까요?""이 명령어 실행해도 될까요?""이 검색을 수행해도 될까요?"한두 번이야 괜찮죠. 그런데 작업 하나에 10번, 20번씩 물어보면 어떨까요? AI한테 일을 시킨 건데, 결국 내가 계속 "응, 해" 버튼을 눌러야 합니다. 이러면 자동화가 아니라 반자동화도 아닌, 그냥 승인 버튼 노가다입니다.이 문제의 핵심에 HITL(Human-in-the-Loop)이라는 개념이 있습니다. AI 에이전트가 자율적으로 작업하되, 적절한 순간에 사람의 판단을 받는 구조인데요. 여기서 "적절한 순간"을 잘 정의하는 것이 바로 HITL Policy입니다.HITL Policy란?HITL Pol..