Skip to main content
Skill ID: $overlay-subject-placement · Source: skills/overlay_subject_placement/SKILL.md

Mục đích

Phân tích một frame (PNG/JPEG hoặc screenshot preview) bằng vision LLM không phải Gemini để đề xuất vị trí đặt text/image/video overlay sao cho:
  • Không che chủ thể chính.
  • Không chạm vùng unsafe.
  • Tương thích position mà pipeline hiện hỗ trợ (upper_third hoặc lower_third).
Skill này chỉ hỗ trợ quyết định placement; không thay thế semantic indexing và không thay đổi schema bắt buộc của pipeline.

Khi nào được invoke

  • Cần chốt vị trí overlay trong creative_plan.toml hoặc render_plan.toml.
  • Cảnh có chủ thể gần vùng overlay, dễ bị che mặt/che hành động chính.
  • Cần kiểm tra nhanh placement trước khi render full pass.

Hard safe-area cho canvas 9:16

Vùng unsafe cố định theo pixel:
  • top = 100
  • left = 100
  • right = 100
  • bottom = 200
Suy ra overlay hợp lệ phải nằm trọn trong vùng an toàn:
  • x >= 100
  • y >= 100
  • x + w <= 980
  • y + h <= 1720
Nếu placement vi phạm safe-area hoặc đè lên chủ thể, phải reject và chọn phương án khác.

Cách sử dụng

Gõ trong chat:
$overlay-subject-placement — phân tích frame hiện tại và đề xuất vị trí overlay an toàn
Có thể trích frame trước khi phân tích:
ffmpeg -ss 00:00:05.200 -i input.mp4 -frames:v 1 frame_5_2s.png

Artifact và handoff

  • Có thể lưu kết quả vào jobs/<job_id>/source/overlay_placement.toml.
  • Nếu đang ở bước planner: cập nhật [[text_overlays]].position trong creative_plan.toml.
  • Nếu đang ở bước render plan: cập nhật [[overlays]].position trong render_plan.toml.
Mọi reason hoặc mô tả do AI sinh ra trong output placement phải viết bằng tiếng Việt có dấu.