Install.command / Install.bat / cài tay theo Quickstart), mở folder bằng IDE bạn dùng (cursor ., codex, hoặc claude) rồi paste prompt tương ứng vào chat.
Use case 1 — Chỉ phân tích video mẫu
Kết quả: 1 file VDS (Video Design Spec).md mô tả phong cách video mẫu — màu, mood, nhịp, motion, overlay, hook pattern. Tái dùng cho mọi job sau này.
Khi nào dùng: bạn có 1 video reference đẹp (TikTok của ai đó, ad mẫu, brand video) và muốn “lưu phong cách” để bắt chước sau.
Prerequisites: GEMINI_API_KEY trong .env (Gemini Vision phân tích video).
Prompt copy-paste:
$video-job-manager create-job→ tạojobs/<id>/.- Copy
sample.mp4vàojobs/<id>/input/reference/. $video-design-spec-builderchạy Gemini Vision pass trên video → trích DNA.- Ghi
jobs/<id>/source/vds.md(bám template VDS chuẩn).
Use case 2 — Chỉ de-dup audio
Kết quả: 1 file audio sạch, không lặp từ/cụm/câu liên tiếp. Khi nào dùng: bạn ghi narration thô (đôi khi đọc lại 2–3 lần một câu để chọn take tốt nhất) và muốn loại bản dư trước khi đưa vào pipeline. Prerequisites:OPENAI_API_KEY trong .env (script $word-timestamps-extractor hiện dùng Whisper/OpenAI transcription để lấy timestamp cấp từ).
Prompt copy-paste:
$word-timestamps-extractortrích xuất transcript có timestamp cấp câu/từ từ file audio. Script hiện chạywhisper-1(hoặc API transcription tương thích) → TOML word-level timestamps.$audio-deduplicateđọc TOML, detect cụm lặp consecutive (cùng từ/2-gram/3-gram trong window 5s), lập danh sách timeline cần cắt.- Dùng
ffmpegcắt và ghép → file audio sạch. - Ghi log diff (đoạn đã xóa, độ dài tiết kiệm).
Use case 3 — Tạo video từ audio có sẵn, dùng asset có sẵn
Kết quả: video MP4 9:16 (hoặc 16:9 / 1:1) hoàn chỉnh, narration là audio bạn có, hình từ folder asset của bạn. Khi nào dùng: bạn đã ghi narration (hoặc TTS sẵn) + có folder ảnh/video raw (chụp/quay) → muốn dựng nhanh. Prerequisites:OPENAI_API_KEY(transcribe + embedding) +GEMINI_API_KEY(asset semantic).- Watcher asset-index đang chạy (chạy
setup/Status.commandđể verify) — nếu chưa, drop file vàoraw_assets/cũng được, agent sẽ tự fallback Gemini Vision pass.
$word-timestamps-extractortrích xuất transcript timing từnarration.wav→transcript.toml.$video-creative-plannerviết creative plan dựa trên transcript thực (không bịa script mới) + scene intent từ ngữ cảnh asset-index.$asset-semantic-extractor(hoặc query asset-index DB) →asset_semantics.toml.$semantic-asset-mappermap mỗi câu/scene → 1 asset cụ thể.$shot-coverage-plannerbù shot thiếu (cutaway, slowdown, hold + Ken Burns).$video-render-plan-builderghép tất cả →render_plan.toml.$video-renderer(Remotion) render →output/final.mp4.
jobs/<id>/output/final.mp4 + tất cả TOML intermediate (audit được).
Use case 4 — Tạo video từ text script, dùng asset có sẵn
Kết quả: video MP4 hoàn chỉnh, narration sinh bằng TTS, hình từ folder asset của bạn. Khi nào dùng: bạn có sẵn nội dung muốn nói (script tiếng Việt/Anh) + folder asset, không có audio. Prerequisites:OPENAI_API_KEY,GEMINI_API_KEY,AUSYNCLAB_API_KEYtrong.env.
script.md có thể chỉ là 1 đoạn paragraph — agent sẽ tự chia câu/scene.
Bước 2 — Prompt chạy pipeline:
$video-creative-plannerđọcscript.md+ asset semantic → tạo creative plan + scene intent.$ausynclab-voice select-voicerank giọng theotone+delivery+language. Chốt 1 giọng →$ausynclab-voice generate-speechrendernarration.wav.$word-timestamps-extractortrích xuất lại timing từnarration.wav(để có timestamp chính xác — TTS không trả timestamp đủ tin cậy).- Tiếp tục như Use case 3 (mapper → coverage planner → render plan → renderer).
Use case 5 — Tạo video từ audio có sẵn, dùng asset AI (cố định nhân vật)
Kết quả: video MP4 hoàn chỉnh, narration là audio bạn có, mọi hình do$fal-image-generator sinh ra (lock 1 nhân vật xuyên suốt).
Khi nào dùng: bạn có audio + ý tưởng kịch bản nhưng không có raw footage, muốn AI sinh ảnh từng scene và giữ nhất quán 1 nhân vật chính.
Prerequisites:
OPENAI_API_KEY,GEMINI_API_KEY,FAL_API_KEYtrong.env.- 1 ảnh portrait sạch của nhân vật chính (PNG/JPG, ưu tiên ảnh chính diện) làm reference image. Nếu không có, agent dùng prompt thuần (model
nano-bananavẫn lock được trong cùng phiên nhưng độ ổn định kém hơn).
raw_assets/ để rỗng — pipeline sẽ tự sinh ảnh AI vào raw_assets/images/ai_generated/.
Bước 2 — Prompt chạy pipeline:
scene_intents[].visual_intent + mood + preferred_shot_types + style hint từ VDS, kèm ảnh reference → nano-banana giữ identity nhân vật.
Output:
Skill đơn lẻ — gọi từng phần
Khi chỉ cần 1 stage, gọi trực tiếp skill không qua orchestrator:Trích phong cách từ video mẫu
$video-design-spec-builder — phân tích /path/to/sample.mp4Viết kịch bản từ brief
$video-creative-planner — viết TikTok 45s reflectiveSinh narration TTS
$ausynclab-voice — chọn giọng phù hợp creative plan và render audioKhử lặp audio
$audio-deduplicate — làm sạch jobs/<id>/input/audio/raw.wavSinh ảnh AI
$fal-image-generator — sinh ảnh cho creative plan, lock nhân vật ref.jpgIndex folder asset
Drop file vào
raw_assets/ → watcher tự index trong ~10s.Quản lý job & asset
Tạo job mới
Tìm asset bằng tiếng Việt
Double-click
setup/Search.command, gõ truy vấn (vd phong cảnh núi tuyết). Xem chi tiết →Kiểm tra watcher
Double-click
setup/Status.command để xem pid, processed_count, last_error. Xem chi tiết →Verify pipeline lần đầu
3 bước: drop file ảnh test → đợi watcher → search khớp keyword. Xem chi tiết →
Tips chung
Reference khác
Toàn bộ skill
13 skill + 1 third-party.
Nâng cao: Asset Index
Kiến trúc Asset Index, file runtime, CLI, idempotency.