Skip to main content
Skill ID: $audio-deduplicate · Source

Mục đích

Bản ghi giọng nói thường có lặp ý, restart câu, vấp từ. Skill này dùng workflow 2-phase semantic — AI viết lại nội dung không lặp, rồi map keep flag từng token gốc — để xuất ra file audio sạch (.wav / .mp3) mà không thêm/đổi/đảo từ nào.

Khi nào được invoke

  • User upload bản ghi giọng có lặp/vấp và cần làm sạch.
  • Trước khi đưa audio vào pipeline video chính (sạch hơn → transcript & subtitle gọn hơn).
  • Sau khi thử voice mới mà narration bị stutter/restart.

Cách sử dụng

Gõ trong chat:
$audio-deduplicate — làm sạch jobs/<id>/input/audio/raw.wav
Agent chạy: extract word timestamps (Whisper) → AI viết lại đoạn không lặp → AI gán keep cho từng token → render concat các đoạn keep=true.
Output ở jobs/<id>/input/audio/<ten>_output.wav. Mọi state nằm trong 1 TOML duy nhất nên rerun deterministic. Skill không sửa typo ASR ở phase rewrite.