Spaces:

WeReCooking
/

ACE-Step-CPU

Running

App Files Files Community

Nekochu commited on 18 days ago

Commit

5dedf2e

1 Parent(s): 89af747

LM captioning: 5h timeout per file, check feasibility before starting

Browse files

Files changed (1) hide show

app.py +18 -14

app.py CHANGED Viewed

@@ -662,21 +662,25 @@ def gradio_main():
         if audio_to_caption and use_lm_caption and _server_ok():
             # --- Mode: GGUF LM captioning (slow, best quality) ---
             est_total = int(total_dur * 7 + len(audio_to_caption) * 600)
-            _log(f"[INFO] LM captioning {len(audio_to_caption)} files "
-                 f"(estimated ~{est_total // 60} min)...")
-            yield _log_text(), gr.Button(visible=False), gr.Button(visible=True), gr.File()
-            for audio_fname, full_path, sidecar_json in audio_to_caption:
-                if _training_cancel.is_set():
-                    break
-                file_dur = _lr.get_duration(path=full_path)
-                file_timeout = int(file_dur * 7 + 600)
-                _log(f"  {audio_fname}: LM captioning (timeout {file_timeout // 60} min)...")
                 yield _log_text(), gr.Button(visible=False), gr.Button(visible=True), gr.File()
-                caption_data = _caption_via_understand(
-                    full_path, timeout=file_timeout,
-                    cancel_check=lambda: _training_cancel.is_set(),
-                )
                 if caption_data:
                     bpm_s = caption_data.get("bpm", "?")
                     key_s = caption_data.get("keyscale", caption_data.get("key", "?"))
@@ -687,7 +691,7 @@ def gradio_main():
                     _log(f"  {audio_fname}: LM failed, will use fast captioning")
                 yield _log_text(), gr.Button(visible=False), gr.Button(visible=True), gr.File()
-        elif audio_to_caption:
             # --- Mode: Fast captioning (CLAP + Whisper + librosa) ---
             _log(f"[INFO] Fast captioning {len(audio_to_caption)} files "
                  f"(CLAP tags + lyrics + BPM)...")

         if audio_to_caption and use_lm_caption and _server_ok():
             # --- Mode: GGUF LM captioning (slow, best quality) ---
+            # 5h total budget — check if feasible first
+            LM_TIMEOUT = 18000  # 5h per file
             est_total = int(total_dur * 7 + len(audio_to_caption) * 600)
+            if est_total > LM_TIMEOUT:
+                _log(f"[WARN] Estimated {est_total // 60} min for LM captioning "
+                     f"— exceeds 5h, switching to fast captioning")
+                use_lm_caption = False
+            else:
+                _log(f"[INFO] LM captioning {len(audio_to_caption)} files...")
                 yield _log_text(), gr.Button(visible=False), gr.Button(visible=True), gr.File()
+                for audio_fname, full_path, sidecar_json in audio_to_caption:
+                    if _training_cancel.is_set():
+                        break
+                    _log(f"  {audio_fname}: LM captioning...")
+                    yield _log_text(), gr.Button(visible=False), gr.Button(visible=True), gr.File()
+                    caption_data = _caption_via_understand(
+                        full_path, timeout=LM_TIMEOUT,
+                        cancel_check=lambda: _training_cancel.is_set(),
+                    )
                 if caption_data:
                     bpm_s = caption_data.get("bpm", "?")
                     key_s = caption_data.get("keyscale", caption_data.get("key", "?"))
                     _log(f"  {audio_fname}: LM failed, will use fast captioning")
                 yield _log_text(), gr.Button(visible=False), gr.Button(visible=True), gr.File()
+        if audio_to_caption and not use_lm_caption:
             # --- Mode: Fast captioning (CLAP + Whisper + librosa) ---
             _log(f"[INFO] Fast captioning {len(audio_to_caption)} files "
                  f"(CLAP tags + lyrics + BPM)...")