MultiPerson

Running on Zero

App Files Files Community

C4G-HKUST commited on 14 days ago

Commit

37e0f4b

1 Parent(s): 7b1f748

Add two generation modes: Fast (240s, 15 steps) and Quality (720s, custom steps)

Browse files

Files changed (2) hide show

README.md +16 -1
app.py +52 -7

README.md CHANGED Viewed

@@ -207,7 +207,22 @@ python app.py
 ```
 <p align="center">
   <img src="assets/gradio.png"><br>
-</p>

 ```
 <p align="center">
   <img src="assets/gradio.png"><br>
+</p>
+#### Generation Modes
+The Gradio demo provides two generation modes:
+- **Fast Mode (240s GPU duration)**:
+  - Fixed 15 denoising steps for quick generation
+  - Suitable for single-person videos or quick previews
+  - Lower GPU usage quota consumption
+- **Quality Mode (720s GPU duration)**:
+  - Custom denoising steps (adjustable via "Diffusion steps" slider)
+  - Recommended for multi-person videos that require higher quality
+  - Longer generation time but better quality output
+**Design Rationale**: Multi-person videos generally have longer duration and require more computational resources. To achieve better quality, especially for complex multi-person interactions, more denoising steps and longer GPU allocation time are needed. The Quality Mode provides sufficient Usage Quota (720 seconds) to accommodate these requirements, while the Fast Mode offers a quick preview option with fixed 15 steps for faster iteration.

app.py CHANGED Viewed

@@ -436,7 +436,7 @@ def run_graio_demo(args):
     logging.info("Model and face processor loaded successfully.")
     def generate_video(img2vid_image, img2vid_prompt, n_prompt, img2vid_audio_1, img2vid_audio_2, img2vid_audio_3,
-                    sd_steps, seed, guide_scale, person_num_selector, audio_mode_selector):
         # 参考 LivePortrait: 在 worker 进程中直接使用 cuda 设备
         # 参考: https://huggingface.co/spaces/KlingTeam/LivePortrait/blob/main/src/gradio_pipeline.py
         # @spaces.GPU 装饰器已经初始化了 GPU，这里直接使用即可
@@ -493,6 +493,13 @@ def run_graio_demo(args):
         # 读取图片
         img = Image.open(input_data["cond_image"]).convert("RGB")
         # 生成视频
         video = wan_a2v.generate(
             input_data["prompt"],
@@ -502,7 +509,7 @@ def run_graio_demo(args):
             frame_num=current_frame_num,
             shift=args.sample_shift,
             sample_solver=args.sample_solver,
-            sampling_steps=sd_steps,
             guide_scale=guide_scale,
             seed=seed if seed >= 0 else args.base_seed,
             offload_model=args.offload_model,
@@ -598,8 +605,21 @@ def run_graio_demo(args):
     # 使用 @spaces.GPU 装饰器包装 generate_video 函数（参考 LivePortrait）
     # 参考: https://huggingface.co/spaces/KlingTeam/LivePortrait/blob/main/app.py
     # @spaces.GPU 装饰器会自动处理 GPU 初始化，不需要手动初始化
-    @spaces.GPU(duration=120)
-    def gpu_wrapped_generate_video(*args, **kwargs):
         # 在 worker 进程中将模型移动到 GPU（如果模型在 CPU 上）
         # 参考 LivePortrait: 在 worker 进程中直接使用 .to("cuda")
         if torch.cuda.is_available() and device == -1:
@@ -736,7 +756,24 @@ def run_graio_demo(args):
                         value="bright tones, overexposed, static, blurred details, subtitles, style, works, paintings, images, static, overall gray, worst quality, low quality, JPEG compression residue, ugly, incomplete, extra fingers, poorly drawn hands, poorly drawn faces, deformed, disfigured, misshapen limbs, fused fingers, still picture, messy background, three legs, many people in the background, walking backwards"
                     )
-                run_i2v_button = gr.Button("Generate Video")
             with gr.Column(scale=2):
                 result_gallery = gr.Video(
@@ -770,8 +807,16 @@ def run_graio_demo(args):
                 )
-        run_i2v_button.click(
-            fn=gpu_wrapped_generate_video,  # 使用 GPU 包装函数
             inputs=[img2vid_image, img2vid_prompt, n_prompt, img2vid_audio_1, img2vid_audio_2, img2vid_audio_3, sd_steps, seed, guide_scale, person_num_selector, audio_mode_selector],
             outputs=[result_gallery],
         )

     logging.info("Model and face processor loaded successfully.")
     def generate_video(img2vid_image, img2vid_prompt, n_prompt, img2vid_audio_1, img2vid_audio_2, img2vid_audio_3,
+                    sd_steps, seed, guide_scale, person_num_selector, audio_mode_selector, fixed_steps=None):
         # 参考 LivePortrait: 在 worker 进程中直接使用 cuda 设备
         # 参考: https://huggingface.co/spaces/KlingTeam/LivePortrait/blob/main/src/gradio_pipeline.py
         # @spaces.GPU 装饰器已经初始化了 GPU，这里直接使用即可
         # 读取图片
         img = Image.open(input_data["cond_image"]).convert("RGB")
+        # 如果提供了 fixed_steps，使用它；否则使用用户选择的 sd_steps
+        actual_steps = fixed_steps if fixed_steps is not None else sd_steps
+        if fixed_steps is not None:
+            logging.info(f"Using fixed denoising steps: {fixed_steps}")
+        else:
+            logging.info(f"Using user-selected denoising steps: {sd_steps}")
         # 生成视频
         video = wan_a2v.generate(
             input_data["prompt"],
             frame_num=current_frame_num,
             shift=args.sample_shift,
             sample_solver=args.sample_solver,
+            sampling_steps=actual_steps,
             guide_scale=guide_scale,
             seed=seed if seed >= 0 else args.base_seed,
             offload_model=args.offload_model,
     # 使用 @spaces.GPU 装饰器包装 generate_video 函数（参考 LivePortrait）
     # 参考: https://huggingface.co/spaces/KlingTeam/LivePortrait/blob/main/app.py
     # @spaces.GPU 装饰器会自动处理 GPU 初始化，不需要手动初始化
+    # 快速生成模式：240秒，固定15步去噪
+    @spaces.GPU(duration=240)
+    def gpu_wrapped_generate_video_fast(*args, **kwargs):
+        # 固定使用15步去噪，通过关键字参数传递
+        kwargs['fixed_steps'] = 15
+        return gpu_wrapped_generate_video_worker(*args, **kwargs)
+    # 高质量生成模式：720秒，用户选择去噪步数
+    @spaces.GPU(duration=720)
+    def gpu_wrapped_generate_video_quality(*args, **kwargs):
+        return gpu_wrapped_generate_video_worker(*args, **kwargs)
+    # 共享的 worker 函数，处理 GPU 移动逻辑
+    def gpu_wrapped_generate_video_worker(*args, **kwargs):
         # 在 worker 进程中将模型移动到 GPU（如果模型在 CPU 上）
         # 参考 LivePortrait: 在 worker 进程中直接使用 .to("cuda")
         if torch.cuda.is_available() and device == -1:
                         value="bright tones, overexposed, static, blurred details, subtitles, style, works, paintings, images, static, overall gray, worst quality, low quality, JPEG compression residue, ugly, incomplete, extra fingers, poorly drawn hands, poorly drawn faces, deformed, disfigured, misshapen limbs, fused fingers, still picture, messy background, three legs, many people in the background, walking backwards"
                     )
+                with gr.Row():
+                    run_i2v_button_fast = gr.Button(
+                        "Generate Video (Fast - 240s, 15 steps)",
+                        variant="secondary",
+                        scale=1
+                    )
+                    run_i2v_button_quality = gr.Button(
+                        "Generate Video (Quality - 720s, Custom steps)",
+                        variant="primary",
+                        scale=1
+                    )
+                gr.Markdown("""
+                **Generation Modes:**
+                - **Fast Mode (240s)**: Fixed 15 denoising steps for quick generation. Suitable for single-person videos or quick previews.
+                - **Quality Mode (720s)**: Custom denoising steps (adjustable via "Diffusion steps" slider). Recommended for multi-person videos that require higher quality and longer generation time.
+                *Note: Multi-person videos generally require longer duration and more Usage Quota for better quality.*
+                """)
             with gr.Column(scale=2):
                 result_gallery = gr.Video(
                 )
+        # 快速生成按钮：240秒，固定15步
+        run_i2v_button_fast.click(
+            fn=gpu_wrapped_generate_video_fast,
+            inputs=[img2vid_image, img2vid_prompt, n_prompt, img2vid_audio_1, img2vid_audio_2, img2vid_audio_3, sd_steps, seed, guide_scale, person_num_selector, audio_mode_selector],
+            outputs=[result_gallery],
+        )
+        # 高质量生成按钮：720秒，用户选择步数
+        run_i2v_button_quality.click(
+            fn=gpu_wrapped_generate_video_quality,
             inputs=[img2vid_image, img2vid_prompt, n_prompt, img2vid_audio_1, img2vid_audio_2, img2vid_audio_3, sd_steps, seed, guide_scale, person_num_selector, audio_mode_selector],
             outputs=[result_gallery],
         )