4张H20可以启动Qwen3-Coder-480B-A35B-Instruct-FP8吗,显存比模型小,但是MOE好像不需要占用全部显存?
MOE是inference阶段不需要,但是部署加载阶段需要全部权重
· Sign up or log in to comment