本發(fā)明提供了一種基于專家親和放置與熱點(diǎn)冗余的混合專家模型推理優(yōu)化方法,屬于人工智能領(lǐng)域。該方法針對(duì)分布式混合專家模型(Mixture of Experts,簡稱MoE)在推理階段面臨的通信開銷大和計(jì)算負(fù)載不均衡問題,通過分析混合專家模型中專...
本發(fā)明提供了一種基于推測(cè)預(yù)加載的混合專家模型推理優(yōu)化方法,屬于人工智能安全領(lǐng)域。該方法以提升混合專家模型(Mixture of Experts,簡稱MoE)在資源受限場景下的推理性能為目標(biāo),解決混合專家模型在推理階段面臨的顯存占用高及計(jì)算與...