本發(fā)明提供了一種基于推測(cè)預(yù)加載的混合專(zhuān)家模型推理優(yōu)化方法,屬于人工智能安全領(lǐng)域。該方法以提升混合專(zhuān)家模型(Mixture of Experts,簡(jiǎn)稱(chēng)MoE)在資源受限場(chǎng)景下的推理性能為目標(biāo),解決混合專(zhuān)家模型在推理階段面臨的顯存占用高及計(jì)算與...
本發(fā)明提供了一種基于專(zhuān)家親和放置與熱點(diǎn)冗余的混合專(zhuān)家模型推理優(yōu)化方法,屬于人工智能領(lǐng)域。該方法針對(duì)分布式混合專(zhuān)家模型(Mixture of Experts,簡(jiǎn)稱(chēng)MoE)在推理階段面臨的通信開(kāi)銷(xiāo)大和計(jì)算負(fù)載不均衡問(wèn)題,通過(guò)分析混合專(zhuān)家模型中專(zhuān)...