MiniMax MSA

LLM開発・技術

MiniMax MSAとは?長文アテンション計算を28.4倍削減する2段階スパースアテンションを解説【2026年6月】

長文LLMの計算コスト増という壁に対し、MiniMax Sparse Attention(MSA)は「読むべき範囲を絞り、主計算量を一定に固定する」アプローチを取ります。GQAベースの2段階構造(Index/Main Branch)が、どのようにしてコンテキスト長と計算量を切り離すのか、その仕組みと効果を109Bモデルでの実証例を基に解説します。