论文略读:Not all Layers of LLMs are Necessary during Inference

202404 

  • LLMs的推理阶段非常昂贵
    • 目前实现LLM高效推理的流行方法包括模型剪枝和稀疏模型
      • 但这些方法可能会改变LLM参数,从而冒险损害其泛化能力。
    • 这篇论文动态减少激活神经元的数量以加速LLM推理
      • 根据输入实例动态决定推理终止时刻

猜你喜欢

转载自blog.csdn.net/qq_40206371/article/details/143256547