Papers - a ericgtkb Collection

ericgtkb 's Collections

Papers

Papers

updated Sep 5

Collection of useful papers.

Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 96
LoRA: Low-Rank Adaptation of Large Language Models

Paper • 2106.09685 • Published Jun 17, 2021 • 53
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

Paper • 2101.03961 • Published Jan 11, 2021 • 13
Proximal Policy Optimization Algorithms

Paper • 1707.06347 • Published Jul 20, 2017 • 11
Training Verifiers to Solve Math Word Problems

Paper • 2110.14168 • Published Oct 27, 2021 • 4
RoFormer: Enhanced Transformer with Rotary Position Embedding

Paper • 2104.09864 • Published Apr 20, 2021 • 16
Sliding Window Attention Training for Efficient Large Language Models

Paper • 2502.18845 • Published Feb 26 • 1
Mixtral of Experts

Paper • 2401.04088 • Published Jan 8, 2024 • 160
GLaM: Efficient Scaling of Language Models with Mixture-of-Experts

Paper • 2112.06905 • Published Dec 13, 2021 • 2
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer

Paper • 1701.06538 • Published Jan 23, 2017 • 7
Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for Large Language Models

Paper • 2305.14705 • Published May 24, 2023
GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

Paper • 2305.13245 • Published May 22, 2023 • 6
Asynchronous Methods for Deep Reinforcement Learning

Paper • 1602.01783 • Published Feb 4, 2016
Reinforcement Learning from Human Feedback

Paper • 2504.12501 • Published Apr 16 • 4