Mitigating Quantization Errors Due to Activation Spikes in Gated Linear Unit-Based Large Language Models

Mitigating Quantization Errors Due to Activation Spikes in Gated Linear Unit-Based Large Language Models

Modern large language models (LLMs) achieve state-of-the-art performance through architectural advancements but require high computational costs for inference. Post-training quantization is a widely adopted approach to reduce these costs by quantizing weights and activations to lower precision, such...

Full description

Saved in:

Bibliographic Details
Main Authors:	Jaewoo Yang, Hayun Kim, Junyung Ji, Younghoon Kim
Format:	Article
Language:	English
Published:	MDPI AG 2025-04-01
Series:	Future Internet
Subjects:	quantization LLM post-training quantization outliers
Online Access:	https://www.mdpi.com/1999-5903/17/4/185
Tags:	Add Tag No Tags, Be the first to tag this record!

Similar Items

Quantization for a Condensation System
by: Shivam Dubey, et al.
Published: (2025-04-01)

Enhanced Vector Quantization for Embedded Machine Learning: A Post-Training Approach With Incremental Clustering
by: Thommas K. S. Flores, et al.
Published: (2025-01-01)

Conditional Quantization for Uniform Distributions on Line Segments and Regular Polygons
by: Pigar Biteng, et al.
Published: (2025-03-01)

Addressing Activation Outliers in LLMs: A Systematic Review of Post-Training Quantization Techniques
by: Patrik Czako, et al.
Published: (2025-01-01)

An interpolated quantized guard band algorithm for physical layer key generation
by: Yongli An, et al.
Published: (2025-03-01)

Efficient Deep Learning Model Compression for Sensor-Based Vision Systems via Outlier-Aware Quantization
by: Joonhyuk Yoo, et al.
Published: (2025-05-01)

An Adaptive Approach in Channel Quantization for Small Cells Based on Per-Receiver Antenna Quantization
by: Sanjeeb Shrestha, et al.
Published: (2025-01-01)

Large language models for PHM: a review of optimization techniques and applications
by: Tingyi Yu, et al.
Published: (2025-08-01)

GENERATING OF OPTIMAL QUANTIZATION LEVELS OF CONTROL CURRENTS FOR LINEAR STEPPING DRIVES OF PRECISION MOTION SYSTEMS
by: I. V. Dainiak, et al.
Published: (2014-06-01)

Conditional Optimal Sets and the Quantization Coefficients for Some Uniform Distributions
by: Evans Nyanney, et al.
Published: (2025-07-01)

Quantization-Based Jailbreaking Vulnerability Analysis: A Study on Performance and Safety of the Llama3-8B-Instruct Model
by: Jaesik Lee
Published: (2025-01-01)

Quantization-Aware Training With Dynamic and Static Pruning
by: Sangho An, et al.
Published: (2025-01-01)

TCL: Time-Dependent Clustering Loss for Optimizing Post-Training Feature Map Quantization for Partitioned DNNs
by: Oscar Artur Bernd Berg, et al.
Published: (2025-01-01)

COMQ: A Backpropagation-Free Algorithm for Post-Training Quantization
by: Aozhong Zhang, et al.
Published: (2025-01-01)

Speaker Authentication Using Vector Quantization
by: Bushra Q. Al-Abudi, et al.
Published: (2009-12-01)

Nonperturbative Lorentz violation and field quantization
by: V. Alan Kostelecký, et al.
Published: (2025-06-01)

ClipQ: Clipping Optimization for the Post-Training Quantization of Convolutional Neural Network
by: Yiming Chen, et al.
Published: (2025-04-01)

WAPS-Quant: Low-Bit Post-Training Quantization Using Weight-Activation Product Scaling
by: Geunjae Choi, et al.
Published: (2025-01-01)

Qptimization design of video encoder quantizer for general DSPs
by: GAN Yong1, et al.
Published: (2007-01-01)

Utilizing the Attention Mechanism for Accuracy Prediction in Quantized Neural Networks
by: Lu Wei, et al.
Published: (2025-02-01)

Convolution Smooth: A Post-Training Quantization Method for Convolutional Neural Networks
by: Yongyuan Chen, et al.
Published: (2025-01-01)

Hierarchical Mixed-Precision Post-Training Quantization for SAR Ship Detection Networks
by: Hang Wei, et al.
Published: (2024-10-01)

Reducing Memory and Computational Cost for Deep Neural Network Training with Quantized Parameter Updates
by: Leo Buron, et al.
Published: (2025-08-01)

Optimizing Deep Learning Models for Resource‐Constrained Environments With Cluster‐Quantized Knowledge Distillation
by: Niaz Ashraf Khan, et al.
Published: (2025-05-01)

Source Quantization and Coding over Noisy Channel Analysis
by: Runfeng Wang, et al.
Published: (2024-11-01)

Quantization-based chained privacy-preserving federated learning
by: Ya Liu, et al.
Published: (2025-05-01)

Enabling Flexible Link Capacity for eCPRI-Based Fronthaul With Load-Adaptive Quantization Resolution
by: Longsheng Li, et al.
Published: (2019-01-01)

A Design of Adaptive Quantizer for MPEG-2 Video Coding
by: 孙军, et al.
Published: (1995-01-01)

Boson–Fermion Algebraic Mapping in Second Quantization
by: Fabio Lingua, et al.
Published: (2024-12-01)

Voice Identification Using MFCC and Vector Quantization
by: Bassel Alkhatib, et al.
Published: (2020-09-01)

Fully Quantized Neural Networks for Audio Source Separation
by: Elad Cohen, et al.
Published: (2024-01-01)

Design and implementation for partition dynamically vector quantization chip
by: YU Ning-mei, et al.
Published: (2009-01-01)

Design and implementation for partition dynamically vector quantization chip
by: YU Ning-mei, et al.
Published: (2009-01-01)

Research of channel quantization and feedback strategies based on multiuser diversity MIMO-OFDM systems
by: LIANG Xue-jun, et al.
Published: (2009-01-01)

Fully Quantized Matrix Arithmetic-Only BERT Model and Its FPGA-Based Accelerator
by: Hiroshi Fuketa, et al.
Published: (2025-01-01)

Rate distortion optimization for adaptive gradient quantization in federated learning
by: Guojun Chen, et al.
Published: (2024-12-01)

HLQ: Hardware-Friendly Logarithmic Quantization Aware Training for Power-Efficient Low-Precision CNN Models
by: Dahun Choi, et al.
Published: (2024-01-01)

Uniform Quantization for Multi-Antenna Amplify–Quantize–Forward Relay
by: Gangsan Jeong, et al.
Published: (2025-01-01)

Adaptive two-threshold quantization and image segmentation based on the splitting and merging areas
by: O. M. Almiahi, et al.
Published: (2019-06-01)

Randomized Quantization for Privacy in Resource Constrained Machine Learning at-the-Edge and Federated Learning
by: Ce Feng, et al.
Published: (2025-01-01)