Release history

Glq releases

Back to tool Latest release

All releases

30 shown

No immediate action

v0.7.3 Bug fix 1d

Trellis checkpoint fix

Open

No immediate action

v0.7.2 Bug fix 1d

Trellis codebook fix

Open

No immediate action

v0.7.1 Performance 1d

Decode performance boost

Open

Review required

v0.7.0 Breaking risk 1d

Breaking upgrade

3INST trellis decode + OOB fix

Open

No immediate action

v0.6.9 Mixed 14d

vLLM 0.25 support + profiling fix

Open

No immediate action

v0.5.2 Bug fix 1mo

Docker image fix

Open

No immediate action

v0.5.1 Breaking risk 1mo

Default inline-dequant E8 KV

Open

No immediate action

v0.5.0 New feature 1mo

Inline-dequant E8 KV cache

Open

No immediate action

v0.3.5 New feature 2mo

Auto‑PIECEWISE downgrade

Open

No immediate action

v0.3.4 New feature 2mo

CUDA-graph capture size tuning

Open

No immediate action

v0.3.3 Bug fix 2mo

E8 KV regression fix + GLQ ops

Open

No immediate action

v0.3.2 Breaking risk 2mo

Faster decoding without flags

Open

No immediate action

v0.3.1 Bug fix 2mo

GLQShardedParameter duplicate allocation fix

Open

No immediate action

v0.2.13 Performance 3mo

Throughput +19 %

Open

No immediate action

v0.2.12 New feature 3mo

HF integration + fused MoE + torch pin

Open

No immediate action

v0.2.11 New feature 3mo

CUDA graph buckets + N-stage matmul

Open

No immediate action

v0.2.10 New feature 3mo

Decode speed boost

Open

No immediate action

v0.2.9 New feature 3mo

Block‑diagonal FHT + N‑stage RVQ

Open

No immediate action

v0.2.8 Mixed 3mo

Kernel + Inference + Quantization

Open

No immediate action

v0.2.7 New feature 4mo

CUDA Graph + INT8 KV cache

Open

No immediate action

v0.2.6 New feature 4mo

Inline PTX performance boost

Open

No immediate action

v0.2.5 Mixed 4mo

CUDA C kernel speedups + deadlock fix

Open

No immediate action

v0.2.2 New feature 4mo

Sensitivity profiling + bit‑allocation

Open

No immediate action

v0.1.6 New feature 4mo

Tiled Triton kernel speedup

Open

No immediate action

v0.1.5 Bug fix 4mo

Quantization fix

Open

No immediate action

v0.1.4 New feature 4mo

CPU offloading for 7B+ quantization

Open

No immediate action

v0.1.3 Feature 4mo

Triton kernel + benchmark script

Open

No immediate action

v0.1.2 Feature 4mo

Triton fused dequant+matmul

Open

No immediate action

v0.1.1 Maintenance 4mo

Routine maintenance and dependency updates.

Open

No immediate action

v0.1.0 Maintenance 4mo

Routine maintenance and dependency updates.

Open

Beta — feedback welcome: [email protected]