Sparse Attention Acceleration with Synergistic In-Memory Pruning and On-Chip Recomputation

Sparse Attention Acceleration with Synergistic In-Memory Pruning and On-Chip Recomputation | IEEE Conference Publication | IEEE Xplore