Library/flash-attentionForked

Dao-AILab/flash-attention

flash-attention

Fast and memory-efficient exact attention

View on GitHub↗Upstream Dao-AILab/flash-attention↗

Builder

Dao-AILab

Dao-AILab • individual

Stars

23,987

Using upstream star count

Forks

2,779

Using upstream fork count

Open Issues

Activity Score

0/100

0 commits in 30d

Created

May 19, 2022

Project creation date

README Summary

FlashAttention This repository provides the official implementation of FlashAttention and FlashAttention-2 from the following papers.

Community Evaluation

Loading…

AI Dev Skills

Unmapped

Algorithm OptimizationAttention Mechanism DesignAttention Mechanism OptimizationAttention MechanismsComputational Complexity AnalysisCUDA/GPU AccelerationCUDA ProgrammingGPU Kernel DevelopmentGPU Kernel ProgrammingGPU OptimizationHigh-Performance ComputingLarge Language Model TrainingLow-level Performance TuningMemory Efficiency in Deep LearningMemory-Efficient Deep LearningMixed Precision TrainingNumerical StabilityNumerical Stability in Neural NetworksTransformer ArchitectureTransformer Architecture Optimization

Taxonomy

AI Trends

Large Language Models Efficient AI Transformer Optimization Hardware-Aware Algorithm Design Model Optimization Scaling Transformer Models Efficient Transformers Hardware-aware Algorithm Design Scaling Language Models Inference Optimization

category

Foundation Models AI Agents RAG & Retrieval Model Training Evals & Benchmarking Inference & Serving MLOps & Infrastructure Dev Tools & Automation Learning Resources Security & Safety

Deployment Context

Cloud On-premise Self-hosted Cloud GPU Edge with GPU acceleration

Modalities

Text Image Code

Skill Areas

tag

Benchmarking Context Engineering Docker Embeddings Evals Forked GPU / CUDA Gemma HuggingFace KV Cache Mistral OpenAI PyTorch Python Research / Papers Security vLLM

Use Cases

Efficient training of large language models Long-context sequence processing Reducing GPU memory consumption Accelerating transformer inference Training with larger batch sizes on constrained hardware Enabling longer sequence lengths in vision and language tasks Training Large Language Models Inference Optimization for Transformers Long Context Processing Memory-Constrained Model Training Efficient Sequence Processing Accelerating Large Language Model Inference Reducing Training Time for Transformers Efficient Fine-tuning of Foundation Models Long-context Processing Memory-constrained Deployment

Recent Activity

Updated 2 months ago

7 Days

30 Days

90 Days

[AMD ROCm] Update CK and add RDNA 3/4 support (#2400)

rocking • Mar 26, 2026

5301a35

[Fwd,Sm100] Clean up pipeline creation a bit

Tri Dao • Mar 26, 2026

4fcfdec

Fix edge case when tag has no delta from previous (#2394)

Driss Guessous • Mar 25, 2026

abd9943

Quality

production

Quality: high
Maturity: production

PM Skills

Cost & EfficiencyScale & ReliabilityData & EvaluationProduct DiscoveryAI-Native Architecture

Languages

Python100.0%

Timeline

Project created: May 19, 2022
Forked: Mar 28, 2026
Your last push: 2 months ago
Upstream last push: 17 days ago
Tracked since: Mar 26, 2026

Similar Repos

pgvector cosine similarity · $0

Loading…

Library/flash-attentionForked

Dao-AILab/flash-attention

flash-attention

Fast and memory-efficient exact attention

View on GitHub↗Upstream Dao-AILab/flash-attention↗

Builder

Dao-AILab

Dao-AILab • individual

Stars

23,987

Using upstream star count

Forks

2,779

Using upstream fork count

Open Issues

Activity Score

0/100

0 commits in 30d

Created

May 19, 2022

Project creation date

README Summary

FlashAttention This repository provides the official implementation of FlashAttention and FlashAttention-2 from the following papers.

Community Evaluation

Loading…

AI Dev Skills

Unmapped

Taxonomy

AI Trends

Recent Activity

Updated 2 months ago

7 Days

30 Days

90 Days

[AMD ROCm] Update CK and add RDNA 3/4 support (#2400)

rocking • Mar 26, 2026

5301a35

[Fwd,Sm100] Clean up pipeline creation a bit

Tri Dao • Mar 26, 2026

4fcfdec

Fix edge case when tag has no delta from previous (#2394)

Driss Guessous • Mar 25, 2026

abd9943

Quality

production

Quality: high
Maturity: production

PM Skills

Cost & EfficiencyScale & ReliabilityData & EvaluationProduct DiscoveryAI-Native Architecture

Languages

Python100.0%

Timeline

Project created: May 19, 2022
Forked: Mar 28, 2026
Your last push: 2 months ago
Upstream last push: 17 days ago
Tracked since: Mar 26, 2026

Similar Repos

pgvector cosine similarity · $0

Loading…

flash-attention

README Summary

Community Evaluation

AI Dev Skills

Tags

Taxonomy

Recent Activity

Quality

Categories

PM Skills

Languages

Timeline

Similar Repos

flash-attention

README Summary

Community Evaluation

AI Dev Skills

Tags

Taxonomy

Recent Activity

Quality

Categories

PM Skills

Languages

Timeline

Similar Repos