Library/olmocrForked

allenai/olmocr

olmocr

Toolkit for linearizing PDFs for LLM datasets/training

View on GitHub↗Upstream allenai/olmocr↗

Builder

Allen AI

allenai • ai-lab

Stars

19,105

Using upstream star count

Forks

1,573

Using upstream fork count

Open Issues

Activity Score

0/100

0 commits in 30d

Created

Sep 17, 2024

Project creation date

README Summary

Community Evaluation

Loading…

AI Dev Skills

Unmapped

Data Pipeline EngineeringDocument Layout AnalysisLanguage Model Training Data PreparationOptical Character RecognitionPDF Processing and ExtractionText Preprocessing for LLMs

Taxonomy

AI Trends

Large Language Model Training Document AI Multimodal Learning

Recent Activity

Updated 4 months ago

7 Days

30 Days

90 Days

Bump version to v0.4.27 for release

Jake Poznanski • Mar 12, 2026

1e139a5

Version bump

Jake Poznanski • Mar 12, 2026

3c0ff52

Formatting fixes

Jake Poznanski • Mar 12, 2026

19a1b90

Quality

research

Quality: medium
Maturity: research

PM Skills

Cost & EfficiencyUser ExperienceScale & ReliabilityData & Evaluation

Languages

Python100.0%

Timeline

Project created: Sep 17, 2024
Forked: Mar 16, 2026
Your last push: 4 months ago
Upstream last push: 3 months ago
Tracked since: Mar 14, 2026

Similar Repos

pgvector cosine similarity · $0

Loading…

Library/olmocrForked

allenai/olmocr

olmocr

Toolkit for linearizing PDFs for LLM datasets/training

View on GitHub↗Upstream allenai/olmocr↗

Builder

Allen AI

allenai • ai-lab

Stars

19,105

Using upstream star count

Forks

1,573

Using upstream fork count

Open Issues

Activity Score

0/100

0 commits in 30d

Created

Sep 17, 2024

Project creation date

README Summary

Community Evaluation

Loading…

AI Dev Skills

Unmapped

Data Pipeline EngineeringDocument Layout AnalysisLanguage Model Training Data PreparationOptical Character RecognitionPDF Processing and ExtractionText Preprocessing for LLMs

Taxonomy

AI Trends

Large Language Model Training Document AI Multimodal Learning

Recent Activity

Updated 4 months ago

7 Days

30 Days

90 Days

Bump version to v0.4.27 for release

Jake Poznanski • Mar 12, 2026

1e139a5

Version bump

Jake Poznanski • Mar 12, 2026

3c0ff52

Formatting fixes

Jake Poznanski • Mar 12, 2026

19a1b90

Quality

research

Quality: medium
Maturity: research

PM Skills

Cost & EfficiencyUser ExperienceScale & ReliabilityData & Evaluation

Languages

Python100.0%

Timeline

Project created: Sep 17, 2024
Forked: Mar 16, 2026
Your last push: 4 months ago
Upstream last push: 3 months ago
Tracked since: Mar 14, 2026

Similar Repos

pgvector cosine similarity · $0

Loading…

olmocr

README Summary

Community Evaluation

AI Dev Skills

Tags

Taxonomy

Recent Activity

Quality

Categories

PM Skills

Languages

Timeline

Similar Repos

olmocr

README Summary

Community Evaluation

AI Dev Skills

Tags

Taxonomy

Recent Activity

Quality

Categories

PM Skills

Languages

Timeline

Similar Repos