Umfassende Einführung Das vielseitige OCR-Programm ist ein Open-Source-Tool für die optische Zeichenerkennung (OCR), das für die Verarbeitung komplexer akademischer und pädagogischer Dokumente entwickelt wurde. Es kann Text, Tabellen, mathematische Formeln, Diagramme und Schemata aus PDFs, Bildern und anderen Dokumenten extrahieren und eine Struktur erzeugen, die für das Training von maschinellem Lernen geeignet ist...
Umfassende Einführung Es analysiert automatisch das Layout von PDF-Dokumenten, identifiziert Text, Titel, Bilder, Tabellen, Formeln und andere Elemente auf der Seite und bestimmt ihre richtige Reihenfolge. Das Tool unterstützt OCR-Funktionalität, Sie können gescannte PDF in durchsuchbaren Text umwandeln. Es läuft auf Docker , bietet zwei Modelle: visuelles Modell (Vis...
综合介绍 RolmOCR 是由 Reducto AI 团队开发的一款开源光学字符识别(OCR)工具,基于 Qwen2.5-VL-7B 视觉语言模型。它能从图片和 PDF 文件中提取文字,速度比同类工具 olmOCR 更快,内存占用更低。Ro...
综合介绍 uniOCR 是一个开源的文字识别工具,由 mediar-ai 团队开发。它基于 Rust 语言编写,支持 macOS、Windows 和 Linux 系统。用户可以通过它从图片中提取文字,操作简单且免费。uniOCR 的核心特点...
Allgemeine Einführung PDF Craft ist ein Open-Source-Tool, mit dem PDFs von Büchern gescannt und in das Markdown-Format konvertiert werden können. Es wird von oomol-lab entwickelt und auf GitHub gehostet für Benutzer, die ihre E-Books organisieren möchten. Das Tool läuft über ein lokales KI-Modell, ohne dass eine Internetverbindung erforderlich ist, was sowohl die Privatsphäre als auch den Platz...
综合介绍 SmolDocling 是由 ds4sd 团队与 IBM 合作开发的一个视觉语言模型(VLM),基于 SmolVLM-256M 打造,托管在 Hugging Face 平台。它体积小,只有 256M 参数,却是全球最小的 VLM。...
In der langen Geschichte der menschlichen Zivilisation hat jeder Sprung in der Art und Weise, wie Informationen erworben und ausgewertet werden, den sozialen Fortschritt entscheidend vorangetrieben. Von den antiken Hieroglyphen über den tragbaren Papyrus bis hin zur späteren Entwicklung des Buchdrucks und der heutigen digitalen Welle hat jede technologische Innovation die Weitergabe von menschlichem Wissen erheblich erweitert...
Umfassende Einführung Ollama OCR ist ein leistungsstarkes Toolkit für die optische Zeichenerkennung (OCR), das das hochmoderne visuelle Sprachmodell der Ollama-Plattform nutzt, um Text aus Bildern zu extrahieren. Das Projekt ist sowohl als Python-Paket als auch als benutzerfreundliche Streamlit-Webanwendungsschnittstelle verfügbar. Es unterstützt mehrere ...
Allgemeine Einführung STranslate ist ein gebrauchsfertiges Übersetzungs- und OCR-Tool, das von WPF entwickelt wurde. Das Tool wurde entwickelt, um eine effiziente und bequeme Übersetzung und OCR-Funktionalität (Optical Character Recognition) für eine Vielzahl von Sprachen und Texttypen zu bieten.STranslate ist ein Open-Source-Projekt, das Benutzer frei herunterladen und...
Allgemeine Beschreibung VisionParser ist ein OCR-Tool (Optical Character Recognition) für die Verarbeitung von Quittungen und Rechnungen. Durch die fortschrittliche generative KI-Technologie ist VisionParser in der Lage, alle Arten von Quittungen und Rechnungen schnell und genau in strukturierte Daten für eine Vielzahl von Branchen wie Einzelhandel, Catering, B2B-Dienstleistungen... zu konvertieren.
综合介绍 Chunkr 是一个自托管的 API,专门用于将 PDF、PPTX、DOCX 和 Excel 文件转换为适合 RAG(检索增强生成)和 LLM(大语言模型)使用的数据。该项目由 Lumina AI Inc. 开发,利用先进的视觉模...
综合介绍 Llama OCR 是一个基于 Llama 3.2 Vision 的 OCR(光学字符识别)库,能够将文档转换为 Markdown 格式。该库由 Nutlope 开发,使用 Together AI 提供的免费 Llama 3.2 ...
综合介绍 Docling 是一个强大的文档解析和导出工具,支持多种文档格式,包括 PDF、DOCX、PPTX、XLSX、图像、HTML、AsciiDoc 和 Markdown。它能够将这些文档解析并导出为 HTML、Markdown 和 J...
综合介绍 ViTLP(Visually Guided Generative Text-Layout Pre-training for Document Intelligence)是一个开源项目,旨在通过视觉引导的生成文本布局预训练模型提升文...
综合介绍 ScreenPipe 是一款由 mediar-ai 开发的 AI 助手工具,专注于 24 小时不间断的录制屏幕内容、捕获截图和音频。它结合了 rewind.ai 和 cursor.com 的技术,能够在本地数据库中存储录制的数据,...
Allgemeine Beschreibung Die Textextraktions-API (text-extract-api) ist ein leistungsfähiges Tool zum Extrahieren und Parsen von Inhalten aus einer Vielzahl von Dokumentformaten (z.B. PDF, Word, PPTX, etc.). Die API nutzt modernste OCR-Technologie (Optical Character Recognition) und Ollama-unterstützte Modelle, um jedes beliebige Dokument oder Bild zu...
Allgemeine Beschreibung Picture to Excel Free Tool ist ein effizientes Online-Tool, das schnell und präzise Tabellendaten aus Bildern in Excel-Dateien identifizieren und konvertieren kann. Das Tool unterstützt eine Vielzahl von Bildformaten, wie JPG und PNG, und kann auf Webseiten, iOS-Apps und Android-Apps verwendet werden. Durch fortschrittliche KI-Technologie...
综合介绍 Datalab 提供了一系列先进的AI模型,专注于OCR、布局分析、PDF转Markdown等功能。这些模型不仅性能卓越,而且易于使用,并且是开源的。平台上的Marker模型可以快速准确地将PDF转换为Markdown,包括表格....
综合介绍 eSearch 是一款由 xushengfeng 开发的开源跨平台截图工具,支持 Windows、macOS 和 Linux 系统。它集成了多种功能,包括截图、OCR 识别、搜索、翻译、贴图、以图搜图和录屏等。eSearch 采用...