海外からのアクセス：www.kdjingpai.com

Ctrl + D このサイトをブックマークする

光学式文字認識

 ウェブサイトを投稿する

VOP: 複雑な図や数式を抽出するOCRツール
Versatile OCR Programは、複雑な学術・教育文書を処理するために設計されたオープンソースの光学式文字認識（OCR）ツールです。PDF、画像、その他の文書からテキスト、表、数式、図、回路図を抽出し、機械学習の学習に適した構造化データを生成することができます。サポート...
04-12 6850表彰される
PDFコンテンツを自動的に解析し、オープンソースサービスのテキストとテーブルを抽出します。
それは自動的にPDF文書のレイアウトを分析し、ページ内のテキスト、タイトル、画像、表、数式やその他の要素を識別し、それらの正しい順序を決定します。このツールはOCR機能をサポートしており、スキャンしたPDFを検索可能なテキストに変換することができます。Docker上で動作し、2つのモデルを提供します：ビジュアルモデル（Vision Grid ...
04-09 8230表彰される
RolmOCR: 手書き文字と斜め文字を認識する文書OCRモデル
RolmOCRは、Reducto AIチームによって開発されたオープンソースの光学式文字認識（OCR）ツールで、Qwen2.5-VL-7B視覚言語モデルに基づいています。類似のツールolmOCRよりも高速に画像やPDFファイルからテキストを抽出でき、メモリフットプリントも低くなっています。
04-07 8390表彰される
uniOCR: クロスプラットフォームのオープンソーステキスト認識ツール
uniOCRはmediar-aiチームによって開発されたオープンソースのテキスト認識ツールです。Rust言語をベースにしており、macOS、Windows、Linuxをサポートしている。画像からテキストを抽出することができ、操作が簡単で無料です。uniOCRの主な特徴は、クロスプラットフォームのサポートです...
04-04 6930表彰される
PDF Craft: PDFスキャン文書からMarkdownへのオープンソースツール
PDF Craftは、書籍のPDFをスキャンしてMarkdown形式に変換するために設計されたオープンソースのツールです。oomol-labによって開発され、GitHubでホストされている。このツールはローカルのAIモデルで動作し、インターネット接続を必要としないため、プライバシーを保護し、操作を容易にします。
03-24 1.1 K0表彰される
SmolDocling：少量で効率的な文書処理のための視覚言語モデル
SmolDoclingは、ds4sdチームがIBMと共同で開発した視覚言語モデル（VLM）で、SmolVLM-256Mをベースにしており、Hugging Faceプラットフォームでホストされています。SmolDoclingは、わずか256Mのパラメータを持つ世界最小のVLMで、そのコア機能は...
03-18 9720表彰される
ミストラルOCR：94.89%総合精度、1000ページ/30秒、わずか1ドル
人類の文明の長い歴史の中で、情報の取得と解析の方法が飛躍的に進歩するたびに、社会は大きく発展してきた。古代の象形文字から、持ち運び可能なパピルス、その後の印刷機の出現、そして今日のデジタルの波に至るまで、技術革新のたびに人類の知識の伝達は大きく拡大してきた。
03-07 9180表彰される
Ollama OCR: Ollamaの視覚モデルを使った画像からのテキスト抽出
Ollama OCRは、Ollamaプラットフォームが提供する最先端の視覚言語モデルを利用して画像からテキストを抽出する、強力な光学式文字認識（OCR）ツールキットです。このプロジェクトはPythonパッケージとして提供されており、ユーザーフレンドリーなStreamlitウェブアプリケーションインターフェースを提供しています。様々な視覚モデルをサポートしている。
01-10 2.3 K0表彰される
STranslate
STranslateは、WPFによって開発されたすぐに使用できる翻訳とOCRツールです。このツールは、幅広い言語とテキストタイプに対して、効率的で便利な翻訳と光学式文字認識（OCR）機能を提供するように設計されています。STranslateはオープンソースプロジェクトであり、ユーザーは無料でダウンロードして使用することができます。
12-25 1.2 K0表彰される
VisionParser：領収書や請求書を高精度に処理するOCRツール、APIあり
VisionParserは、領収書や請求書を処理するために設計されたOCR（光学式文字認識）ツールです。高度な生成AI技術により、VisionParserは、小売、ケータリング、B2Bサービスなどの幅広いビジネスシーンで、あらゆる種類の領収書や請求書を迅速かつ正確に構造化データに変換することができます。
12-18 1.2 K0表彰される
Chunkr: 文書の取り込みにビジュアルモデルを使用し、テキストの段落階層に基づくインテリジェントなチャンキングを行うオールインワンサービス。
Chunkrは、PDF、PPTX、DOCX、Excelファイルを、RAG（Retrieval Augmented Generation）やLLM（Large Language Modelling）で使用するのに適したデータに変換するためのセルフホストAPIです。このAPIはLumina AI Inc.によって開発され、高度なビジュアルモデルを使って文書...
12-13 1.4 K0表彰される
Llama OCR: 3行のコードで画像をMarkdownに変換するOCRライブラリ。
Llama OCRは、Llama 3.2 VisionをベースにしたOCR（光学式文字認識）ライブラリで、文書をMarkdown形式に変換します。このライブラリーはNutlopeによって開発され、Together AIがグラフ用に提供する無料のLlama 3.2インターフェースを使用しています。
12-11 1.7 K0表彰される
Docling：様々なフォーマットのドキュメントをサポート MarkdownやJSONへの解析とエクスポート PDFサポート OCR
Doclingは、PDF、DOCX、PPTX、XLSX、画像、HTML、AsciiDoc、およびMarkdownを含む幅広い文書フォーマットをサポートする、強力な文書解析およびエクスポートツールです。
12-09 2.2 K0表彰される
ViTLP: 組版が複雑なPDF文書から構造化データを抽出し、テキストレイアウトのための事前学習済みモデルを視覚的に誘導して生成する
ViTLP（Visually Guided Generative Text-Layout Pre-training for Document Intelligence）は、視覚的にガイドされた生成テキストレイアウトの事前学習モデルを通して、ドキュメントインテリジェンス処理を強化することを目的としたオープンソースプロジェクトです。
12-03 1.3 K0表彰される
ScreenPipe：記録された画面や操作情報を24時間収集し、AIアシスタント対話、要約、知識の見直しを通じて、ローカルの知識ベースに変換する
ScreenPipeはmediar-aiによって開発されたAIアシスタントで、24時間365日、スクリーンコンテンツの録画、スクリーンショットのキャプチャ、音声の録音に特化している。rewind.aiとcursor.comの技術を組み合わせ、録画したデータをローカルデータベースに保存し、中国語をサポートする。
11-20 1.8 K0表彰される
テキスト抽出 API (text-extract-api): テキスト情報の視覚的抽出、匿名化 PDF 抽出ツール
テキスト抽出API（text-extract-api）は、様々な文書フォーマット（PDF、Word、PPTXなど）からコンテンツを抽出・解析するために設計された強力なツールです。このAPIは、最先端の光学式文字認識（OCR）技術とOllamaがサポートするモデルを利用し、あらゆる文書や画像を結び ... 続きを読む
11-05 1.6 K0表彰される
Picture to Excelフリーツール: 写真の複雑な書式を持つ表を効率的に識別し、Excelファイルに変換します。
Picture to Excel Free Toolは、画像から表形式のデータを素早く正確に識別し、Excelファイルに変換する効率的なオンラインツールです。このツールは、JPGやPNGなどの幅広い画像形式をサポートしており、ウェブ、iOSアプリ、Androidアプリで使用できます。高度なAI技術により、ワーカー...
11-01 1.5 K0表彰される
Datalab：専用のOCR認識AIモデル、PDF to Markdown（オープンソース/API）
Datalabは、OCR、レイアウト分析、PDFからMarkdownへの変換などに焦点を当てた高度なAIモデルを幅広く提供しています。これらのモデルは高性能であるだけでなく、使いやすくオープンソースです。プラットフォーム上のMarkerモデルは、表や数式を含むPDFを素早く正確にMarkdownに変換することができます。
10-21 1.7 K0表彰される
eSearch：多機能クロスプラットフォームOCRツール、統合検索｜翻訳｜検索マップ｜画面録画およびその他の機能
eSearchは、xushengfengによって開発されたWindows、macOS、Linux用のオープンソースクロスプラットフォームスクリーンショットツールです。eSearchは、OCR認識、検索、翻訳、マッピング、画像検索、画面録画を含む様々な機能を統合しています。eSearchは、スクリーンショット、OCR認識、検索、翻訳、マッピング、画像検索、画面録画を含む様々な機能を統合しています。
10-14 1.4 K0表彰される

日本語