Introdução abrangente O Versatile OCR Program é uma ferramenta de reconhecimento óptico de caracteres (OCR) de código aberto projetada para processar documentos acadêmicos e educacionais complexos. Ele pode extrair textos, tabelas, fórmulas matemáticas, diagramas e esquemas de PDFs, imagens e outros documentos e gerar estruturas adequadas para treinamento de aprendizado de máquina...
Introdução abrangente Analisa automaticamente o layout de documentos PDF, identifica texto, títulos, imagens, tabelas, fórmulas e outros elementos na página e determina sua ordem correta. A ferramenta é compatível com a funcionalidade OCR e permite converter PDFs digitalizados em texto pesquisável. Ela é executada no Docker e oferece dois modelos: modelo visual (Vis...
Introdução abrangente O RolmOCR é uma ferramenta de reconhecimento óptico de caracteres (OCR) de código aberto desenvolvida pela equipe da Reducto AI, com base no modelo de linguagem visual Qwen2.5-VL-7B. Ela pode extrair texto de imagens e arquivos PDF com mais rapidez e com menor consumo de memória do que ferramentas semelhantes ao olmOCR.Ro...
Introdução geral O uniOCR é uma ferramenta de reconhecimento de texto de código aberto desenvolvida pela equipe mediar-ai. Ela foi escrita em linguagem Rust e é compatível com macOS, Windows e Linux. Os usuários podem usá-la para extrair texto de imagens, o que é fácil e gratuito.
Introdução geral O PDF Craft é uma ferramenta de código aberto projetada para digitalizar PDFs de livros e convertê-los para o formato Markdown. Ela foi desenvolvida pelo oomol-lab e hospedada no GitHub para usuários que gostam de organizar seus e-books. A ferramenta é executada por meio de um modelo de IA local sem a necessidade de uma conexão com a Internet, o que preserva a privacidade e...
O SmolDocling é um modelo de linguagem visual (VLM) desenvolvido pela equipe do ds4sd em colaboração com a IBM, com base no SmolVLM-256M e hospedado na plataforma Hugging Face. É o menor VLM do mundo, com apenas 256M parâmetros....
Na longa história da civilização humana, cada salto na forma como as informações são adquiridas e analisadas impulsionou profundamente o progresso social. Desde os antigos hieróglifos, passando pelo papiro portátil, até o surgimento posterior da prensa tipográfica e a atual onda digital, cada inovação tecnológica expandiu enormemente a transmissão do conhecimento humano...
Introdução abrangente O Ollama OCR é um poderoso kit de ferramentas de reconhecimento óptico de caracteres (OCR) que usa o modelo de linguagem visual de última geração fornecido pela plataforma Ollama para extrair texto de imagens. O projeto está disponível como um pacote Python e fornece uma interface de aplicativo da Web Streamlit fácil de usar. Ele oferece suporte a vários ...
Introdução geral O STranslate é uma ferramenta de tradução e OCR pronta para uso desenvolvida pela WPF. A ferramenta foi projetada para fornecer tradução eficiente e conveniente e funcionalidade de reconhecimento óptico de caracteres (OCR) para uma ampla variedade de idiomas e tipos de texto.
Descrição geral O VisionParser é uma ferramenta de OCR (reconhecimento óptico de caracteres) projetada para processar recibos e faturas. Por meio da avançada tecnologia de IA generativa, o VisionParser é capaz de converter com rapidez e precisão todos os tipos de recibos e faturas em dados estruturados para uma ampla gama de setores, como varejo, catering, serviços B2B...
Introdução abrangente O Chunkr é uma API auto-hospedada dedicada à conversão de arquivos PDF, PPTX, DOCX e Excel em dados adequados para uso em RAG (Retrieval Augmented Generation) e LLM (Large Language Modelling). Ela foi desenvolvida pela Lumina AI Inc. e usa modelagem visual avançada...
Introdução geral O Llama OCR é uma biblioteca de OCR (reconhecimento óptico de caracteres) baseada no Llama 3.2 Vision, capaz de converter documentos para o formato Markdown. A biblioteca foi desenvolvida pela Nutlope e usa o Llama 3.2 gratuito fornecido pela Together AI ...
Introdução geral O Docling é uma ferramenta avançada de análise e exportação de documentos que suporta uma ampla variedade de formatos de documentos, incluindo PDF, DOCX, PPTX, XLSX, imagem, HTML, AsciiDoc e Markdown, analisando e exportando esses documentos para HTML, Markdown e J...
Introdução abrangente O ViTLP (Visually Guided Generative Text-Layout Pre-training for Document Intelligence) é um projeto de código aberto que visa aprimorar o texto por meio de modelos de pré-treinamento de layout de texto generativo guiados visualmente ...
Introdução geral O ScreenPipe é uma ferramenta de assistente de IA desenvolvida pela mediar-ai que se concentra na gravação do conteúdo da tela, capturando capturas de tela e áudio 24 horas por dia, 7 dias por semana. Ele combina a tecnologia do rewind.ai e do cursor.com para armazenar dados gravados em um banco de dados local,...
Descrição geral A API de extração de texto (text-extract-api) é uma ferramenta avançada projetada para extrair e analisar o conteúdo de uma variedade de formatos de documentos (por exemplo, PDF, Word, PPTX etc.). A API utiliza a tecnologia de reconhecimento óptico de caracteres (OCR) de última geração e modelos compatíveis com Ollama para poder pegar qualquer documento ou imagem...
Descrição geral O Picture to Excel Free Tool é uma ferramenta on-line eficiente que pode identificar e converter, de forma rápida e precisa, dados tabulares de imagens em arquivos do Excel. A ferramenta é compatível com uma ampla variedade de formatos de imagem, como JPG e PNG, e pode ser usada em páginas da Web, aplicativos iOS e aplicativos Android. Por meio da avançada tecnologia de IA...
Introdução abrangente O Datalab oferece uma variedade de modelos avançados de IA com foco em OCR, análise de layout, PDF para Markdown e muito mais. Esses modelos não são apenas de alto desempenho, mas também fáceis de usar e de código aberto. Os modelos de marcadores na plataforma podem converter PDF em Markdown com rapidez e precisão, incluindo tabelas ....
Introdução geral O eSearch é uma ferramenta de captura de tela multiplataforma de código aberto desenvolvida por xushengfeng, compatível com os sistemas Windows, macOS e Linux. Ele integra uma variedade de recursos, incluindo captura de tela, reconhecimento de OCR, pesquisa, tradução, mapeamento, pesquisa de imagens e gravação de tela.