Extração e limpeza de documentos

 Enviar site

OneFileLLM: integração de várias fontes de dados em um único arquivo de texto
O OneFileLLM é uma ferramenta de linha de comando de código aberto projetada para consolidar várias fontes de dados em um único arquivo de texto para facilitar a entrada de modelos de linguagem grande (LLMs). Ele suporta o processamento de repositórios do GitHub, artigos do ArXiv, transcrições de vídeos do YouTube, conteúdo da Web, artigos do Sci-Hub e arquivos locais, gerando automaticamente estruturas...
04-18 5220Recomendado
Chatlog: ferramenta de código aberto para extrair e consultar os registros de bate-papo do WeChat
O Chatlog é uma ferramenta de código aberto que se concentra na extração e consulta de registros de bate-papo do banco de dados local do WeChat. Ele é compatível com as versões 3.x e 4.0 do WeChat, abrangendo os sistemas Windows e macOS. Os usuários podem operar a partir da linha de comando, da interface de terminal ou da API HTTP para visualizar registros de bate-papo, contatos, bate-papos em grupo e...
04-12 7800Recomendado
VOP: ferramenta de OCR para extração de diagramas complexos e fórmulas matemáticas
O Versatile OCR Program é uma ferramenta de reconhecimento óptico de caracteres (OCR) de código aberto projetada para processar documentos acadêmicos e educacionais complexos. Ele pode extrair texto, tabelas, fórmulas matemáticas, diagramas e esquemas de PDFs, imagens e outros documentos e gerar dados estruturados adequados para treinamento de aprendizado de máquina. Suporte...
04-12 6380Recomendado
DevDocs: um serviço MCP para rastrear e organizar rapidamente a documentação técnica
O DevDocs é uma ferramenta totalmente gratuita e de código aberto desenvolvida pela equipe da CyberAGI e hospedada no GitHub. Ela foi projetada para que programadores e desenvolvedores de software comecem a partir do URL de um documento técnico, rastreiem automaticamente as páginas relevantes e as organizem em arquivos Markdown ou JSON concisos. Ele tem um MCP integrado ...
04-09 7830Recomendado
Analise automaticamente o conteúdo do PDF e extraia texto e tabelas de serviços de código aberto
Ele analisa automaticamente o layout de documentos PDF, identifica texto, títulos, imagens, tabelas, fórmulas e outros elementos na página e determina sua ordem correta. A ferramenta é compatível com a funcionalidade OCR e permite converter PDFs digitalizados em texto pesquisável. Ela é executada no Docker e oferece dois modelos: modelo visual (Vision Grid ...
04-09 7510Recomendado
Converta vários arquivos para o formato Markdown gratuitamente com base em Workers AI
O serverless-markdown-convertor é uma ferramenta de código aberto gratuita baseada no Cloudflare Worker e no Workers AI que converte uma grande variedade de arquivos para o formato Markdown. Ele é compatível com PDF, imagens, documentos do Office ...
03-30 8070Recomendado
GPT-Crawler: rastreamento automático do conteúdo do site para gerar documentos da base de conhecimento
O GPT-Crawler é uma ferramenta de código aberto desenvolvida pela equipe do BuilderIO e hospedada no GitHub. Ele rastreia o conteúdo da página inserindo um ou mais URLs de sites, gerando um arquivo de conhecimento estruturado (output.json) que pode ser usado para criar um GPT personalizado ou um assistente de IA. Usuários...
03-29 1.6 K0Recomendado
pure.md: insira "pure.md/" na frente do URL para extrair o texto limpo.
O pure.md é uma ferramenta projetada para agentes e desenvolvedores de IA que se concentra na conversão rápida de conteúdo ou arquivos da Web para o formato Markdown. Ela contorna as restrições anti rastreamento por meio de serviços de proxy, extrai os dados principais de uma página da Web e gera um arquivo Markdown limpo. Seja uma página da Web dinâmica, um arquivo PDF ou um arquivo...
03-25 7710Recomendado
Cloudsquid: faça upload de documentos e descreva os requisitos para a extração inteligente de dados estruturados
A Cloudsquid é uma empresa fundada em 2023 em Berlim, Alemanha, com foco na simplificação do processamento de documentos com inteligência artificial. Seu principal produto é uma plataforma de extração de dados on-line que permite que os usuários carreguem PDFs, imagens, áudio, vídeo, etc., e simplesmente informem os dados a serem extraídos, como "Descubra o nome e o nome do...
03-25 7550Recomendado
PDF Craft: documentos digitalizados em PDF para ferramentas de código aberto Markdown
O PDF Craft é uma ferramenta de código aberto projetada para digitalizar PDFs de livros e convertê-los para o formato Markdown. Ela foi desenvolvida pela oomol-lab e hospedada no GitHub para usuários que gostam de organizar seus eBooks. A ferramenta é executada por meio de um modelo de IA local e não requer conexão com a Internet, o que protege a privacidade e facilita a operação. ....
03-24 9890Recomendado
Supametas.AI: extração de dados não estruturados em dados altamente disponíveis do LLM
A Supametas.AI é uma plataforma de processamento de dados especializada em organizar a confusão de páginas da Web, documentos, áudio e vídeo em dados estruturados que a IA pode usar. Ela suporta a coleta de dados de várias fontes, incluindo links da Web, APIs, arquivos locais etc. e, em seguida, exporta-os para o formato JSON ou Markdown. A plataforma não requer programação...
03-24 7540Recomendado
MarkPDFDown: converte PDF em Markdown com base em um modelo multimodal
O MarkPDFDown é uma ferramenta de código aberto. Ela usa o modelo multimodal de big language para converter arquivos PDF em formato Markdown. Desenvolvida pelo usuário do GitHub jorben, essa ferramenta tem um objetivo simples: tornar os documentos PDF mais fáceis de editar e compartilhar. Ela reconhece títulos, listas,...
03-21 8870Recomendado
SmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volume
O SmolDocling é um modelo de linguagem visual (VLM) desenvolvido pela equipe do ds4sd em colaboração com a IBM, com base no SmolVLM-256M, hospedado na plataforma Hugging Face. O SmolDocling é o menor VLM do mundo, com apenas 256 milhões de parâmetros, e sua função principal é...
03-18 9200Recomendado
Flying Paddle PP-TableMagic: extração de informações estruturadas para tabelas complexas
O objetivo do reconhecimento de tabelas é analisar tabelas em imagens, identificar com precisão as estruturas das tabelas e os locais das células e reduzi-las a formatos de tabelas estruturadas (por exemplo, HTML). Na atual era da informação, uma grande quantidade de dados tabulares importantes ainda existe em um estado não estruturado (por exemplo, imagens de estatísticas de informações em documentos digitalizados, p...
03-12 7270Recomendado
Mistral OCR: 94,89% Precisão geral, 1000 páginas/30 segundos, apenas US$ 1
Na longa história da civilização humana, cada salto na forma como as informações são adquiridas e analisadas impulsionou profundamente o progresso social. Desde os antigos hieróglifos, passando pelo papiro portátil, até o surgimento posterior da prensa tipográfica e a atual onda digital, cada inovação tecnológica expandiu enormemente a transmissão do conhecimento humano...
03-07 8600Recomendado
Servidor MCP Firecrawl: Serviço MCP de rastreador da Web baseado no Firecrawl
O Firecrawl MCP Server é uma ferramenta de código aberto desenvolvida pela MendableAI, baseada na implementação do protocolo Model Context Protocol (MCP), integrada à API do Firecrawl para fornecer rastreamento avançado da Web e extração de dados. Ele é especializado em ...
03-06 1.2 K0Recomendado
olmOCR: conversão de documentos PDF em texto, suporte a tabelas, fórmulas e reconhecimento de conteúdo manuscrito
O olmOCR é uma ferramenta de código aberto desenvolvida pela equipe do AllenNLP no Allen Institute for Artificial Intelligence (AI2) que se concentra na conversão de arquivos PDF em texto linearizado e é particularmente adequada para uso em modelos de linguagem em larga escala (LL...
02-26 1.1 K0Recomendado
par_scrape: uma ferramenta de rastreamento para extração inteligente de dados da Web
O par_scrape é uma ferramenta de rastreamento da Web de código aberto baseada em Python, lançada no GitHub pelo desenvolvedor Paul Robello, criada para ajudar os usuários a extrair dados de páginas da Web de forma inteligente. Ele integra o Selenium e o Playwright, dois poderosos sistemas de automação de navegador...
02-25 8180Recomendado
PDF-Extract-Kit: Extraia a estrutura complexa do conteúdo do PDF da ferramenta de código aberto
O PDF-Extract-Kit é um projeto de código aberto desenvolvido pela equipe do OpenDataLab, com foco na extração eficiente de conteúdo de alta qualidade de documentos PDF complexos e diversos. Ele integra tecnologia avançada de análise de documentos, suporte para detecção de layout, reconhecimento de fórmulas, extração de tabelas, OCR e outras funções, aplicável a trabalhos acadêmicos, .....
02-24 9640Recomendado