Tema Nab, tema de navegação mais profissional
Ctrl + D Marcar este site como favorito

ExtractThinker: extração e categorização de documentos em dados estruturados para otimizar o processo de manuseio de documentos

Introdução geral

O ExtractThinker é uma ferramenta flexível de inteligência de documentos que usa Modelos de Linguagem Grandes (LLMs) para extrair e classificar dados estruturados de documentos, fornecendo um fluxo de trabalho de processamento de documentos semelhante ao ORM. Ele é compatível com uma variedade de carregadores de documentos, incluindo Tesseract OCR, Azure Form Recognizer, AWS Textract e Google Document AI, entre outros. Os usuários podem definir contratos de extração personalizados usando modelos Pydantic para extração precisa de dados. A ferramenta também é compatível com processamento assíncrono, processamento de documentos em vários formatos (por exemplo, PDF, imagens, planilhas etc.) e integra-se a vários provedores de LLM (por exemplo, OpenAI, Anthropic, Cohere etc.).

ExtractThinker: Extração e classificação de documentos como dados estruturados para otimizar o processamento de documentos-1

 

Lista de funções

  • Carregador de documentos flexívelSuporte a vários carregadores de documentos, incluindo Tesseract OCR, Azure Form Recognizer, AWS Textract e Google Document AI.
  • Contratos de retirada personalizadosDefinir contratos de extração personalizados usando o modelo Pydantic para extração precisa de dados.
  • Classificação avançadaClassificação de documentos ou seções de documentos usando classificações e políticas personalizadas.
  • processamento assíncronoProcessamento eficiente de documentos grandes usando processamento assíncrono.
  • Suporte a vários formatosManuseio de vários formatos de documentos, como PDF, imagens, planilhas e muito mais.
  • Interações no estilo ORMInterage com a documentação e os LLMs no estilo ORM para facilitar o desenvolvimento.
  • estratégia de segmentaçãoImplementar estratégias de segmentação preguiçosa ou ansiosa para processar documentos por página ou como um todo.
  • Integração com o LLMIntegração fácil com diferentes provedores de LLM (por exemplo, OpenAI, Anthropic, Cohere etc.).

 

Usando a Ajuda

Processo de instalação

  1. Instalar o ExtractThinkerInstalação do ExtractThinker usando o pip:
   pip install extract_thinker

Diretrizes para uso

Exemplo de extração básica

O exemplo a seguir demonstra como usar o PyPdf para carregar um documento e extrair campos específicos definidos em um contrato:

import os
from dotenv import load_dotenv
from extract_thinker import Extractor, DocumentLoaderPyPdf, Contract
load_dotenv()
class InvoiceContract(Contract):
invoice_number: str
invoice_date: str
# 设置 Tesseract 可执行文件的路径
test_file_path = os.path.join("path_to_your_files", "invoice.pdf")
# 初始化提取器
extractor = Extractor()
extractor.load_document_loader(DocumentLoaderPyPdf())
extractor.load_llm("gpt-4o-mini")  # 或任何其他支持的模型
# 从文档中提取数据
result = extractor.extract(test_file_path, InvoiceContract)
print("Invoice Number:", result.invoice_number)
print("Invoice Date:", result.invoice_date)

Exemplo de categorização

O ExtractThinker permite que documentos ou seções de documentos sejam classificados usando classificações personalizadas:

import os
from dotenv import load_dotenv
from extract_thinker import Extractor, Classification, Process, ClassificationStrategy
load_dotenv()
class CustomClassification(Classification):
category: str
# 初始化提取器
extractor = Extractor()
extractor.load_classification_strategy(ClassificationStrategy.CUSTOM)
# 定义分类策略
classification = CustomClassification(category="Invoice")
# 从文档中分类数据
result = extractor.classify(test_file_path, classification)
print("Category:", result.category)

Fluxo de operação detalhado da função

  1. Carregando documentosCarregamento de documentos usando carregadores de documentos compatíveis (por exemplo, PyPdf, Tesseract OCR, etc.).
  2. Definição de contratos de retiradaContrato de extração personalizado: defina um contrato de extração personalizado usando o modelo Pydantic, especificando os campos a serem extraídos.
  3. Inicialização do extratorCriar uma instância do Extractor e carregar o carregador de documentos e o modelo LLM.
  4. Extrair dados: Chamada extract extrai dados do documento e retorna resultados com base em campos definidos contratualmente.
  5. Categoria DocumentosPara classificar um documento ou parte de um documento usando uma política de classificação personalizada, chame a função classify para obter os resultados da classificação.

Com as etapas acima, os usuários podem extrair e classificar com eficiência os dados de documentos em vários formatos e otimizar o fluxo de processamento de documentos.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

Código de leitura a seguir

qrcode

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil