Tema Nab, tema de navegação mais profissional
Ctrl + D Marcar este site como favorito

magic-html: extrai dados do corpo do URL HTML, produz texto simples/markdown

Introdução geral

magic-html é uma biblioteca Python projetada para simplificar o processo de extração do conteúdo da região do corpo do HTML. Seja lidando com estruturas complexas de HTML ou com páginas da Web simples, essa biblioteca tem como objetivo fornecer uma interface conveniente e eficiente para os usuários. Ela suporta extração multimodal, vários layoutextractor, incluindo artigos, fóruns e artigos da Microsoft, e também suporta a conversão de extração de fórmulas de látex.

Lista de funções

  • Extrair o conteúdo da área do corpo do HTML
  • Suporte para extração multimodal
  • Layout de artigos de suporte, fóruns e postagens do weibo
  • Suporte à extração e conversão de fórmulas de látex
  • Saída personalizada em texto simples ou formato markdown

 

Usando a Ajuda

montagem

Para instalar o magic-html, use o comando pip:

pip install magic-html

fazer uso de

Depois de instalado, ele pode ser usado com o seguinte código:

from magic_html import GeneralExtractor

# 初始化提取器
extractor = GeneralExtractor()

# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
    <title>Example Domain</title>
    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
    <p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""

# 提取数据
data = extractor.extract(html)
print(data)

Função Fluxo de operação

  1. Inicialização do extrator: Primeiro, você precisa importar a biblioteca magic-html e inicializar o extrator.
  2. Preparação de conteúdo HTMLCódigo HTML: prepara o código HTML do qual o conteúdo precisa ser extraído, que pode estar na forma de uma cadeia de caracteres.
  3. Chamada do método de extração: Usoextractpara extrair o conteúdo do corpo. Diferentes tipos de HTML podem ser especificados conforme necessário, como artigos, fóruns ou mensagens do WeChat.
  4. resultado de saídaO resultado da extração pode estar em texto simples ou no formato markdown, dependendo das necessidades do usuário.

exemplo típico

Abaixo está um exemplo completo que mostra como extrair o conteúdo do corpo de uma página HTML simples:

from magic_html import GeneralExtractor

# 初始化提取器
extractor = GeneralExtractor()

# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
    <title>Example Domain</title>
    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
    <p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""

# 提取数据
data = extractor.extract(html)
print(data)

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

Código de leitura a seguir

qrcode

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil