Posição atual:fig. início " Biblioteca de ferramentas de IA

magic-html: extrai dados do corpo do URL HTML, produz texto simples/markdown

2024-09-01

1.1 K

Introdução geral

magic-html é uma biblioteca Python projetada para simplificar o processo de extração do conteúdo da região do corpo do HTML. Seja lidando com estruturas complexas de HTML ou com páginas da Web simples, essa biblioteca tem como objetivo fornecer uma interface conveniente e eficiente para os usuários. Ela suporta extração multimodal, vários layoutextractor, incluindo artigos, fóruns e artigos da Microsoft, e também suporta a conversão de extração de fórmulas de látex.

Lista de funções

Extrair o conteúdo da área do corpo do HTML
Suporte para extração multimodal
Layout de artigos de suporte, fóruns e postagens do weibo
Suporte à extração e conversão de fórmulas de látex
Saída personalizada em texto simples ou formato markdown

Usando a Ajuda

montagem

Para instalar o magic-html, use o comando pip:

pip install magic-html

fazer uso de

Depois de instalado, ele pode ser usado com o seguinte código:

from magic_html import GeneralExtractor

# 初始化提取器
extractor = GeneralExtractor()

# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
    <title>Example Domain</title>
    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
    <p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""

# 提取数据
data = extractor.extract(html)
print(data)

Função Fluxo de operação

Inicialização do extrator: Primeiro, você precisa importar a biblioteca magic-html e inicializar o extrator.
Preparação de conteúdo HTMLCódigo HTML: prepara o código HTML do qual o conteúdo precisa ser extraído, que pode estar na forma de uma cadeia de caracteres.
Chamada do método de extração: Usoextractpara extrair o conteúdo do corpo. Diferentes tipos de HTML podem ser especificados conforme necessário, como artigos, fóruns ou mensagens do WeChat.
resultado de saídaO resultado da extração pode estar em texto simples ou no formato markdown, dependendo das necessidades do usuário.

exemplo típico

Abaixo está um exemplo completo que mostra como extrair o conteúdo do corpo de uma página HTML simples:

from magic_html import GeneralExtractor

# 初始化提取器
extractor = GeneralExtractor()

# 示例HTML内容
html = """
<!doctype html>
<html>
<head>
    <title>Example Domain</title>
    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
</head>
<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustrative examples in documents. You may use this domain in literature without prior coordination or asking for permission.</p>
    <p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>
</html>
"""

# 提取数据
data = extractor.extract(html)
print(data)

magic-html: extrai dados do corpo do URL HTML, produz texto simples/markdown

Introdução geral

Lista de funções

Usando a Ajuda

montagem

fazer uso de

Função Fluxo de operação

exemplo típico

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

depoimentos

mais recente

magic-html: extrai dados do corpo do URL HTML, produz texto simples/markdown

Introdução geral

Lista de funções

Usando a Ajuda

montagem

fazer uso de

Função Fluxo de operação

exemplo típico

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

depoimentos

mais recente

Ferramenta de IA da estação de consulta rápida