Nab-Theme, professionelleres Navigationstheme
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Werkzeugbibliothek

OmniParse: Extrahiert beliebige unstrukturierte Daten aus Dokumenten/Multimedia und parst sie in strukturierte Daten

2024-11-15 1.0 K

Allgemeine Einführung

OmniParse ist eine leistungsstarke Plattform zum Parsen und Optimieren von Daten, mit der unstrukturierte Daten in strukturierte, verwertbare Daten umgewandelt werden können, die für GenAI-Frameworks (Generative Artificial Intelligence) optimiert sind. Ob Sie mit Dokumenten, Tabellen, Bildern, Videos, Audiodateien oder Webinhalten arbeiten, OmniParse macht Ihre Daten sauber, strukturiert und bereit für KI-Anwendungen wie RAG (Retrieval Augmented Generation) und Feinabstimmung.

OmniParse: Extrahiert beliebige unstrukturierte Daten aus Dokumenten/Multimedia und analysiert sie in strukturierte Daten-1

 

OmniParse: Extrahiert beliebige unstrukturierte Daten aus Dokumenten/Multimedia und analysiert sie in strukturierte Daten-1
Open-Source-Demo-Adresse: https://colab.research.google.com/github/adithya-s-k/omniparse/blob/main/examples/OmniParse_GoogleColab.ipynb

 

Funktionsliste

  • Vollständig lokalisiert, keine externe API erforderlich
  • Für T4-GPUs
  • Unterstützt etwa 20 Dateitypen
  • Konvertierung von Dokumenten, Multimedia und Webseiten in hochwertiges strukturiertes Markdown
  • Tabellenextraktion, Bildextraktion/Untertitelung, Audio-/Videotranskription, Webcrawling
  • Einfache Bereitstellung mit Docker und Skypilot
  • Freundliche Colab-Umgebung
  • Interaktive Benutzeroberfläche mit Gradio

Hilfe verwenden

Einbauverfahren

  1. Klon-Lager::
    git clone https://github.com/adithya-s-k/omniparse
    cd omniparse
    
  2. Erstellen einer virtuellen Umgebung::
    conda create -n omniparse-venv python=3.10
    conda activate omniparse-venv
    
  3. Installation von Abhängigkeiten::
    poetry install
    # 或者
    pip install -e .
    # 或者
    pip install -r pyproject.toml
    

Docker verwenden

  1. Abrufen von OmniParse API-Images von Docker Hub::
    docker pull savatar101/omniparse:0.1
    
  2. Starten Sie den Docker-Container und geben Sie Port 8000 frei.::
    # 如果使用GPU
    docker run --gpus all -p 8000:8000 savatar101/omniparse:0.1
    # 否则
    docker run -p 8000:8000 savatar101/omniparse:0.1
    

Operationsserver

  1. Starten Sie den Server::
    python server.py --host 0.0.0.0 --port 8000 --documents --media --web
    
    • --documentsLaden aller Modelle, die beim Parsen und Einlesen von Dokumenten helfen (z. B. die Surya OCR-Modellfamilie und Florence-2).
    • --mediaLaden Sie Whisper-Modelle, um Audio- und Videodateien zu transkribieren.
    • --webEinrichten des Selenium-Crawlers.

Unterstützte Datentypen

  • (Computer-)Datei::.doc.docx.pdf.ppt.pptx
  • Bildmaterial::.png.jpg.jpeg.tiff.bmp.heic
  • Video::.mp4.mkv.avi.mov
  • Tonfrequenz::.mp3.wav.aac
  • Web-Seite: dynamische Webseiten.http://.com

Anwendungsbeispiel

  1. Dokumentenauflösung::
    python server.py --host 0.0.0.0 --port 8000 --documents
    

    Dadurch werden alle Modelle für das Parsen von Dokumenten geladen, die bereit sind, Daten des Dokumenttyps zu verarbeiten.

  2. Multimedia-Parsing::
    python server.py --host 0.0.0.0 --port 8000 --media
    

    Dadurch wird das Whisper-Modell geladen und ist bereit, Audio- und Videodateien zu verarbeiten.

  3. Web-Crawler::
    python server.py --host 0.0.0.0 --port 8000 --web
    

    Dadurch wird der Selenium-Crawler eingerichtet und ist bereit, Webinhalte zu verarbeiten.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

Scannen Sie den Code, um zu folgen

qrcode

Kontakt

zurück zum Anfang

de_DEDeutsch