Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Werkzeugbibliothek

ArXiv Paper Summarizer: ein Werkzeug zur automatischen Zusammenfassung von arXiv-Papers

2025-05-16 4

Allgemeine Einführung

arXiv Summarizer ist ein quelloffenes Python-Scripting-Tool, das auf GitHub gehostet wird. Es wurde entwickelt, um Benutzern den schnellen Zugriff auf und die Erstellung von Zusammenfassungen von akademischen Artikeln von der arXiv-Plattform zu ermöglichen. Es nutzt das kostenlose Zwillings-API Effizientes Text-Abstracting für Forscher, Studenten und akademische Enthusiasten, um schnell den Kerninhalt eines Papers zu erfassen, ohne lange Dokumente einzeln lesen zu müssen. Das einfach zu bedienende und leicht zu installierende Tool unterstützt Einzel- und Stapel-Zusammenfassungen sowie die automatische Extraktion und Erstellung von Zusammenfassungen auf der Basis von Schlüsselwörtern. Durch die automatisierte und stichwortbasierte Verarbeitung von Artikeln verbessert es die Effizienz der akademischen Literaturrecherche erheblich, insbesondere für Benutzer, die die neuesten Forschungsentwicklungen im Auge behalten müssen.

ArXiv Paper Summarizer: ein automatisches Abstracting-Tool für arXiv-Papers-1

 

Funktionsliste

  • Single Paper Abstract: Geben Sie die URL der Abstract-Seite eines arXiv-Papers ein, um eine kurze Zusammenfassung zu erstellen.
  • Batch Abstracts: Generieren Sie Batch-Abstracts, indem Sie mehrere URLs von arXiv-Papers in eine Textdatei eingeben.
  • Extraktion von Schlagwörtern und Zusammenfassungen: Anhand der vom Benutzer angegebenen Schlagwörter und des Datumsbereichs werden automatisch relevante Veröffentlichungen von arXiv abgerufen und Zusammenfassungen erstellt.
  • Automatisches tägliches Update: Unterstützt die Einrichtung eines automatischen täglichen Zugriffs auf die neuesten Veröffentlichungen und deren Zusammenfassung, was eine kontinuierliche Verfolgung des Forschungsfortschritts ermöglicht.
  • Zwillinge API-Integration: Nutzen Sie die kostenlose Gemini-API für die Erstellung hochwertiger Textzusammenfassungen.
  • Einfache Konfiguration: Einfacher Installationsprozess durch Conda und pip für Anfänger.

 

Hilfe verwenden

Einbauverfahren

Um arXiv Summarizer zu verwenden, müssen die Benutzer zunächst die Konfiguration der Umgebung und die Installation des Skripts abschließen. Nachfolgend finden Sie die detaillierten Schritte:

  1. Klon-Lager
    Klonen Sie das Projekt lokal, indem Sie den folgenden Befehl in einem Terminal oder einer Befehlszeile ausführen:

    git clone https://github.com/Shaier/arxiv_summarizer.git
    cd arxiv_summarizer
  1. Erstellen einer Conda-Umgebung
    Stellen Sie sicher, dass Conda installiert ist (empfohlen wird Miniconda oder Anaconda). Erstellen und aktivieren Sie eine Python 3.11-Umgebung:

    conda create -n arxiv_summarizer python=3.11
    conda activate arxiv_summarizer
    
  2. Installation von Abhängigkeiten
    Installieren Sie in der aktivierten Umgebung die für das Projekt erforderlichen Python-Pakete:

    pip install -r requirements.txt
    
  3. Konfigurieren von Gemini-API-Schlüsseln
    • Besuchen Sie die Gemini-API-Seite von Google (Google-Konto erforderlich), um einen kostenlosen API-Schlüssel zu erhalten.
    • Öffnen Sie das Projekt url_summarize.py Datei, finden Sie Zeile 5 der YOUR_GEMINI_API_KEY.
    • Oberbefehlshaber (Militär) YOUR_GEMINI_API_KEY Ersetzen Sie ihn durch den tatsächlichen Gemini-API-Schlüssel und speichern Sie die Datei.
  4. Überprüfen der Installation
    Nachdem Sie sichergestellt haben, dass alle Abhängigkeiten korrekt installiert sind, können Sie den folgenden Befehl ausführen, um das Skript zu testen:

    python url_summarize.py
    

    Wenn kein Fehler gemeldet wird, wurde die Umgebung erfolgreich konfiguriert.

Funktion Betriebsablauf

arXiv Summarizer bietet drei Hauptfunktionen, hier sind die einzelnen Schritte:

1. die Zusammenfassungen der einzelnen Beiträge

  • umziehen::
    1. Stellen Sie sicher, dass der Gemini-API-Schlüssel konfiguriert ist.
    2. Öffnen Sie ein Terminal und wechseln Sie in das Projektverzeichnis.
    3. Befehl ausführen:
      python url_summarize.py
      
    4. Wenn Sie dazu aufgefordert werden, geben Sie die URL der Abstract-Seite für das arXiv-Paper ein (z. B.:https://arxiv.org/abs/2009.01325). Hinweis: Verwenden Sie keine PDF-Links.
    5. Das Skript ruft die Gemini-API auf, um den Inhalt des Papiers zu verarbeiten, und gibt eine Zusammenfassung auf dem Terminal aus.
  • caveat::
    • Vergewissern Sie sich, dass es sich bei der URL um eine arXiv-Zusammenfassungsseite handelt und nicht um einen Link zu einer PDF-Datei.
    • Der Inhalt der Zusammenfassung hängt von der Komplexität der Arbeit ab und besteht in der Regel aus einigen Sätzen, in denen die wichtigsten Beiträge und Schlussfolgerungen hervorgehoben werden.

2. stapelweise Zusammenfassungen

  • umziehen::
    1. Erstellen Sie eine Textdatei im Projektverzeichnis (z. B. urls.txt).
    2. Geben Sie in der Textdatei pro Zeile eine URL für die arXiv-Zusammenfassung ein, z. B:
      https://arxiv.org/abs/2009.01325
      https://arxiv.org/abs/1908.08345
      
    3. Nachdem Sie die Datei gespeichert haben, führen Sie den Befehl aus:
      python url_summarize.py --batch urls.txt
      
    4. Das Skript verarbeitet die URLs in der Datei nacheinander und gibt alle Zusammenfassungen im Terminal oder in der angegebenen Ausgabedatei aus.
  • caveat::
    • Achten Sie darauf, dass die Textdatei korrekt formatiert ist und eine gültige URL pro Zeile enthält.
    • Bei einer großen Anzahl von URLs kann die Verarbeitung viel Zeit in Anspruch nehmen, daher empfiehlt es sich, dies in Stapeln zu tun.

3. stichwortartige Extraktion der Zusammenfassung

  • umziehen::
    1. Bearbeiten Sie die Konfigurationsdateien im Projekt (z. B. config.yaml oder verwandte Skripte), die Angabe von Schlüsselwörtern (z. B. machine learning) und Datumsbereich (z. B. die letzte Woche).
    2. Befehl ausführen:
      python keyword_summarize.py
      
    3. Das Skript sucht über die arXiv-API nach Beiträgen, die den Schlüsselwörtern entsprechen, lädt den Inhalt der Abstract-Seite herunter und erstellt den Abstract.
    4. Die Ergebnisse werden auf dem Terminal ausgegeben oder in einer angegebenen Datei gespeichert.
  • caveat::
    • Die Schlüsselwörter müssen spezifisch sein und dürfen nicht zu weit gefasst sein (z. B. AI), um die Suchgenauigkeit zu verbessern.
    • Der Datumsbereich ist flexibel und es wird empfohlen, ihn auf die letzten Tage einzustellen, um die neuesten Dokumente zu erhalten.

4. automatisierte tägliche Aktualisierungen

  • umziehen::
    1. Legen Sie Schlüsselwörter und den Ausgabepfad fest (z. B. Google Docs oder lokale Datei).
    2. Setzen von Auslösern (mit Hilfe von Google Apps Script oder lokalen Planungstools wie cron):
      • Google Apps-Skript::
        • Öffnen Sie Google Docs und erstellen Sie ein neues Skript.
        • Kopieren Sie die Automatisierungsskripte in das Projekt (siehe README.md).
        • Klicken Sie in der Google Apps Script-Schnittstelle auf das Symbol "Auslöser", um einen täglichen Auslöser hinzuzufügen (z. B. jeden Tag um 1 Uhr nachts).
        • Speichern Sie das Skript und autorisieren Sie es zur Ausführung.
      • lokaler Versand::
        • ausnutzen cron(Linux/Mac) oder Task Scheduler (Windows), um einen täglichen Lauf einzurichten. keyword_summarize.py.
    3. Das Skript holt täglich automatisch die neuesten Beiträge und erstellt Zusammenfassungen, die an einem bestimmten Ort ausgegeben werden.
  • caveat::
    • Stellen Sie sicher, dass die Netzwerkverbindung stabil ist, um Unterbrechungen bei API-Aufrufen zu vermeiden.
    • Überprüfen Sie regelmäßig die Gemini-API-Quote, denn die kostenlose Version hat ein Limit für die Anzahl der Aufrufe.

Weitere Tipps zur Verwendung

  • Aufbewahrung von ZusammenfassungenDie Standardzusammenfassung wird auf dem Terminal ausgegeben, und die Ergebnisse können in einer Datei gespeichert werden, indem das Skript geändert wird (z. B. summaries.txt).
  • Fehlererkennung::
    • Wenn der API-Schlüssel ungültig ist, prüfen Sie die url_summarize.py Der Schlüssel im
    • Wenn die Installation der Abhängigkeiten fehlschlägt, versuchen Sie, pip zu aktualisieren (pip install --upgrade pip) und neu installieren.
  • Beiträge der GemeinschaftDas Projekt ermutigt Nutzer, Verbesserungsvorschläge oder Fehlerbehebungen einzureichen, indem sie einen Issue oder Pull Request über GitHub einreichen.

 

Anwendungsszenario

  1. akademische Forschung
    Forscher müssen schnell eine große Anzahl von arXiv-Papieren durchsuchen, um relevante Studien zu finden. Mit der Funktion "Keyword Abstract" können Sie Schlüsselwörter für ein Feld eingeben (z. B. deep learning) können Sie täglich die neuesten Zusammenfassungen von Artikeln abrufen und so Zeit beim Lesen sparen.
  2. Literaturübersicht für Studenten
    Beim Verfassen einer Dissertation oder einer Rezension können die Studierenden über die Stapelzusammenfassungsfunktion mehrere URLs eingeben, um schnell auf die wichtigsten Inhalte zuzugreifen und ihre Literaturnotizen zu organisieren.
  3. Technische Verfolgung
    Technologiebegeisterte wollen die neuesten Entwicklungen in einem bestimmten Bereich verfolgen. Durch die Einrichtung automatischer täglicher Updates hält das Tool die Informationen auf dem neuesten Stand, indem es regelmäßig Zusammenfassungen relevanter Papiere an Google Docs sendet.
  4. Interdisziplinäre Erkundung
    Nichtfachleute möchten sich über die neuesten Entwicklungen auf einem bestimmten Gebiet (z. B. Quantencomputer) informieren. Mit der Funktion "Single Abstract" können Sie die URL eines interessanten Artikels eingeben und erhalten eine leicht verständliche Zusammenfassung.

 

QA

  1. Muss ich für die Nutzung der Gemini-API bezahlen?
    Nein, die Gemini-API bietet ein kostenloses Kontingent, das für die tägliche Erstellung von Auszügen ausreicht. Allerdings kann eine große Anzahl von Batch-Operationen durch das freie Kontingent begrenzt sein, so dass es empfohlen wird, sie in Batches zu verarbeiten.
  2. Unterstützung für Nicht-arXiv-Papiere?
    Derzeit werden nur arXiv-Papiere unterstützt, da sich das Skript auf die arXiv-API und die Seitenstruktur stützt. Es kann in Zukunft durch Beiträge der Community auf andere Plattformen erweitert werden.
  3. Wie ist die Qualität der Zusammenfassung?
    Die Zusammenfassungen werden von der Gemini-API generiert und geben in der Regel den Kern der Arbeit korrekt wieder. Bei komplexen Beiträgen kann jedoch eine manuelle Überprüfung erforderlich sein, um sicherzustellen, dass keine wichtigen Details übersehen werden.
  4. Wie lassen sich Überschreitungen von API-Aufrufen vermeiden?
    Überprüfen Sie das freie Kontingent für die Gemini-API (in der Regel gibt es ein Limit für die Anzahl der Aufrufe pro Tag). Es wird empfohlen, die Größe der Stapelverarbeitung zu begrenzen oder automatisierte Aufgaben nachts auszuführen, um die Aufrufe zu verteilen.
  5. Unterstützung für chinesische Zeitungen?
    Die meisten arXiv-Papiere sind auf Englisch, und die Skripte und die Gemini-API verarbeiten hauptsächlich englische Inhalte. Chinesische Papiere werden nur begrenzt unterstützt, so dass wir uns auf die Mehrsprachigkeit der Gemini-API verlassen müssen.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

Scannen Sie den Code, um zu folgen

qrcode

Kontakt

zurück zum Anfang

de_DEDeutsch