Nab-Theme, professionelleres Navigationstheme
Ctrl + D Lesezeichen für diese Seite
Derzeitige Position:Abb. Anfang " AI-Werkzeugbibliothek

Chonkie: eine leichtgewichtige RAG Text Chunking Bibliothek

2024-11-13 1.2 K

Allgemeine Einführung

Chonkie ist eine leichtgewichtige und effiziente RAG (Retrieval-Augmented Generation)-Text-Chunking-Bibliothek, die Entwicklern helfen soll, Text schnell und einfach zu chunking. Die Bibliothek unterstützt eine Vielzahl von Chunking-Methoden, darunter Token-, Wort-, Satz- und semantische Ähnlichkeit-basiertes Chunking, und eignet sich für eine breite Palette von Textverarbeitungs- und natürlichen Sprachverarbeitungsaufgaben. Die Standardinstallation benötigt nur 21MB (andere ähnliche Produkte benötigen 80-171MB). Unterstützt alle wichtigen Chunkers.

 

Funktionsliste

  • TokenChunkerAufteilung des Textes in Markierungsblöcke fester Größe.
  • WordChunkerText anhand von Wörtern in Abschnitte unterteilen.
  • SentenceChunkerUnterteilen Sie den Text in Abschnitte, die auf Sätzen basieren.
  • SemanticChunkerAufteilung von Text in Abschnitte auf der Grundlage semantischer Ähnlichkeit.
  • SDPMChunkerSegmentierung von Text mit Hilfe eines semantischen Double-Merge-Ansatzes.

 

Hilfe verwenden

Montage

Um Chonkie zu installieren, führen Sie einfach den folgenden Befehl aus:

pip install chonkie

Chonkie folgt dem Prinzip der minimalen Standardinstallation und empfiehlt, bestimmte Chunkers nach Bedarf zu installieren, oder alle, wenn Sie keine Abhängigkeiten berücksichtigen wollen (nicht empfohlen).

pip install chonkie[all]

ausnutzen

Hier ein einfaches Beispiel, das Ihnen den Einstieg erleichtert:

  1. Importieren Sie zunächst den gewünschten Chunker:
    from chonkie import TokenChunker
    
  2. Importieren Sie Ihre bevorzugte Tokeniser-Bibliothek (AutoTokenizer, TikToken und AutoTikTokenizer werden unterstützt):
    from tokenizers import Tokenizer
    tokenizer = Tokenizer.from_pretrained("gpt2")
    
  3. Initialisieren Sie den Chunker:
    chunker = TokenChunker(tokenizer)
    
  4. Den Text gliedern:
    chunks = chunker("Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe.")
    
  5. Zugriff auf die Chunking-Ergebnisse:
    for chunk in chunks:
    print(f"Chunk: {chunk.text}")
    print(f"Tokens: {chunk.token_count}")
    

Methoden der Unterstützung

Chonkie bietet eine breite Palette von Chunkern, mit denen Sie effizient Ihre eigenen Chunks für das Internet erstellen und verteilen können. RAG Die Anwendung zerlegt den Text. Im Folgenden finden Sie einen kurzen Überblick über die verfügbaren Chunkers:

  • TokenChunkerAufteilung des Textes in Markierungsblöcke fester Größe.
  • WordChunkerText anhand von Wörtern in Abschnitte unterteilen.
  • SentenceChunkerUnterteilen Sie den Text in Abschnitte, die auf Sätzen basieren.
  • SemanticChunkerAufteilung von Text in Abschnitte auf der Grundlage semantischer Ähnlichkeit.
  • SDPMChunkerSegmentierung von Text mit Hilfe eines semantischen Double-Merge-Ansatzes.

Benchmarking

Chonkie schneidet in mehreren Benchmarks gut ab:

  • GrößenDie Standardinstallation beträgt nur 9,7 MB (im Vergleich zu 80-171 MB bei anderen Versionen), was immer noch weniger ist als bei der Konkurrenz, selbst wenn semantisches Chunking enthalten ist.
  • TempoTag Chunking ist 33x schneller als die langsamste Alternative, Satz Chunking ist fast 2x schneller als die Konkurrenz, und semantisches Chunking ist 2,5x schneller als andere Methoden.

Detaillierte Vorgehensweise

  1. InstallateurInstallieren Sie Chonkie und die benötigten Tagger-Bibliotheken über pip.
  2. ImportbibliothekImportieren Sie Chonkie und die Tagger-Bibliothek in Ihre Python-Skripte.
  3. Initialisierung des ChunkersChunker: Wählen Sie den für Ihre Bedürfnisse geeigneten Chunker aus und initialisieren Sie ihn.
  4. gestückelter TextChunking: Zerlegen des Textes mit dem initialisierten Chunker.
  5. ErgebnisIterieren durch die Chunking-Ergebnisse für die weitere Verarbeitung oder Analyse.

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

Scannen Sie den Code, um zu folgen

qrcode

Kontakt

zurück zum Anfang

de_DEDeutsch