Zugang aus Übersee: www.kdjingpai.com
Ctrl + D Lesezeichen für diese Seite

Windows-MCP ist ein leichtgewichtiges Open-Source-Projekt, das es KI-Agenten ermöglichen soll, das Windows-Betriebssystem direkt über ein Large Language Model (LLM) zu steuern. Es vereinfacht den Einrichtungsprozess, indem es die Notwendigkeit beseitigt, sich auf traditionelle Computer-Vision-Techniken oder spezifische Modelle zu verlassen. Benutzer können Tastatur- und Mausoperationen durchführen und den Fensterstatus mit einfachen Tools für Aufgaben wie Dateinavigation, Anwendungssteuerung und UI-Interaktion erfassen. Das Projekt ist unter der MIT-Lizenz verfügbar und der Code ist offen und leicht erweiterbar für Entwickler und KI-Enthusiasten. Die niedrige Latenzzeit (ca. 1,5-2,3 Sekunden zwischen den Aktionen) sorgt für reibungslose Interaktionen in Echtzeit und einen geringen Verbrauch von Systemressourcen, wodurch es sich für den lokalen Betrieb eignet.

 

Funktionsliste

  • Unterstützung für beliebige Large Language Models (LLMs), ohne dass spezielle Modelle oder traditionelle Computer-Vision-Techniken erforderlich sind.
  • Zur Simulation von Benutzereingaben werden Tastatur- und Mausmanipulationswerkzeuge bereitgestellt.
  • Erfassen Sie Fenster- und UI-Zustände und erhalten Sie Bildschirminhalte für die KI-Analyse.
  • Ausführen von PowerShell-Befehlen für Vorgänge auf Systemebene.
  • Unterstützt die Dokumentennavigation und Anwendungssteuerung zur Automatisierung der täglichen Aufgaben.
  • Ermöglicht Echtzeit-Interaktionen mit geringer Latenzzeit und Aktionsintervallen von etwa 1,5-2,3 Sekunden.
  • Open Source und leichtgewichtig, offener Code, wenige Abhängigkeiten, einfach zu installieren und zu erweitern.

 

Hilfe verwenden

Einbauverfahren

Windows-MCP hat einen einfachen Installationsprozess für Windows-Benutzer. Im Folgenden finden Sie die detaillierten Schritte:

  1. Klon-Lager
    Öffnen Sie ein Terminal oder eine Eingabeaufforderung und geben Sie den folgenden Befehl ein, um das Projekt-Repository zu klonen:

    git clone https://github.com/CursorTouch/Windows-MCP.git
    cd Windows-MCP
    
  2. Installation von Abhängigkeiten
    Das Projekt stützt sich auf die Python-Umgebung und eine Handvoll Bibliotheken. Stellen Sie sicher, dass Python 3.8 oder höher installiert ist. Sobald Sie sich im Projektverzeichnis befinden, führen Sie den folgenden Befehl aus, um die Abhängigkeiten zu installieren:

    pip install -r requirements.txt
    
  3. Konfiguration der Umgebung
    Wenn Sie ein bestimmtes LLM (z. B. Google Gemini) verwenden, muss der API-Schlüssel konfiguriert werden. Zum Erstellen eines.envfügen Sie z. B. Ihren API-Schlüssel hinzu:

    GOOGLE_API_KEY=your_api_key_here
    

    Benutzerfreundlichkeitload_dotenv()Laden Sie Umgebungsvariablen, Einzelheiten finden Sie in der Projektdokumentation.

  4. Laufende Projekte
    Führen Sie das Hauptskript im Projektverzeichnis aus:

    python main.py
    

    Wenn das Projekt startet, wird der KI-Agent initialisiert und wartet auf die Eingabe von Befehlen durch den Benutzer.

Hauptfunktionen

Die Hauptfunktion von Windows-MCP ist die Steuerung des Windows-Systems durch einen KI-Agenten. Nachfolgend finden Sie eine detaillierte Beschreibung der Hauptfunktionen:

1. die Verwendung des LLM-Kontrollsystems

Windows-MCP unterstützt beliebige LLMs, und der Benutzer muss nur das Modell im Code angeben. Verwenden Sie zum Beispiel das Google Gemini-Modell:

from langchain_google_genai import ChatGoogleGenerativeAI
llm = ChatGoogleGenerativeAI(model='gemini-2.0-flash')
agent = Agent(llm=llm, use_vision=True)

Der Benutzer gibt einen Befehl in natürlicher Sprache ein (z. B. "Öffne Notizblock"), und der KI-Agent analysiert den Befehl und führt die entsprechende Aktion aus. Das Ergebnis des Vorgangs wird als Text oder Bildschirmstatus zurückgegeben.
Verfahren::

  • Geben Sie einen Befehl in das Terminal ein, z. B. "Datei-Explorer öffnen".
  • AI parst und ruft die System-API auf, um die angegebene Anwendung automatisch zu öffnen.
  • Prüfen Sie das Ergebnis, um zu bestätigen, dass der Vorgang erfolgreich war.

2. die Bedienung von Tastatur und Maus

Windows-MCP bietet Werkzeuge, um Tastatureingaben und Mausklicks zu simulieren. Zum Beispiel kann die KI nach dem Öffnen einer Anwendung Text eingeben oder auf eine Schaltfläche klicken.
Beispiel für den Betrieb::

  • Anweisung: "Geben Sie Hello World in Notepad ein".
  • Die KI ruft das Tastaturwerkzeug auf, öffnet Notepad und gibt den Text ein.
  • Die Benutzer können die Details des Vorgangs in den Protokollen einsehen, um die Genauigkeit zu gewährleisten.
    zur Kenntnis nehmenMausbedienung: Die Mausbedienung hat eine Verzögerung von ca. 1,5-2,3 Sekunden, die von der Systembelastung abhängt. Eine Anpassung der Deutlichkeit der Befehle kann die Erfolgsquote verbessern.

3. die Erfassung von Fenster- und UI-Zuständen

Windows-MCP kann den aktuellen Fenster- oder Bildschirminhalt zur AI-Analyse abfangen. Zum Beispiel, um zu prüfen, ob eine bestimmte Schaltfläche auf der Benutzeroberfläche erscheint.
Verfahren::

  • Geben Sie den Befehl "Desktop auf Chrome-Symbol prüfen" ein.
  • AI erfasst den Bildschirmzustand, analysiert, ob das Symbol vorhanden ist oder nicht, und gibt das Ergebnis zurück.
  • Wenn der visuelle Modus aktiviert ist (use_vision=True), wird die KI in Verbindung mit der Bildanalyse ein genaueres Feedback liefern.

4. das Ausführen von PowerShell-Befehlen

Mit dem Shell-Tool können Benutzer PowerShell-Befehle ausführen. Zum Beispiel, um den Inhalt eines Ordners aufzulisten:
Beispiel für den Betrieb::

  • Befehl: "Dateien im Stammverzeichnis des Laufwerks C auflisten".
  • AI-Implementierungdir C:\der eine Liste von Dateien zurückgibt.
    zur Kenntnis nehmen: PowerShell-Befehle sollten mit Vorsicht verwendet werden, um die Systemsicherheit nicht zu gefährden. Es wird empfohlen, in einer Testumgebung zu arbeiten.

5. die Dokumentennavigation und Anwendungssteuerung

Windows-MCP unterstützt Dateimanipulation und Anwendungsverwaltung. Zum Beispiel das Öffnen von bestimmten Ordnern oder das Starten von Programmen.
Beispiel für den Betrieb::

  • Befehl: "Öffnen Sie den Ordner Dokumente auf dem Laufwerk D".
  • AI ruft das Tool File Navigator auf, um den angegebenen Pfad zu öffnen.
  • Der Benutzer kann weitere Befehle wie "Neue Textdatei" eingeben.

Featured Function Bedienung

Echtzeit-Interaktion mit niedriger Latenzzeit

Mit einem Aktionsintervall von nur 1,5 Sekunden ist Windows-MCP für schnelle Aufgaben geeignet. Der Benutzer kann kontinuierlich Befehle eingeben, die von der KI nacheinander ausgeführt werden. Beispiel:

  • Anweisung 1: "Browser öffnen".
  • Anweisung 2: "Suche nach KI-Tools".
    Die KI führt die Vorgänge nacheinander aus, um einen reibungslosen Ablauf zu gewährleisten.

Open-Source-Erweiterungen

Der Benutzer kann den Code nach Bedarf ändern. Die Projektdokumentation enthält einen Leitfaden für Erweiterungen, der sich im AbschnittCONTRIBUTINGDokumentation.
Verfahren::

  • zeigen (eine Eintrittskarte)toolsVerzeichnis, um benutzerdefinierte Skripte hinzuzufügen.
  • Updateagent.pyneue Werkzeuge zu integrieren.
  • Testen Sie Änderungen, um die Kompatibilität sicherzustellen.

Vorsichtsmaßnahmen für die Verwendung

  • Stellen Sie die Stabilität des Netzes sicher, insbesondere bei der Nutzung des Online-LLM.
  • Überprüfen Sie die Systemberechtigungen, einige Vorgänge erfordern Administratorrechte.
  • Prüfen Sie das GitHub-Repository regelmäßig auf Updates, um die neuesten Funktionen zu erhalten.

 

Anwendungsszenario

  1. automatisierte Büroarbeit
    Windows-MCP kann automatisch Bürosoftware öffnen, Daten eingeben oder Dateien organisieren. Zum Beispiel das stapelweise Umbenennen von Dateien oder das automatische Ausfüllen von Excel-Tabellen, geeignet für Administratoren oder Datenanalysten.
  2. UI-Prüfung
    Entwickler können Windows-MCP verwenden, um die Anwendungsschnittstelle zu testen, Benutzerklicks und -eingaben zu simulieren und zu überprüfen, ob die Funktionalität funktioniert. Geeignet für QA-Ingenieure.
  3. Experimente zur AI-Entwicklung
    KI-Enthusiasten können Windows-MCP verwenden, um die Leistung von LLM bei der Systemsteuerung zu testen und zu erforschen, wie KI mit dem Betriebssystem interagiert.
  4. Vereinfachung der täglichen Aufgaben
    Gewöhnliche Benutzer können komplexe Vorgänge wie das Verschieben von Dateien in großen Mengen oder das Einstellen von Systemparametern mit Hilfe von Befehlen in natürlicher Sprache durchführen, um den Schwierigkeitsgrad der Bedienung zu verringern.

 

QA

  1. Welche LLMs werden von Windows-MCP unterstützt?
    Es unterstützt jedes LLM, wie z.B. Google Gemini, OpenAI GPT, usw. Benutzer müssen nur das entsprechende Modell und den API-Schlüssel im Code konfigurieren.
  2. Benötigen Sie Kenntnisse im Bereich Computer Vision?
    Windows-MCP vereinfacht den Einrichtungsprozess, indem es die Steuerung über die System-API und optionale Bildverarbeitungsmodi ermöglicht.
  3. Wie kann ich einen sicheren Betrieb gewährleisten?
    Es wird empfohlen, das Programm in einer Testumgebung auszuführen, um die direkte Ausführung von risikoreichen PowerShell-Befehlen zu vermeiden. Prüfen Sie, ob Code und Befehle klar sind.
  4. Wie sieht es mit hohen Latenzzeiten aus?
    Die Latenzzeit beträgt normalerweise 1,5-2,3 Sekunden. Ist sie zu hoch, sollten Sie die Systemlast oder die LLM-Inferenzgeschwindigkeit überprüfen und die Befehlsformulierung optimieren.
0Lesezeichen
0Gelobt

Empfohlen

Sie können keine AI-Tools finden? Versuchen Sie es hier!

Geben Sie einfach das Schlüsselwort Barrierefreiheit Bing-SucheDer Bereich KI-Tools auf dieser Website bietet eine schnelle und einfache Möglichkeit, alle KI-Tools auf dieser Website zu finden.

Posteingang

Kontakt

zurück zum Anfang

de_DEDeutsch