Tema Nab, tema de navegação mais profissional
Ctrl + D Marcar este site como favorito

RealtimeSTT: ferramenta de conversão de fala em texto em tempo real para reconhecimento de fala em streaming de baixa latência com base no Whisper

2025-01-18 1.1 K

Introdução geral

O RealtimeSTT é uma biblioteca de conversão de fala em texto eficiente, de baixa latência e em tempo real, com detecção avançada de atividade de fala e ativação de palavras. Ela foi desenvolvida por Kolja Beigel para dar suporte a aplicativos que exigem transcrição de fala para texto rápida e precisa. Seja um assistente de voz ou um aplicativo que exija a transcrição precisa da fala, o RealtimeSTT oferece excelente desempenho e facilidade de uso.

RealtimeSTT: ferramenta de conversão de fala em texto em tempo real, reconhecimento de fala de baixa latência-1

 

Lista de funções

  • Conversão de fala em texto em tempo real: transcreva a fala em texto em tempo real para uma variedade de cenários de aplicativos.
  • Detecção de atividade de fala: detecta automaticamente quando um usuário começa e para de falar, melhorando a precisão da transcrição.
  • Ativação por palavra de despertar: suporta a função de palavra de despertar, os usuários podem ativar o sistema por meio de palavras específicas.
  • Baixa latência: garanta baixa latência no processo de conversão de fala em texto para melhorar a experiência do usuário.
  • Suporte multiplataforma: compatível com vários sistemas operacionais e plataformas para facilitar a integração.
  • Código-fonte aberto: forneça código-fonte aberto completo para que os desenvolvedores realizem o desenvolvimento secundário e a personalização.

 

Usando a Ajuda

Processo de instalação

  1. Clonagem do Project Warehouse:
   git clone https://github.com/KoljaB/RealtimeSTT.git
  1. Vá para o catálogo de projetos:
   cd RealtimeSTT
  1. Instale a dependência:
   pip install -r requirements.txt
  1. (Opcional) Instale o suporte à GPU:
   pip install -r requirements-gpu.txt

Uso

Iniciar o servidor

  1. Inicie o servidor de fala para texto:
   stt-server
  1. Depois que o servidor for iniciado, aguarde o prompt "speak now" (fale agora).

Uso do cliente

  1. Inicie o cliente e conecte-se ao servidor:
   stt
  1. Quando o cliente for iniciado, comece a falar e o sistema transcreverá a fala para texto em tempo real.

Funções principais

conversão de fala para texto em tempo real

  1. importação (dados) AudioToTextRecorder Classe:
   from RealtimeSTT import AudioToTextRecorder
  1. Define funções que processam texto:
   def process_text(text):
print(text)
  1. Inicia a gravação e processa o texto:
   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)

Detecção de atividade de voz

  1. O sistema detecta automaticamente quando o usuário começa e para de falar, sem necessidade de configuração adicional.

ativação da chamada de despertar

  1. Configure a função de palavra de ativação, os usuários podem ativar o sistema por meio de palavras específicas; consulte a documentação do projeto para obter a configuração específica.

Exemplo de operação detalhada

Digite tudo o que for dito

  1. importação (dados) AudioToTextRecorder responder cantando pyautogui::
   from RealtimeSTT import AudioToTextRecorder
import pyautogui
  1. Define funções que processam texto:
   def process_text(text):
pyautogui.typewrite(text + " ")
  1. Inicia a gravação e processa o texto:
   if __name__ == '__main__':
print("Wait until it says 'speak now'")
recorder = AudioToTextRecorder()
while True:
recorder.text(process_text)

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

Código de leitura a seguir

qrcode

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil