Conversa de voz em tempo real
O RealtimeVoiceChat é um projeto de código aberto que se concentra em conversas naturais e em tempo real com inteligência artificial por meio de voz. Os usuários usam o microfone para inserir a voz, o sistema captura o áudio por meio do navegador, converte-o rapidamente em texto, gera uma resposta a partir de um modelo de linguagem grande (LLM) e, em seguida, converte o texto em saída de voz, tudo...
Transcritor
O Transkriptor é uma ferramenta de transcrição orientada por IA que se concentra na conversão rápida de áudio e vídeo em texto. Ela suporta mais de 100 idiomas com uma taxa de precisão de até 99% e é adequada para uma ampla variedade de cenários, como reuniões, entrevistas, anotações em sala de aula e muito mais. Os usuários podem fazer upload de arquivos, gravar diretamente ou transcrever por meio de links para o Zoom, Go...
Conch Speech (MiniMax Audio): ferramenta de IA para gerar discurso natural
O MiniMax Audio é uma ferramenta de geração de fala de IA da MiniMax, com o recurso principal de converter rapidamente texto em fala natural altamente semelhante. Ela se baseia no modelo Speech-02, com uma similaridade de síntese de fala de até 99%, qualidade de som de nível de estúdio e suporte para mais de 30 idiomas e uma ampla variedade de...
TwinMind
O TwinMind é uma ferramenta inteligente desenvolvida pela ThirdEar AI, Inc. que "lembra de tudo para você". Ele pode gravar e converter conversas, reuniões ou palestras em texto em tempo real, em mais de 100 idiomas, e pode ser usado off-line mesmo quando o telefone está no bolso. Os usuários não precisam fazer anotações por conta própria, o TwinMind...
Agentes em tempo real da OpenAI
O OpenAI Realtime Agents é um projeto de código aberto que tem como objetivo mostrar como as APIs em tempo real da OpenAI podem ser usadas para criar aplicativos de fala corporal multiinteligentes. Ele fornece um modelo de corpo inteligente de alto nível (emprestado do OpenAI Swarm) que permite que os desenvolvedores criem sistemas complexos de fala corporal multiinteligente em um curto período de tempo. O projeto ...
Fiança
O Bailing (Bailing) é um assistente de diálogo por voz de código aberto projetado para estabelecer um diálogo natural com os usuários por meio da fala. O projeto combina tecnologias de reconhecimento de fala (ASR), detecção de atividade de voz (VAD), modelo de linguagem ampla (LLM) e síntese de fala (TTS) para implementar um robô de diálogo por voz semelhante ao GPT-4o...
Assistente de IA Deepseek "sempre ativo": criação de um sistema de interação de voz inteligente baseado no Deepseek-V3
O Always-On AI Assistant é um projeto inovador de assistente de IA que cria um sistema de assistente de IA avançado e permanentemente on-line, integrando tecnologias avançadas, como Deepseek-V3, RealtimeSTT e Typer. O projeto é especialmente otimizado para cenários de desenvolvimento de engenharia, fornecendo um...
Xiaozhi AI Chatbot
O Xiaozhi AI Chatbot é um projeto de código aberto baseado na placa de desenvolvimento ESP32, projetado para ajudar os usuários a criar seu próprio companheiro de bate-papo de IA. O projeto foi desenvolvido pela Shrimp e é usado principalmente para fins didáticos, a fim de ajudar mais pessoas a iniciar o desenvolvimento de hardware de IA e entender como aplicar o modelo de linguagem grande a dispositivos de hardware reais. Projeto ...
Agente de pesca
Fish Speech Derivative Project O Fish Agent é um revolucionário sistema de clonagem de fala de IA de ponta a ponta desenvolvido com base na arquitetura do modelo V0.1 3B. Como um sistema de processamento de clonagem de fala de ponta a ponta, sua característica mais importante é que ele adota um projeto inovador de arquitetura sem tags semânticas, que não precisa depender de linguagens tradicionais, como o Whisper .....
Voz-Pro
Voice-Pro 是一个基于 Gradio WebUI 的多功能工具,支持语音转文字、文本转语音、实时翻译、YouTube 视频下载和人声分离。它集成了 Whisper、Faster-Whisper 和 Whisper-Timestamp...
Ichigo (llama3-s)
O Ichigo é um projeto de código aberto de IA de fala em tempo real que visa ampliar os modelos de linguagem baseados em texto com recursos nativos de "escuta". O projeto usa técnicas de fusão iniciais inspiradas no documento Chameleon da Meta. O objetivo do Ichigo é se tornar um dispositivo de fala nativo ponderado e de dados de código aberto...
Audição de IA
如果你在用 MacBook,试试 AI Hear:可以录音、实时本地语音转文字、并翻译、最终导出字幕。可以用它辅助你听跨国会议、英文有声书。 AI Hear是一款本地运行的软件,提供一键实时翻译和转录功能,支持多种语言。...
Fukumaru Chione
O Funmaru Thousand Voices é uma plataforma de síntese de voz de IA multilíngue que oferece soluções de geração de voz realistas e naturais. Os usuários podem converter facilmente o conteúdo de texto em áudio de nível profissional e apoiar a criação de vozes de IA exclusivas (clones de voz) a partir de zero amostras para atender às necessidades personalizadas. A plataforma também oferece a função de tradução de vídeo para ajudar os usuários a...
compreender através da audição
O Tongyi Listening and Understanding é um assistente de IA de aprendizado no trabalho lançado pela Aliyun, que se concentra na transcrição e análise de conteúdo de áudio e vídeo. Ele se baseia nos poderosos modelos de IA do AliCloud para transcrever conteúdo de áudio e vídeo em texto em tempo real, além de fornecer tradução, resumo, posicionamento e outras funções. O Tongyi Listening Woo suporta vários idiomas e cenários para ajudar os usuários...
Tencent Smartfilm (desenvolvedores da plataforma de mensagens instantâneas QQ)
腾讯智影是腾讯公司推出的在线智能视频创作平台,通过云端服务提供的强大AI工具,能支持文本配音、数字人播报、自动字幕识别等功能,它集素材搜索、视频剪辑、渲染出口和发布于一体,为用户带来便捷的视频编辑和...