Introdução geral O RealtimeVoiceChat é um projeto de código aberto voltado para conversas naturais e em tempo real com inteligência artificial por meio de voz. Os usuários usam um microfone para inserir sua voz, o sistema captura o áudio por meio de um navegador, converte-o rapidamente em texto, gera uma resposta a partir de um modelo de linguagem grande (LLM) e, em seguida, converte o texto em fala...
O Stepsailor é uma ferramenta para desenvolvedores com uma barra de comando de IA em seu núcleo. Os desenvolvedores podem usá-la para fazer com que seus produtos de software entendam o que o usuário diz, por exemplo, o usuário diz "adicionar nova tarefa", e o software a executa automaticamente. Ele é integrado aos produtos SaaS por meio de um SDK simples e não requer...
Introdução geral O OpenAvatarChat é um projeto de código aberto desenvolvido pela equipe HumanAIGC-Engineering e hospedado no GitHub. É uma ferramenta modular de diálogo humano digital que permite aos usuários executar todas as funcionalidades em um único PC. O projeto combina vídeo em tempo real, reconhecimento de fala e...
Introdução geral O VideoMind é uma ferramenta de IA multimodal de código aberto que se concentra em inferência, perguntas e respostas e geração de resumo para vídeos longos. Ele foi desenvolvido por Ye Liu, da Universidade Politécnica de Hong Kong, e por uma equipe do Show Lab da Universidade Nacional de Cingapura. A ferramenta imita a maneira como os humanos entendem o vídeo, dividindo as tarefas em planejamento,...
Introdução geral O MoshiVis é um projeto de código aberto desenvolvido pela Kyutai Labs e hospedado no GitHub. Ele se baseia no modelo de fala para texto Moshi (7B parâmetros), com cerca de 206 milhões de novos parâmetros de adaptação e um codificador visual PaliGemma2 congelado (400M parâmetros...
Introdução abrangente O Qwen2.5-Omni é um modelo de IA multimodal de código aberto desenvolvido pela equipe do Alibaba Cloud Qwen. Ele pode processar várias entradas, como texto, imagens, áudio e vídeo, e gerar respostas de texto ou fala natural em tempo real. O modelo foi lançado em 26 de março de 2025, e os arquivos de código e modelo tor...
Introdução geral O xiaozhi-esp32-server é uma ferramenta para fornecer serviço de back-end para o chatbot de IA Xiaozhi (xiaozhi-esp32). Ela é escrita em Python e baseada no protocolo WebSocket para ajudar os usuários a criar rapidamente um servidor para controlar dispositivos ESP32....
Introdução abrangente O Baichuan-Audio é um projeto de código aberto desenvolvido pela Baichuan Intelligence (baichuan-inc), hospedado no GitHub, com foco na tecnologia de interação de voz de ponta a ponta. O projeto fornece uma estrutura completa de processamento de áudio que pode converter a entrada de voz em tokens de áudio discretos e, em seguida, por meio de um grande ...
Introdução geral O PowerAgents é uma plataforma de inteligências de IA voltada para tarefas de automação da Web, que permite aos usuários criar e implementar inteligências de IA capazes de clicar, inserir e extrair dados. A plataforma suporta a configuração de tarefas para serem executadas automaticamente de hora em hora, diariamente ou semanalmente, e os usuários também podem assistir ao trabalho das inteligências em tempo real...
Introdução abrangente O Step-Audio é uma estrutura de interação de fala inteligente de código aberto projetada para fornecer recursos de geração e compreensão de fala prontos para uso em ambientes de produção. A estrutura oferece suporte a diálogos em vários idiomas (por exemplo, chinês, inglês, japonês), discurso emocional (por exemplo, feliz, triste), dialetos regionais (por exemplo, cantonês, Sichuan) e pode...
Introdução geral O Gemini Cursor é um assistente inteligente de desktop baseado no modelo Gemini 2.0 Flash (experimental) do Google. Ele permite interações visuais, auditivas e de voz por meio de uma API multimodal, proporcionando uma experiência de usuário em tempo real e de baixa latência. O projeto foi criado por @13point5...
Introdução abrangente O DeepSeek-VL2 é uma série de modelos avançados de linguagem visual Mixture-of-Experts (MoE) que melhoram significativamente o desempenho de seu antecessor, o DeepSeek-VL. Os modelos funcionam em tarefas como questionamento visual, reconhecimento óptico de caracteres, compreensão de documentos/tabelas/diagramas e localização visual...
Introdução geral O AI Web Operator é uma ferramenta de operador de navegador de IA de código aberto projetada para simplificar a experiência do usuário no navegador, integrando várias tecnologias de IA e SDKs. Criada com base nos SDKs Browserbase e Vercel AI, a ferramenta oferece suporte a vários modelos de linguagem em grande escala...
O SpeechGPT 2.0-preview é o primeiro sistema de interação antropomórfica em tempo real introduzido pelo OpenMOSS, que é treinado em milhões de horas de dados de fala. O SpeechGPT 2.0-preview é o primeiro sistema de interação antropomórfica em tempo real introduzido pela OpenMOSS, treinado com base em milhões de horas de dados de fala, com expressões antropomórficas e resposta de baixa latência de 100 milissegundos, suportando interrupções naturais e suaves em tempo real.
Introdução geral O OpenAI Realtime Agents é um projeto de código aberto que tem como objetivo mostrar como a API em tempo real do OpenAI pode ser usada para criar aplicativos de fala corporal multiinteligentes. Ele fornece um modelo de corpo inteligente de alto nível (emprestado do OpenAI Swarm) que permite que os desenvolvedores criem discursos corporais complexos e multiinteligentes em um curto...
Introdução abrangente O Bailing (Bailing) é um assistente de diálogo de voz de código aberto projetado para se envolver em conversas naturais com os usuários por meio da fala. O projeto combina tecnologias de reconhecimento de fala (ASR), detecção de atividade de voz (VAD), modelagem de linguagem ampla (LLM) e síntese de fala (TTS) para obter uma fala semelhante à do GPT-4o...
Introdução geral O Weebo é um chatbot de voz em tempo real de código aberto que utiliza o Whisper Small para reconhecimento de fala, o Llama 3.2 para geração de linguagem natural e o Kokoro-82M para síntese de fala. O projeto foi desenvolvido por Amanvir Parhar para fornecer um...
Introdução abrangente O OmAgent é uma estrutura de corpo inteligente multimodal desenvolvida pelo Om AI Lab, com o objetivo de fornecer recursos avançados baseados em IA para dispositivos inteligentes. O projeto permite que os desenvolvedores criem experiências interativas eficientes e em tempo real em uma ampla gama de dispositivos inteligentes, integrando modelos de base multimodais de última geração e algoritmos de corpo inteligente...
Introdução abrangente O Always-On AI Assistant é um projeto inovador de assistente de IA que cria um sistema de assistente de IA avançado e permanentemente on-line por meio da integração de tecnologias avançadas, como Deepseek-V3, RealtimeSTT e Typer. O projeto é especialmente otimizado para cenários de engenharia e desenvolvimento, e é proposto...