Acesso no exterior: www.kdjingpai.com

Ctrl + D Marcar este site como favorito

Produtos interativos multimodais em tempo real

 Enviar site

BAGEL
O BAGEL é um modelo de base multimodal de código aberto desenvolvido pela equipe do ByteDance Seed e hospedado no GitHub. Ele integra recursos de compreensão de texto, geração de imagens e edição para dar suporte a tarefas multimodais. O modelo tem 7 bilhões de parâmetros ativos (14 bilhões de parâmetros no total) e usa a mistura de...
05-22 9920Recomendado
Conversa de voz em tempo real
O RealtimeVoiceChat é um projeto de código aberto que se concentra em conversas naturais e em tempo real com inteligência artificial por meio de voz. Os usuários usam o microfone para inserir a voz, o sistema captura o áudio por meio do navegador, converte-o rapidamente em texto, gera uma resposta a partir de um modelo de linguagem grande (LLM) e, em seguida, converte o texto em saída de voz, tudo...
05-06 1.2 K0Recomendado
Stepsailor: integração de barras de comando de IA em produtos SaaS existentes
O Stepsailor é uma ferramenta para desenvolvedores com uma barra de comando de IA em seu núcleo. Os desenvolvedores podem usá-la para fazer com que seus produtos de software entendam o que o usuário diz, por exemplo, se o usuário disser "adicionar nova tarefa", o software executará automaticamente. Ele é integrado aos produtos SaaS por meio de um SDK simples e não exige que os desenvolvedores saibam ...
04-10 8210Recomendado
OpenAvatarChat: uma ferramenta de diálogo humano digital projetada de forma modular
O OpenAvatarChat é um projeto de código aberto desenvolvido pela equipe HumanAIGC-Engineering e hospedado no GitHub. É uma ferramenta modular de diálogo humano digital que permite aos usuários executar todas as funcionalidades em um único PC. O projeto combina vídeo em tempo real, reconhecimento de fala e tecnologia humana digital...
04-05 9810Recomendado
VideoMind
O VideoMind é uma ferramenta de IA multimodal de código aberto que se concentra em inferência, perguntas e respostas e geração de resumo para vídeos longos. Foi desenvolvido por Ye Liu, da Universidade Politécnica de Hong Kong, e por uma equipe do Show Lab da Universidade Nacional de Cingapura. A ferramenta imita a maneira como os humanos entendem o vídeo, dividindo a tarefa em planejamento, posicionamento, verificação...
04-02 1.0 K0Recomendado
MoshiVis
O MoshiVis é um projeto de código aberto desenvolvido pela Kyutai Labs e hospedado no GitHub. Ele se baseia no modelo de fala para texto Moshi (7B parâmetros), com cerca de 206 milhões de novos parâmetros de adaptação e o codificador visual PaliGemma2 congelado (400M parâmetros), permitindo que o modelo...
03-28 1.0 K0Recomendado
Qwen2.5-Omni
O Qwen2.5-Omni é um modelo de IA multimodal de código aberto desenvolvido pela equipe do Alibaba Cloud Qwen. Ele pode processar várias entradas, como texto, imagens, áudio e vídeo, e gerar respostas em texto ou fala natural em tempo real. O modelo foi lançado em 26 de março de 2025, e o código e os arquivos do modelo estão hospedados no GitH....
03-27 1.6 K0Recomendado
xiaozhi-esp32-server: serviço de back-end de código aberto do chatbot de IA da Xiaozhi
O xiaozhi-esp32-server é uma ferramenta para fornecer serviço de back-end para o chatbot de IA Xiaozhi (xiaozhi-esp32). Ele é escrito em Python e baseado no protocolo WebSocket para ajudar os usuários a criar rapidamente um servidor para controlar dispositivos ESP32. Esse projeto é adequado ...
03-18 1.5 K0Recomendado
Baichuan-Áudio
O Baichuan-Audio é um projeto de código aberto desenvolvido pela Baichuan Intelligence (baichuan-inc), hospedado no GitHub, com foco na tecnologia de interação de voz de ponta a ponta. O projeto fornece uma estrutura completa de processamento de áudio que pode transformar a entrada de voz em tokens de áudio discretos e, em seguida, por meio de um grande modelo para gerar um par de ...
02-28 1.0 K0Recomendado
PowerAgents: plataforma de corpo inteligente de IA para execução de tarefas na Web com tempo determinado
O PowerAgents é uma plataforma de inteligências de IA focada em tarefas de automação da Web, que permite aos usuários criar e implementar inteligências de IA capazes de clicar, inserir e extrair dados. A plataforma suporta a configuração de tarefas a serem executadas automaticamente de hora em hora, diariamente ou semanalmente, e os usuários podem observar as inteligências trabalhando em tempo real. Ela não...
02-28 1.2 K0Recomendado
Step-Audio
O Step-Audio é uma estrutura de interação de voz inteligente de código aberto projetada para fornecer recursos de geração e compreensão de fala prontos para uso em ambientes de produção. A estrutura oferece suporte a diálogos em vários idiomas (por exemplo, chinês, inglês, japonês), fala emocional (por exemplo, feliz, triste), dialetos regionais (por exemplo, cantonês, Sichuan), taxa de fala ajustável...
02-19 1.2 K0Recomendado
Gemini Cursor: um assistente inteligente de desktop com IA baseado no Gemini que pode ver, ouvir e falar
O Gemini Cursor é um assistente inteligente de desktop baseado no modelo Gemini 2.0 Flash (experimental) do Google. Ele permite interações visuais, auditivas e de voz por meio de uma API multimodal, proporcionando uma experiência de usuário em tempo real e de baixa latência. O projeto, criado por @13point5, tem como objetivo passar...
02-12 1.1 K0Recomendado
DeepSeek-VL2
O DeepSeek-VL2 é uma série de modelos avançados de linguagem visual Mixture-of-Experts (MoE) que melhoram significativamente o desempenho de seu antecessor, o DeepSeek-VL. Os modelos são excelentes em tarefas como perguntas e respostas visuais, reconhecimento óptico de caracteres, compreensão de documentos/tabelas/diagramas e localização visual.De...
02-12 1.4 K0Recomendado
AI Web Operator: automação do navegador, implementação de código aberto do OpenAI Operator
O AI Web Operator é uma ferramenta de operador de navegador de IA de código aberto projetada para simplificar a experiência do usuário no navegador, integrando várias tecnologias de IA e SDKs. Criada com base no Browserbase e no Vercel AI SDK, a ferramenta oferece suporte a uma variedade de modelos de linguagem grande (LLM)...
01-31 1.3 K0Recomendado
SpeechGPT 2.0-preview: um macromodelo de diálogo de fala antropomórfico de ponta a ponta para interação em tempo real
O SpeechGPT 2.0-preview é o primeiro sistema de interação antropomórfica em tempo real introduzido pelo OpenMOSS, que é treinado em milhões de horas de dados de fala. O SpeechGPT 2.0-previ...
01-30 1.1 K0Recomendado
Agentes em tempo real da OpenAI
O OpenAI Realtime Agents é um projeto de código aberto que tem como objetivo mostrar como as APIs em tempo real da OpenAI podem ser usadas para criar aplicativos de fala corporal multiinteligentes. Ele fornece um modelo de corpo inteligente de alto nível (emprestado do OpenAI Swarm) que permite que os desenvolvedores criem sistemas complexos de fala corporal multiinteligente em um curto período de tempo. O projeto ...
01-19 1.5 K0Recomendado
Fiança
O Bailing (Bailing) é um assistente de diálogo por voz de código aberto projetado para estabelecer um diálogo natural com os usuários por meio da fala. O projeto combina tecnologias de reconhecimento de fala (ASR), detecção de atividade de voz (VAD), modelo de linguagem ampla (LLM) e síntese de fala (TTS) para implementar um robô de diálogo por voz semelhante ao GPT-4o...
01-19 1.5 K0Recomendado
Weebo: um chatbot de voz em tempo real que oferece uma experiência de diálogo em linguagem natural
O Weebo é um chatbot de voz em tempo real de código aberto que utiliza o Whisper Small para reconhecimento de fala, o Llama 3.2 para geração de linguagem natural e o Kokoro-82M para síntese de fala. O projeto foi desenvolvido por Amanvir Parhar com o objetivo de fornecer um chatbot de voz nativo...
01-17 1.3 K0Recomendado
OmAgent: uma estrutura de corpo inteligente para a criação de dispositivos inteligentes multimodais
O OmAgent é uma estrutura de corpo inteligente multimodal desenvolvida pelo Om AI Lab para fornecer uma poderosa funcionalidade alimentada por IA para dispositivos inteligentes. O projeto permite que os desenvolvedores criem experiências interativas eficientes e em tempo real em uma ampla gama de dispositivos inteligentes, integrando modelos de base multimodais de última geração e algoritmos de corpo inteligente.
01-17 1.3 K0Recomendado

Português do Brasil