O Synthesis Muyan-TTS é um modelo de conversão de texto em fala (TTS) de código aberto projetado para cenários de podcasting. Ele é pré-treinado com mais de 100.000 horas de dados de áudio de podcast e suporta síntese de fala de amostra zero para gerar fala natural de alta qualidade. O modelo foi desenvolvido com base no Llama-3.2-3B, combinado com a decodificação SoVITS...
Introdução geral O CAD-MCP é um projeto de código aberto que permite aos usuários controlar o software CAD para operações de desenho por meio de comandos de linguagem natural. Ele combina processamento de linguagem natural e tecnologias de automação de CAD para permitir que os usuários criem e modifiquem desenhos sem precisar manipular manualmente a interface de CAD, apenas inserindo comandos de texto simples. Projeto ...
Introdução abrangente ao tradutor de mangá-imagem (versão de código aberto do Cotrans Translator) para traduzir mangás ou imagens no texto. Oferece interação de linha de comando e demonstração on-line, com modo de conversão em lote, modo de servidor da Web e outras diversas opções de uso. Pode ser configurado em vários idiomas para tradução de destino e .....
Introdução abrangente O GraphGen é uma estrutura de código aberto desenvolvida pelo OpenScienceLab, um laboratório de IA em Xangai, hospedado no GitHub, com foco na otimização do ajuste fino supervisionado de modelos de linguagem grande (LLMs), orientando a geração de dados sintéticos por meio de gráficos de conhecimento. Ele constrói gráficos de conhecimento de granulação fina a partir do texto de origem, usando...
Descrição geral O ACI.dev é uma plataforma de infraestrutura de código aberto projetada para fornecer às inteligências de IA uma rápida integração com mais de 600 ferramentas. Ela garante que as inteligências tenham acesso seguro a ferramentas como o Google Agenda, o Slack e o Brave Search por meio de autenticação de vários locatários e gerenciamento de permissões refinadas....
Introdução geral O llm.pdf é um projeto de código aberto que permite aos usuários executar modelos de linguagem grandes (LLMs) diretamente em arquivos PDF. Desenvolvido por EvanZhouDev e hospedado no GitHub, esse projeto demonstra uma abordagem inovadora: llama.cpp via Emscripten...
O General Abogen é uma ferramenta de código aberto projetada para converter rapidamente arquivos ePub, PDF ou de texto simples em áudio de alta qualidade. Ele usa o modelo Kokoro-82M para gerar uma fala natural e suave e oferece suporte à geração simultânea de legendas, o que o torna adequado para audiolivros, dublagem de vídeo ou auxílios de aprendizagem. Use...
Introdução geral O Local Deep Research é um assistente de pesquisa de IA de código aberto projetado para ajudar os usuários a realizar pesquisas profundas e gerar relatórios detalhados para problemas complexos. Ele oferece suporte à execução local, permitindo que os usuários concluam tarefas de pesquisa sem depender de serviços em nuvem. A ferramenta combina modelagem local de linguagem grande...
Introdução geral O DeepWiki é uma ferramenta gratuita da Cognition AI voltada para a geração de documentação estruturada, semelhante à da Wikipédia, para repositórios do GitHub. Ele analisa código, arquivos README e arquivos de configuração para criar automaticamente documentação detalhada e diagramas interativos que ajudam os desenvolvedores a entender rapidamente .....
Introdução geral O Trackers é uma biblioteca de ferramentas Python de código aberto voltada para o rastreamento de vários objetos em vídeo. Ela integra vários dos principais algoritmos de rastreamento, como o SORT e o DeepSORT, permitindo que os usuários combinem diferentes modelos de detecção de objetos (por exemplo, YOLO, RT-DETR) para uma análise de vídeo flexível. Os usuários ...
Introdução geral O Kimi-Audio é um modelo de base de áudio de código aberto desenvolvido pela Moonshot AI, com foco na compreensão, geração e diálogo de áudio. Ele oferece suporte a várias tarefas de processamento de áudio, como reconhecimento de fala, P&R de áudio e reconhecimento de emoções na fala. O modelo foi pré-treinado com mais de 13 milhões de horas de dados de áudio,...
Introdução geral O Describe Anything é um projeto de código aberto desenvolvido pela NVIDIA e por várias universidades, com o Describe Anything Model (DAM) em seu núcleo. Essa ferramenta gera uma imagem ou um vídeo detalhado com base nas áreas marcadas pelo usuário na imagem ou no vídeo (como pontos, caixas, rabiscos ou máscaras)...
Introdução O Cooragent é uma estrutura de colaboração de agentes de IA de código aberto desenvolvida pelo LeapLab da Universidade de Tsinghua e hospedada no GitHub. Ele permite que os usuários criem agentes de IA inteligentes com uma descrição de uma frase e oferece suporte a vários agentes para colaborar em tarefas complexas. A estrutura oferece dois modos: Agent Factory (Fábrica de agentes)...
Introdução geral O InstantCharacter é um projeto de código aberto desenvolvido pela Tencent Hunyuan e pela equipe do InstantX, hospedado no GitHub. Ele usa uma imagem de referência e uma descrição de texto para gerar imagens de personagens com aparência consistente para uma variedade de cenas e estilos. O projeto é baseado na var...
Introdução abrangente O MCP Server Deep Research é uma ferramenta de código aberto que gera automaticamente relatórios de pesquisa estruturados para problemas complexos por meio de inteligência artificial e pesquisa na Web. Os usuários inserem uma pergunta de pesquisa, e a ferramenta divide a pergunta, procura informações confiáveis, avalia a credibilidade da fonte e gera um Markdo com citações...
Introdução abrangente O Deep Recall é uma estrutura de memória de código aberto e de classe empresarial projetada para modelos de linguagem grandes (LLMs). Ele oferece capacidade de resposta hiperpersonalizada por meio de recuperação e integração contextuais eficientes. A estrutura usa uma arquitetura de três camadas, incluindo um serviço de memória, um serviço de inferência e um coordenador, e oferece suporte à inferência otimizada por GPU...
Introdução geral O CleverBee é um assistente de pesquisa de IA de código aberto hospedado no GitHub e desenvolvido pela SureScaleAI. Ele ajuda os usuários a coletar, analisar e resumir informações rapidamente, combinando a tecnologia de navegação na Web com grandes modelos de linguagem (como Gemini e Claude) para gerar pesquisas com citações...
Introdução geral O FantasyTalking é um projeto de código aberto desenvolvido pela equipe do Fantasy-AMAP, com foco na geração de vídeos de retratos falados realistas por meio da geração orientada por áudio. O projeto se baseia no modelo avançado de difusão de vídeo Wan2.1, combinado com o codificador de áudio Wav2Vec e pesos de modelos proprietários, usando inteligência artificial ...
Introdução geral O Paper2Code é um projeto de código aberto que visa solucionar o problema da falta de implementações de código para artigos de aprendizado de máquina. Ele transforma automaticamente artigos científicos em repositórios de código executáveis por meio do sistema multiagente Large Language Model (LLM) PaperCoder. O sistema usa um fluxo de três fases de planejamento, análise e geração de código...