Ajuste fino de modelos grandes

 Enviar site

ReCall: treinamento de modelos grandes para inferência de chamadas de ferramentas por meio do aprendizado por reforço
O ReCall é uma estrutura de código aberto projetada para treinar modelos de linguagem grande (LLMs) para invocação e inferência de ferramentas por meio do aprendizado por reforço, sem depender de dados supervisionados. Ele permite que os modelos usem e combinem de forma autônoma ferramentas externas, como pesquisa, calculadoras etc., para resolver tarefas complexas.
07-01 400Recomendado
GraphGen: ajuste fino de modelos de linguagem usando gráficos de conhecimento para gerar dados sintéticos
O GraphGen é uma estrutura de código aberto desenvolvida pelo OpenScienceLab, um laboratório de IA em Xangai, hospedado no GitHub, focado na otimização do ajuste fino supervisionado de LLMs (Large Language Models), orientando a geração de dados sintéticos por meio de gráficos de conhecimento. Ele constrói gráficos de conhecimento de granulação fina a partir do texto de origem, usando o erro de calibração esperado...
05-05 6900Recomendado
MiniMind-V: treinamento de 1 hora de um modelo de linguagem visual com 26 milhões de parâmetros
O MiniMind-V é um projeto de código aberto, hospedado no GitHub, criado para ajudar os usuários a treinar um modelo de linguagem visual (VLM) leve com apenas 26 milhões de parâmetros em menos de uma hora. Ele se baseia no modelo de linguagem MiniMind, no novo codificador visual e no módulo de projeção de recursos, no suporte ao processamento conjunto de imagens e textos. .....
04-14 6010Recomendado
DeepCoder-14B-Preview: um modelo de código aberto que se destaca na geração de código
O DeepCoder-14B-Preview é um modelo de geração de código-fonte aberto desenvolvido pela equipe da Agentica e lançado na plataforma Hugging Face. Ele se baseia no DeepSeek-R1-Distilled-Qwen-14B, otimizado por técnicas de aprendizado por reforço distribuído (RL)...
04-10 7250Recomendado
WeClone: treinamento de doppelgangers digitais com registros de bate-papo e vozes do WeChat
O WeClone é um projeto de código aberto que permite aos usuários criar doppelgängers digitais personalizados usando registros de bate-papo e mensagens de voz do WeChat, combinados com grandes modelos de linguagem e tecnologia de síntese de voz. O projeto pode analisar os hábitos de bate-papo de um usuário para treinar o modelo e também pode gerar clones de voz realistas com um pequeno número de amostras de voz. Em última análise, o modelo digital...
04-08 7120Recomendado
Search-R1: Aprendizado por reforço para treinar modelos grandes para pesquisa e raciocínio
O Search-R1 é um projeto de código aberto desenvolvido por PeterGriffinJin no GitHub e baseado na estrutura veRL. Ele usa técnicas de aprendizagem por reforço (RL) para treinar um modelo de linguagem grande (LLM), de modo que o modelo aprenda de forma autônoma a raciocinar e invocar o mecanismo de busca para resolver problemas. Suporte ao projeto Qwen2....
04-01 7560Recomendado
Optexity: um projeto de código aberto para treinar a IA para realizar ações na Web com demonstrações humanas
O Optexity é um projeto de código aberto no GitHub, desenvolvido pela equipe do Optexity. Sua essência é usar dados de demonstração humana para treinar a IA para concluir tarefas de computador, especialmente operações de páginas da Web. O projeto consiste em três bibliotecas de código: ComputerGYM, AgentAI e Playwright...
04-01 8080Recomendado
Bonsai: um modelo de linguagem ponderada de três valores adequado para operação em dispositivos de borda
O Bonsai é um modelo de linguagem de código aberto desenvolvido pela deepgrove-ai com um tamanho de parâmetro de 500 milhões, usando pesos ternários. Ele se baseia na arquitetura Llama e no design do classificador Mistral, com camadas lineares adaptadas para suportar pesos ternários. O modelo usa principalmente ...
03-26 7350Recomendado
Second Me: doppelgangers de IA treinados localmente com memórias e hábitos pessoais
O Second Me é um projeto de código aberto desenvolvido pela equipe Mindverse que permite criar uma IA em seu computador que atua como um "sósia digital", aprendendo seus padrões e hábitos de fala por meio de suas palavras e memórias e tornando-se um assistente inteligente que o entende. Seu melhor recurso é que todos os dados permanecem no...
03-24 1.0 K0Recomendado
Easy Dataset: uma ferramenta fácil para criar grandes conjuntos de dados com ajuste fino de modelos
O Easy Dataset é uma ferramenta de código aberto projetada especificamente para o ajuste fino de modelos grandes (LLMs), hospedada no GitHub. Ela oferece uma interface fácil de usar que permite aos usuários fazer upload de arquivos, segmentar automaticamente o conteúdo, gerar perguntas e respostas e, por fim, gerar conjuntos de dados estruturados adequados para o ajuste fino. O desenvolvedor, Cona...
03-21 9060Recomendado
MM-EUREKA: uma ferramenta de aprendizagem por reforço multimodal para explorar o raciocínio visual
O MM-EUREKA é um projeto de código aberto desenvolvido pelo Shanghai Artificial Intelligence Laboratory, pela Shanghai Jiao Tong University e por outras partes. Ele amplia os recursos de raciocínio textual para cenários multimodais por meio de técnicas de aprendizagem por reforço baseadas em regras para ajudar os modelos a processar informações de imagem e texto. O objetivo principal dessa ferramenta é aprimorar o modelo em...
03-18 6940Recomendado
Kit de ferramentas de IA da Ostris: Difusão estável com o kit de ferramentas de treinamento de modelos FLUX.1
O AI Toolkit by Ostris é um kit de ferramentas de IA de código aberto focado no suporte aos modelos Stable Diffusion e FLUX.1 para tarefas de treinamento e geração de imagens. Criado e mantido pelo desenvolvedor Ostris e hospedado no GitHub, o kit de ferramentas tem como objetivo fornecer aos pesquisadores e desenvolvedores uma modelagem flexível...
03-12 1.0 K0Recomendado
X-R1: Treinamento de baixo custo de modelos de 0,5B em dispositivos comuns
O X-R1 é uma estrutura de aprendizagem por reforço de código aberto no GitHub pela equipe dhcode-cpp, com o objetivo de fornecer aos desenvolvedores uma ferramenta eficiente e de baixo custo para modelos de treinamento com base na aprendizagem por reforço de ponta a ponta. Inspirado no DeepSeek-R1 e no open-r1, o projeto se concentra na criação de uma estrutura...
03-11 6270Recomendado
OpenManus-RL: ajuste fino de modelos grandes para aprimorar o raciocínio e a tomada de decisões de corpos inteligentes
O OpenManus-RL é um projeto de código aberto desenvolvido em conjunto pelo UIUC-Ulab e pela equipe do OpenManus da comunidade MetaGPT, hospedado no GitHub. O projeto aprimora os recursos de raciocínio e tomada de decisão das inteligências do Large Language Model (LLM) por meio de técnicas de Aprendizado por Reforço (RL), com base no Deepseek-R1...
03-10 8340Recomendado
TPO-LLM-WebUI: uma estrutura de IA em que você pode inserir perguntas para treinar um modelo em tempo real e gerar os resultados.
O TPO-LLM-WebUI é um projeto inovador de código aberto da Airmomo no GitHub que permite a otimização em tempo real de modelos de linguagem grandes (LLMs) por meio de uma interface da Web intuitiva. Ele usa a estrutura TPO (Test-Time Prompt Optimisation), dizendo adeus à ...
02-24 8080Recomendado
Open-Reasoner-Zero: plataforma de treinamento de aprendizado por reforço de raciocínio em larga escala de código aberto
O Open-Reasoner-Zero é um projeto de código aberto voltado para a pesquisa de aprendizagem por reforço (RL), desenvolvido pela equipe do Open-Reasoner-Zero no GitHub. Seu objetivo é acelerar o processo de pesquisa no campo da inteligência artificial, fornecendo uma estrutura de treinamento eficiente, dimensionável e fácil de usar, especialmente para fins humanos de uso geral...
02-23 8790Recomendado
Conjunto de dados de destilação DeepSeek-R1 de sangue puro baseado na China, compatível com o conjunto de dados SFT de destilação R1 chinês
O conjunto de dados chinês de destilação DeepSeek-R1 é um conjunto de dados chinês de código aberto que contém 110 mil dados projetados para dar suporte à pesquisa de aprendizado de máquina e processamento de linguagem natural. O conjunto de dados foi lançado pela equipe de NLP de Liu Cong e contém não apenas dados matemáticos, mas também um grande número de tipos gerais de dados, como raciocínio lógico, Xiaohongshu...
02-20 9640Recomendado
ColossalAI: fornecendo soluções eficientes de treinamento de modelos de IA em grande escala
O ColossalAI é uma plataforma de código aberto desenvolvida pela HPC-AI Technologies para fornecer uma solução eficiente e econômica para treinamento e inferência de modelos de IA em grande escala. Ao oferecer suporte a várias estratégias paralelas, gerenciamento de memória heterogênea e treinamento de precisão mista, o ColossalAI é capaz de reduzir significativamente o tempo de treinamento e inferência de modelos e...
02-20 8280Recomendado
One Shot LoRA: a plataforma completa para geração rápida de modelos de LoRA em vídeo
O One Shot LoRA é uma plataforma voltada para a geração de modelos de LoRA de vídeo de alta qualidade a partir de vídeos. Os usuários podem treinar de forma rápida e fácil modelos LoRA de alta qualidade a partir de vídeos sem fazer login ou armazenar dados privados. A plataforma é compatível com Hunyuan Video, FLUX e SDXL...
02-12 1.1 K0Recomendado