Tema Nab, tema de navegação mais profissional
Ctrl + D Marcar este site como favorito

Audio-Reasoner: um modelo de linguagem em grande escala que oferece suporte ao raciocínio profundo de áudio

Introdução geral

O Audio-Reasoner é um projeto de código aberto desenvolvido por uma equipe da Universidade de Tsinghua e hospedado no GitHub, com foco na criação de modelos de linguagem em grande escala que oferecem suporte ao raciocínio profundo em áudio. O modelo é baseado no Qwen2-Audio-Instruct, que permite o raciocínio complexo e a compreensão multimodal do conteúdo de áudio, introduzindo a tecnologia estruturada Chain-of-Thought (CoT). O projeto inclui o modelo Audio-Reasoner-7B e o próximo conjunto de dados CoTA (com 1,2 milhão de amostras de alta qualidade), que obteve uma melhoria de desempenho de 25,42% e 14,57% nos benchmarks MMAU-mini e AIR-Bench-Chat, respectivamente.Audio-Reasoner O Audio-Reasoner é uma ferramenta ideal para pesquisadores e desenvolvedores, pois oferece suporte ao processamento de som, música, voz e outros tipos de áudio, e é adequado para cenários de análise de áudio e compreensão de conteúdo.

Audio-Reasoner: um modelo de linguagem em grande escala que oferece suporte ao raciocínio profundo de áudio-1

 

Lista de funções

  • Raciocínio profundo de áudioAnálise de áudio e geração de processos de raciocínio detalhados e resultados usando o pensamento em cadeia estruturado.
  • Suporte a tarefas multimodaisCombinação de entradas de áudio e texto para tarefas de compreensão e raciocínio multimodais.
  • Processamento múltiplo de áudioReconhecimento e análise de vários tipos de áudio, como voz, música, fala etc.
  • Modelos pré-treinados de alto desempenhoFornece o modelo Audio-Reasoner-7B, que se destaca em vários testes de benchmark.
  • Conjunto de dados CoTAContém 1,2 milhão de amostras para apoiar o treinamento de inferência estruturada e o aprimoramento da capacidade dos modelos.
  • Código de raciocínio e demonstraçãoCódigo de inferência completo e exemplos de demonstração para teste e desenvolvimento do usuário
  • programa de código aberto:: No futuro, o processo de síntese de dados e o código de treinamento serão abertos para facilitar a colaboração da comunidade.

 

Usando a Ajuda

Processo de instalação

A instalação do Audio-Reasoner requer a configuração do ambiente Python e o download dos pesos do modelo. A seguir estão as etapas detalhadas para garantir que os usuários possam concluir a compilação com êxito:

1. clonagem de um repositório do GitHub

Comece clonando o projeto Audio-Reasoner localmente. Abra um terminal e execute o seguinte comando:

git clone https://github.com/xzf-thu/Audio-Reasoner.git
cd Audio-Reasoner

Isso fará o download dos arquivos do projeto localmente e no diretório do projeto.

2. crie e ative um ambiente virtual

Para evitar conflitos de dependência, recomendamos que você crie um ambiente Python separado usando o Conda:

conda create -n Audio-Reasoner python=3.10
conda activate Audio-Reasoner

Esse comando cria e ativa um ambiente baseado no Python 3.10 chamado "Audio-Reasoner".

3. instalação de pacotes de dependência

O projeto oferece requirements.txt que contém as dependências necessárias. As etapas de instalação são as seguintes:

pip install -r requirements.txt
pip install transformers==4.48.0

Atenção:transformers A versão 4.48.0 precisa ser instalada para garantir um desempenho estável do modelo. Instale as outras dependências primeiro e, em seguida, especifique a opção transformers para evitar conflitos.

4. download dos pesos do modelo

O modelo Audio-Reasoner-7B foi lançado no HuggingFace e precisa ser baixado e o caminho configurado manualmente:

  • entrevistas Sonda de áudio HuggingFace-7B, faça o download do arquivo do modelo.
  • Preencha o caminho do ponto de verificação baixado no código do last_model_checkpoint variáveis, por exemplo:
last_model_checkpoint = "/path/to/Audio-Reasoner-7B"

Como usar

Após a instalação, os usuários podem executar o Audio-Reasoner por meio de código para lidar com tarefas de áudio. Veja a seguir o guia de operação detalhado:

Início rápido: Execute o código de amostra

O projeto fornece um exemplo de início rápido para ajudar os usuários a testar a funcionalidade do modelo:

  1. Preparação de arquivos de áudio
    Por padrão, ele usa o próprio assets/test.wav ou você pode substituí-lo por seu próprio áudio no formato WAV. Certifique-se de que o caminho esteja correto.
  2. Caminhos de áudio e problemas na edição de código
    show (um ingresso) inference.py Ou simplesmente use o código a seguir para definir o caminho do áudio e fazer perguntas:

    audiopath = "assets/test.wav"
    prompt = "这段音频的节奏感和拍子是怎样的?"
    audioreasoner_gen(audiopath, prompt)
    
  3. programa de corrida
    Execute-o no terminal:

    conda activate Audio-Reasoner
    cd Audio-Reasoner
    python inference.py
    

    O modelo produzirá resultados de inferência estruturados, incluindo <THINK>(planejar, descrever, raciocinar, resumir) e <RESPONSE>(Resposta final).

Funcionalidade principal: raciocínio profundo de áudio

No coração do Audio-Reasoner está o raciocínio de áudio baseado no pensamento em cadeia, e é assim que ele funciona:

  1. Áudio de entrada e problemas
    • fazer uso de audioreasoner_gen passando o caminho do áudio e uma pergunta específica. Exemplo:
      audiopath = "your_audio.wav"
      prompt = "音频中是否有鸟叫声?"
      audioreasoner_gen(audiopath, prompt)
      
  2. Exibir o resultado da inferência
    O modelo retorna processos de raciocínio detalhados, por exemplo:

    <THINK>
    <PLANNING>: 检查音频中的声音特征,识别是否有鸟叫声。
    <CAPTION>: 音频包含自然环境音,可能有风声和动物叫声。
    <REASONING>: 分析高频声音特征,与鸟类叫声模式匹配。
    <SUMMARY>: 音频中可能存在鸟叫声。
    </THINK>
    <RESPONSE>: 是的,音频中有鸟叫声。
    
  3. Ajuste dos parâmetros de saída (opcional)
    Se for necessária uma resposta mais longa ou mais flexível, ela pode ser modificada RequestConfig Parâmetros:

    request_config = RequestConfig(max_tokens=4096, temperature=0.5, stream=True)
    

Teste local de amostras predefinidas

O projeto tem áudio de teste integrado e perguntas para verificação rápida:

conda activate Audio-Reasoner
cd Audio-Reasoner
python inference.py

Após a execução, o terminal exibe uma descrição do assets/test.wav Os resultados das análises são adequados para a primeira experiência.

Recurso: Compreensão multimodal

O Audio-Reasoner oferece suporte à análise conjunta de áudio e texto. Exemplo:

prompt = "这段音乐的情绪是否与‘悲伤’描述相符?"
audioreasoner_gen("sad_music.wav", prompt)

O modelo combinará recursos de áudio e semântica de texto para gerar resultados de inferência.

Precauções e perguntas frequentes

  • formato de áudioFormato WAV recomendado, taxa de amostragem de 16 kHz, mono.
  • lentoSe estiver lento, verifique se a GPU está ativada (requer PyTorch para CUDA).
  • O modelo não está respondendoVerifique se o caminho do modelo está correto e se as dependências estão totalmente instaladas.
  • Conflito de dependênciaSe a instalação falhar, tente criar um novo ambiente e instalar as dependências em ordem estrita.

Uso avançado

  • Lógica de raciocínio personalizada:: Modificações system Palavras-chave para ajustar o estilo de raciocínio do modelo.
  • arquivo de lote:: Will max_batch_size Defina como um valor mais alto (por exemplo, 128) para oferecer suporte à inferência simultânea de vários áudios.
  • Combinado com o conjunto de dados CoTAOs conjuntos de dados futuros do CoTA podem ser usados para treinamento adicional ou ajuste fino do modelo quando forem lançados.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

Código de leitura a seguir

qrcode

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil