Tema Nab, tema de navegação mais profissional
Ctrl + D Marcar este site como favorito

Modelo multimodal de chinês tradicional de código aberto da MediaTek e modelo de síntese de fala com sotaque de Taiwan

2025-02-19 484

A MediaTek Research anunciou recentemente que abriu oficialmente o código-fonte de dois modelos multimodais otimizados para o chinês tradicional: o Llama-Breeze2-3B e o Llama-Breeze2-8B, projetados para diferentes plataformas de computação, como telefones celulares e PCs, e com a capacidade de chamar funções, o que permite o uso flexível de ferramentas externas para expandir os cenários de aplicativos. para expandir os cenários de aplicativos. Além disso, a MediaTek também abriu o código de um aplicativo Android baseado no Llama-Breeze2-3B e no BreezyVoice, um modelo de síntese de fala que pode gerar um sotaque taiwanês natural, demonstrando seu layout abrangente da tecnologia de IA de terminal.

A MediaTek abre o modelo multimodal chinês tradicional e a tecnologia de síntese de fala com sotaque de Taiwan para acelerar os aplicativos móveis de IA-1

 

A série Llama-Breeze2 de modelos multimodais para telefones celulares e PCs.

Base de inovação da MediaTek, esse código aberto Modelos de base multimodal chinês tradicional da série Llama-Breeze2O Llama-Breeze2-3B é uma versão leve do Llama-Breeze2 que pode ser executada em dispositivos móveis, e uma versão leve do Llama-Breeze2-8B que oferece um desempenho mais poderoso em PCs. De acordo com a MediaTek, essa série de modelos não é apenas proficiente em chinês tradicional, mas também integra recursos avançados, como multimodalidade e chamadas de função, o que permite compreender informações de imagem e chamar ferramentas externas para realizar tarefas complexas.

Para promover ainda mais o desenvolvimento de aplicativos móveis de IA, a MediaTek adotou o modelo Llama-Breeze2-3B como núcleo.Desenvolveu e abriu o código-fonte de um aplicativo para AndroidEste aplicativo foi projetado para aprimorar os recursos do assistente de IA do celular, como reconhecimento de conteúdo de imagem e invocação de ferramenta externa. O aplicativo foi projetado para aprimorar os recursos do assistente de IA do telefone, como reconhecimento de conteúdo de imagem, chamadas de ferramentas externas e muito mais. Enquanto isso, a MediaTek também está sincronizando desengajamento BreezyVoice, um modelo de síntese de fala capaz de sintetizar sotaques taiwaneses autênticos. O conteúdo de código aberto dos três modelos e aplicativos acima inclui pesos de modelos e parte do código de execução para que os desenvolvedores possam estudar e aplicar.

 

Análise da tecnologia do modelo Llama-Breeze2: otimização baseada no Llama 3, combinando complexidade, visão e recursos de invocação de ferramentas

Uma análise aprofundada do modelo Llama-Breeze2, cuja tecnologia principal é otimizada com base no modelo de linguagem Llama 3 de código aberto da Meta. A MediaTek aproveita ainda mais o corpus de chinês tradicional para aprimorar a compreensão do modelo de chinês tradicional e integra o modelo de linguagem visual, bem como as chamadas de função (Chamada de função), dando à série de modelos Llama-Breeze2 três recursos principais: otimização do chinês tradicional, compreensão de imagens e capacidade de chamar ferramentas externas.

existirCapacidade do chinês tradicionalQuanto aos resultados de comparação fornecidos pela MediaTek, em comparação com o modelo Llama 3 3B Instruct com a mesma escala de parâmetros, o Llama-Breeze2-3B conseguiu listar com precisão mercados noturnos conhecidos, como o Shihlin Night Market, o Raohe Night Market e o Luodong Night Market, no texto curto gerado dos mercados noturnos de Taiwan; enquanto o modelo Llama 3 3B Instruct reconheceu corretamente apenas o Shihlin Night Market. mas gera dois mercados noturnos fictícios - Telecom Night Market e World Trade Night Market. Esse resultado destaca a vantagem da família de modelos Llama-Breeze2 na compreensão do chinês tradicional.

existircapacidade multimodalO Llama-Breeze2-3B não apenas processa informações textuais, mas também analisa com eficácia o conteúdo de imagens, como diagramas, resultados de reconhecimento óptico de caracteres (OCR) ou fotografias de locais de interesse. Os modelos são capazes de entender o significado da imagem e fazer відповідь. Por exemplo, no cenário a seguir:

Pergunta do usuário: Qual é o valor total do prêmio em dinheiro disponível para os três primeiros colocados?

A MediaTek abre o modelo multimodal chinês tradicional e a tecnologia de síntese de fala com sotaque de Taiwan para acelerar os aplicativos móveis de IA-1

Llama-Breeze2-8B respondeu: De acordo com as informações na imagem, o prêmio para o primeiro lugar é de 300.000 RMB, o segundo lugar é de 200.000 RMB e o terceiro lugar é de 150.000 RMB. Quando esses valores são somados, o prêmio total em dinheiro para os três primeiros lugares é de 650.000 RMB.

Além disso, os modelos da série Llama-Breeze2 são equipados com chamadas de função, o que lhes permite chamar ferramentas externas para realizar tarefas mais complexas. Por exemplo, quando um usuário pergunta sobre o clima, o modelo pode chamar a interface API de um aplicativo meteorológico para obter instantaneamente as informações meteorológicas mais recentes e responder ao usuário com os resultados, proporcionando uma experiência mais inteligente e interativa.

 

Exemplo de aplicativo para Android: Llama-Breeze2-3B: conduzindo aplicativos móveis de IA

Além de abrir o código de dois modelos de linguagem multimodal, a MediaTek Innovation Base também abriu o código de um aplicativo Android que pode ser implantado diretamente em telefones celulares. Com base no modelo Llama-Breeze2-3B, esse aplicativo pode ser usado como um assistente pessoal de IA para ajudar os usuários com tradução em tempo real, recomendações de atrações e muitas outras tarefas, conforme mostrado na figura abaixo. Além disso, o aplicativo também é equipado com uma função de geração de fala, que permite aos usuários inserir texto e o modelo gerará uma resposta de voz natural e suave, que pode ser usada em vários cenários, como a navegação inteligente.

A MediaTek abre o modelo multimodal chinês tradicional e a tecnologia de síntese de fala com sotaque de Taiwan para acelerar os aplicativos móveis de IA-2

 

Modelo de síntese de fala BreezyVoice: cinco segundos de amostras de áudio para gerar sotaques taiwaneses autênticos

Como parte do programa de código aberto, a MediaTek Innovation Base também lançou o BreezyVoice, um modelo de síntese de voz especialmente treinado para a fala tradicional chinesa e projetado com uma arquitetura leve que pode gerar rapidamente uma fala altamente realista com apenas 5 segundos de amostra de entrada de áudio. O BreezyVoice pode ser usado como uma solução de saída de voz para assistentes de IA para proporcionar uma experiência mais natural e interativa. O BreezyVoice pode ser usado como uma solução de saída de voz para assistentes de IA para proporcionar uma experiência interativa mais natural. De acordo com a MediaTek, o BreezyVoice agora é executado sem problemas em laptops e pode ser combinado com qualquer sistema de modelagem de linguagem ampla (LLM) ou de fala para texto para oferecer ainda mais possibilidades de aplicação.

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.

Código de leitura a seguir

qrcode

Entre em contato conosco

voltar ao topo

pt_BRPortuguês do Brasil