Introdução geral
O Mad Professor (暴躁的教授读论文) é uma ferramenta acadêmica de IA de código aberto desenvolvida para pesquisadores e estudantes para simplificar a leitura e a análise de artigos acadêmicos. Ela integra processamento de PDF, tradução de IA, pesquisa RAG, perguntas e respostas de IA e interação por voz. Os usuários podem importar artigos em PDF, e a ferramenta extrairá automaticamente o conteúdo, traduzirá e gerará texto estruturado, que pode ser lido em chinês e inglês. O Mad Professor ajuda os usuários a entender rapidamente o conteúdo dos artigos por meio de perguntas e respostas inteligentes e interação por voz. Ele também oferece uma interface de tela dividida, exibindo o artigo à esquerda e o diálogo de IA à direita, o que é conveniente para os usuários fazerem perguntas durante a leitura.
Lista de funções
- Extração e estruturação de conteúdo de PDFExtrai automaticamente o texto de documentos PDF, gera conteúdo estruturado e oferece suporte ao processamento em lote de vários documentos.
- Tradução de IA em chinês e inglêsTradução do conteúdo do documento em chinês ou inglês para proporcionar um modo de leitura controlado.
- Sistema de recuperação RAGExtração rápida de informações importantes e contexto em artigos com base em técnicas de recuperação de vetores.
- Perguntas e respostas inteligentes sobre IASuporte a usuários para fazer perguntas por texto ou voz, e a IA fornece respostas precisas relacionadas ao documento.
- Interação de voz e TTSReconhecimento de entrada de voz incorporado e funcionalidade de conversão de texto em fala para simular o diálogo professoral.
- Interface interativa de tela divididaO lado esquerdo exibe o conteúdo do documento e o lado direito é a área de perguntas e respostas de IA, cuja operação é intuitiva.
- Processamento de arquivos em loteSuporte para colocar vários PDFs em
data
Pastas, detectadas automaticamente e processadas em lote. - gerenciamento assíncrono de tarefasOtimize o desempenho por meio do gerenciamento de threads e ofereça suporte ao processamento de tarefas simultâneas.
Usando a Ajuda
Processo de instalação
O Mad Professor é um desenvolvedor Python de projetos de código aberto, que precisa ser instalado no ambiente local para ser executado. Aqui estão as etapas detalhadas de instalação:
- Clonagem do código do projeto
Execute o seguinte comando em um terminal para clonar um projeto do GitHub:git clone https://github.com/LYiHub/mad-professor-public.git cd mad-professor-public
- Instalação do ambiente Python
Certifique-se de que o Python 3.8 ou posterior esteja instalado em seu sistema. Recomenda-se um ambiente virtual:python -m venv venv source venv/bin/activate # Windows 用户运行 venv\Scripts\activate
- Instalação de dependências
As dependências do projeto incluem o serviço de voz da MiniMax e outras bibliotecas Python. Execute o seguinte comando para instalá-lo:pip install -r requirements.txt
seguro
requirements.txt
O arquivo contém todas as bibliotecas necessárias, comoPyPDF2
enumpy
etc. - Configuração dos serviços de voz MiniMax
O Mad Professor usa o serviço TTS (Text-to-Speech) da MiniMax e precisa configurar uma ID de voz:- Visite a documentação oficial do MiniMax em .
- Criar ou usar um
voice_id
. - modificações
TTS_manager.py
no arquivobuild_tts_stream_body
que define o métodovoice_id
Substitua o parâmetro por seu ID, por exemplo:body = json.dumps({ "model": "speech-02-turbo", "text": text, "stream": True, "voice_setting": { "voice_id": "your_voice_id_here", "speed": 1, "vol": 1, "pitch": 0, "emotion": mapped_emotion }, "audio_setting": { "sample_rate": 32000, "bitrate": 128000, "format": "pcm", "channel": 1 } })
- Preparação de documentos de tese
Coloque o documento PDF a ser processado no diretório raiz do projeto no diretóriodata
pasta. O programa detectará e processará automaticamente esses arquivos em lote. - programa de corrida
Iniciar o programa principal:python AI_professor_UI.py
Quando o programa é executado, ele abre uma interface gráfica que mostra o conteúdo do papel e a área de interação da IA.
Uso
Importação e processamento de documentos
- Coloque o arquivo PDF na pasta
data
Pasta. - Após iniciar o programa, a ferramenta verifica automaticamente
data
extrair o conteúdo do PDF e gerar texto estruturado. - Os resultados da extração são exibidos no lado esquerdo da interface, que suporta os modos chinês e inglês. Clique no botão "Translate" (Traduzir) na interface para alternar os idiomas.
Perguntas e respostas com IA e interação por voz
- Na área de Perguntas e Respostas, no lado direito da interface, digite o texto ou use o microfone para fazer perguntas. Por exemplo, "Qual é a metodologia de pesquisa deste artigo?"
- Se estiver usando a entrada de voz, verifique se o dispositivo de microfone está funcionando. Se o indicador não ficar amarelo, tente substituir o dispositivo de entrada.
- A IA analisa o conteúdo do documento e lhe dá uma resposta precisa. Clique no botão "Voice Play" e a resposta será lida em voz alta no formato TTS.
- O volume, a taxa de fala e o tom da saída de voz podem ser definidos na seção
TTS_manager.py
Ajuste médio.
Operação da interface de tela dividida
- O conteúdo original ou traduzido do documento é exibido à esquerda e pode ser percorrido.
- O lado direito é a janela de diálogo da IA, que oferece suporte a perguntas e respostas em tempo real.
- A interface é compatível com a renderização Markdown, e as respostas de IA são exibidas em bolhas de mensagens claras.
arquivo de lote
- Para processar vários documentos, coloque todos os arquivos PDF na pasta
data
Pasta. - O programa processa arquivos não analisados um a um, gerando conteúdo estruturado e armazenando-o localmente.
advertência
- Certifique-se de que sua conexão com a Internet esteja estável, pois o serviço TTS da MiniMax requer uma conexão com a Internet.
- sonda
data
Permissões de pasta para garantir que o programa possa ser lido e gravado. - Se a entrada de voz falhar, verifique as configurações do microfone ou substitua a unidade.
- O projeto é um software de código aberto e recomendamos que você verifique a documentação mais recente no GitHub para obter atualizações.
cenário do aplicativo
- pesquisa acadêmica
Os pesquisadores podem usar o Mad Professor para ler e entender rapidamente artigos complexos. O recurso de perguntas e respostas com IA da ferramenta economiza tempo ao responder a perguntas especializadas, como metodologia de pesquisa e design experimental. - Aprendizagem do aluno
Os alunos podem ler artigos de idiomas estrangeiros nos modos inglês e chinês, com recursos de interação por voz para ajudar a entender termos e conceitos para iniciantes. - Escrevendo uma síntese de tese
A equipe de pesquisa pode processar em lote vários artigos, extrair informações importantes, gerar material de revisão e melhorar a eficiência da redação. - Colaboração entre idiomas
As equipes de pesquisa internacionais podem usar a função de tradução para converter rapidamente o conteúdo de seus artigos no idioma de destino e facilitar a comunicação.
QA
- Quais formatos de arquivo o Mad Professor suporta?
No momento, somente arquivos de papel em formato PDF são suportados. Certifique-se de que os arquivos PDF estejam em um formato extraível de texto e não digitalizados. - Como resolver o problema de falha na entrada de voz?
Verifique se o microfone está funcionando corretamente. Se o indicador não ficar amarelo, tente substituir o dispositivo de entrada ou verificar as configurações de áudio do sistema. - Preciso pagar para usar o serviço de voz da MiniMax?
A MiniMax oferece serviços de voz gratuitos e pagos. Recomendamos verificar a documentação oficial para confirmarvoice_id
O uso de permissões. - Ele pode ser usado off-line?
O processamento de PDF e as perguntas e respostas de IA funcionam off-line, mas a interação por voz e a tradução exigem acesso à Internet.