O GLM-4.1V-Thinking é um modelo de linguagem visual de código aberto desenvolvido pelo Laboratório KEG da Universidade de Tsinghua (THUDM), com foco em recursos de raciocínio multimodal. Com base no modelo básico GLM-4-9B-0414, o GLM-4.1V-Thinking usa aprendizado por reforço e mecanismos de raciocínio de "cadeia mental" para...
Trackers é uma biblioteca de ferramentas Python de código aberto voltada para o rastreamento de vários objetos em vídeo. Ela integra vários dos principais algoritmos de rastreamento, como o SORT e o DeepSORT, permitindo que os usuários combinem diferentes modelos de detecção de objetos (por exemplo, YOLO, RT-DETR) para uma análise de vídeo flexível. Os usuários podem facilmente...
O Describe Anything é um projeto de código aberto desenvolvido pela NVIDIA e por várias universidades, com o Describe Anything Model (DAM) em seu núcleo. Essa ferramenta gera descrições detalhadas com base em áreas (como pontos, caixas, rabiscos ou máscaras) que o usuário marca em uma imagem ou vídeo. Ela não ...
O Find My Kids é um projeto de código aberto hospedado no GitHub e criado pelo desenvolvedor Tomer Klein. Ele combina a tecnologia de reconhecimento facial DeepFace com a API verde do WhatsApp e foi projetado para ajudar os pais a monitorar os grupos de WhatsApp de seus filhos por meio de...
O YOLOE é um projeto de código-fonte aberto desenvolvido pelo Grupo de Inteligência Multimídia (THU-MIG) da Escola de Software da Universidade de Tsinghua, com o nome completo "You Only Look Once Eye". Ele é baseado na estrutura PyTorch, pertence à série de extensões YOLO e pode detectar e segmentar qualquer objeto em tempo real. O projeto está hospedado no GitHu...
O SegAnyMo é um projeto de código aberto desenvolvido por uma equipe de pesquisadores da UC Berkeley e da Universidade de Pequim, incluindo membros como Nan Huang. Essa ferramenta se concentra no processamento de vídeo e pode identificar e segmentar automaticamente objetos móveis arbitrários em um vídeo, como pessoas, animais ou veículos. Ela combina TAPNet, DINO...
O RF-DETR é um modelo de detecção de objetos de código aberto desenvolvido pela equipe do Roboflow. Ele é baseado na arquitetura Transformer e seu principal recurso é a eficiência em tempo real. Pela primeira vez, o modelo atinge mais de 60 APs de detecção em tempo real no conjunto de dados Microsoft COCO e também apresenta bom desempenho no benchmark RF100-VL...
O HumanOmni é um grande modelo multimodal de código aberto desenvolvido pela equipe HumanMLLM e hospedado no GitHub. Ele se concentra na análise de vídeos humanos e pode processar imagens e sons para ajudar a entender a emoção, o movimento e o conteúdo do diálogo. O projeto usou 2,4 milhões de videoclipes centrados em humanos e 14 milhões de .....
O Vision Agent é um projeto de código aberto desenvolvido pela LandingAI (equipe de Enda Wu) e hospedado no GitHub para ajudar os usuários a gerar códigos rapidamente para resolver tarefas de visão computacional. Ele utiliza uma estrutura de agente avançada e um modelo multimodal para gerar agentes de IA de visão eficientes com instruções simples...
O Make Sense é uma ferramenta gratuita de anotação de imagens on-line criada para ajudar os usuários a preparar rapidamente conjuntos de dados para projetos de visão computacional. Ela não requer instalação complicada, basta abrir um acesso ao navegador para usá-la, é compatível com vários sistemas operacionais e é perfeita para pequenos projetos de aprendizagem profunda. Os usuários podem usá-la para adicionar imagens a...
O YOLOv12 é um projeto de código aberto desenvolvido pelo usuário do GitHub sunsmarterjie, com foco na tecnologia de detecção de alvos em tempo real. O projeto se baseia na série de estruturas YOLO (You Only Look Once), na introdução do mecanismo de atenção para otimizar o desempenho das redes neurais convolucionais tradicionais (CNN), não apenas ...
O VLM-R1 é um projeto de modelagem de linguagem visual de código aberto desenvolvido pelo Om AI Lab e hospedado no GitHub. O projeto se baseia na abordagem R1 do DeepSeek, combinada com o modelo Qwen2.5-VL, e aprimora significativamente o modelo por meio de técnicas de aprendizado por reforço (R1) e ajuste fino supervisionado (SFT) em...
O HealthGPT é um modelo de linguagem visual médica de última geração que visa obter recursos unificados de geração e compreensão visual médica por meio da adaptação de conhecimento heterogêneo. O objetivo do projeto é integrar os recursos de geração e compreensão da visão médica em uma estrutura autorregressiva unificada, melhorando significativamente a eficiência e a precisão do processamento de imagens médicas...
O MedRAX é uma inteligência de IA de última geração projetada especificamente para a análise de radiografia de tórax (CXR). Ele integra ferramentas de análise de CXR de última geração e modelos multimodais de linguagem ampla para processar dinamicamente consultas médicas complexas sem treinamento adicional.
O Agentic Object Detection é uma ferramenta avançada de detecção de alvos da Landing AI. A ferramenta simplifica muito o processo tradicional de detecção de alvos usando prompts de texto para detecção sem a necessidade de rotulagem de dados e treinamento de modelos. Os usuários simplesmente carregam uma imagem e inserem os prompts de detecção, e o agente de IA pode .....
O CogVLM2 é um modelo multimodal de código aberto desenvolvido pelo Grupo de Pesquisa em Mineração de Dados da Universidade de Tsinghua (THUDM), baseado na arquitetura Llama3-8B e projetado para oferecer desempenho comparável ou até melhor que o GPT-4V. O modelo oferece suporte à compreensão de imagens, ao diálogo em várias rodadas e à compreensão de vídeos, e é capaz de lidar com conteúdo de até 8K de comprimento...
O Gaze-LLE é uma ferramenta de previsão de alvo do olhar baseada em um codificador de aprendizado em larga escala. Desenvolvida por Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman e James M. Rehg, ela tem como objetivo usar o codificador visual pré-treinado...
O Video Analyzer é uma ferramenta abrangente de análise de vídeo que combina visão computacional, transcrição de áudio e técnicas de processamento de linguagem natural para gerar descrições detalhadas do conteúdo do vídeo. A ferramenta gera descrições de linguagem natural extraindo quadros-chave do vídeo, transcrevendo o conteúdo de áudio e...
A Twelve Labs é uma empresa de IA multimodal focada na compreensão de vídeo, dedicada a ajudar os usuários a compreender e processar grandes quantidades de conteúdo de vídeo por meio de tecnologias avançadas de IA. Suas principais tecnologias incluem pesquisa, geração e incorporação de vídeo, que são capazes de extrair os principais recursos do vídeo, como ações, objetos, texto na tela, fala e personagens...