Detecção visual de alvos

 Enviar site

GLM-4.1V-Thinking: um modelo de inferência visual de código aberto para dar suporte a tarefas multimodais complexas
O GLM-4.1V-Thinking é um modelo de linguagem visual de código aberto desenvolvido pelo Laboratório KEG da Universidade de Tsinghua (THUDM), com foco em recursos de raciocínio multimodal. Com base no modelo básico GLM-4-9B-0414, o GLM-4.1V-Thinking usa aprendizado por reforço e mecanismos de raciocínio de "cadeia mental" para...
07-02 120Recomendado
Trackers: biblioteca de ferramentas de código aberto para rastreamento de objetos de vídeo
Trackers é uma biblioteca de ferramentas Python de código aberto voltada para o rastreamento de vários objetos em vídeo. Ela integra vários dos principais algoritmos de rastreamento, como o SORT e o DeepSORT, permitindo que os usuários combinem diferentes modelos de detecção de objetos (por exemplo, YOLO, RT-DETR) para uma análise de vídeo flexível. Os usuários podem facilmente...
05-05 6460Recomendado
Describe Anything: uma ferramenta de código aberto para gerar descrições detalhadas de imagens e áreas de vídeo
O Describe Anything é um projeto de código aberto desenvolvido pela NVIDIA e por várias universidades, com o Describe Anything Model (DAM) em seu núcleo. Essa ferramenta gera descrições detalhadas com base em áreas (como pontos, caixas, rabiscos ou máscaras) que o usuário marca em uma imagem ou vídeo. Ela não ...
05-05 4940Recomendado
Find My Kids: ferramenta de monitoramento de segurança infantil por meio de reconhecimento facial e notificações do WhatsApp
O Find My Kids é um projeto de código aberto hospedado no GitHub e criado pelo desenvolvedor Tomer Klein. Ele combina a tecnologia de reconhecimento facial DeepFace com a API verde do WhatsApp e foi projetado para ajudar os pais a monitorar os grupos de WhatsApp de seus filhos por meio de...
04-22 5210Recomendado
YOLOE: uma ferramenta de código aberto para detecção de vídeo em tempo real e segmentação de objetos
O YOLOE é um projeto de código-fonte aberto desenvolvido pelo Grupo de Inteligência Multimídia (THU-MIG) da Escola de Software da Universidade de Tsinghua, com o nome completo "You Only Look Once Eye". Ele é baseado na estrutura PyTorch, pertence à série de extensões YOLO e pode detectar e segmentar qualquer objeto em tempo real. O projeto está hospedado no GitHu...
04-02 7610Recomendado
SegAnyMo: uma ferramenta de código aberto para segmentar automaticamente objetos móveis arbitrários em vídeos
O SegAnyMo é um projeto de código aberto desenvolvido por uma equipe de pesquisadores da UC Berkeley e da Universidade de Pequim, incluindo membros como Nan Huang. Essa ferramenta se concentra no processamento de vídeo e pode identificar e segmentar automaticamente objetos móveis arbitrários em um vídeo, como pessoas, animais ou veículos. Ela combina TAPNet, DINO...
04-02 7380Recomendado
RF-DETR: um modelo de código aberto para detecção de objetos visuais em tempo real
O RF-DETR é um modelo de detecção de objetos de código aberto desenvolvido pela equipe do Roboflow. Ele é baseado na arquitetura Transformer e seu principal recurso é a eficiência em tempo real. Pela primeira vez, o modelo atinge mais de 60 APs de detecção em tempo real no conjunto de dados Microsoft COCO e também apresenta bom desempenho no benchmark RF100-VL...
03-25 1.0 K0Recomendado
HumanOmni: um macromodelo multimodal para análise de emoções e ações em vídeos humanos
O HumanOmni é um grande modelo multimodal de código aberto desenvolvido pela equipe HumanMLLM e hospedado no GitHub. Ele se concentra na análise de vídeos humanos e pode processar imagens e sons para ajudar a entender a emoção, o movimento e o conteúdo do diálogo. O projeto usou 2,4 milhões de videoclipes centrados em humanos e 14 milhões de .....
03-18 8680Recomendado
Vision Agent: uma inteligência visual para resolver várias tarefas de detecção visual de alvos
O Vision Agent é um projeto de código aberto desenvolvido pela LandingAI (equipe de Enda Wu) e hospedado no GitHub para ajudar os usuários a gerar códigos rapidamente para resolver tarefas de visão computacional. Ele utiliza uma estrutura de agente avançada e um modelo multimodal para gerar agentes de IA de visão eficientes com instruções simples...
02-28 8050Recomendado
MakeSense: uma ferramenta de anotação de imagens de uso gratuito para aumentar a eficiência do projeto de visão computacional
O Make Sense é uma ferramenta gratuita de anotação de imagens on-line criada para ajudar os usuários a preparar rapidamente conjuntos de dados para projetos de visão computacional. Ela não requer instalação complicada, basta abrir um acesso ao navegador para usá-la, é compatível com vários sistemas operacionais e é perfeita para pequenos projetos de aprendizagem profunda. Os usuários podem usá-la para adicionar imagens a...
02-24 1.1 K0Recomendado
YOLOv12: uma ferramenta de código aberto para detecção de alvos em imagens e vídeos em tempo real
O YOLOv12 é um projeto de código aberto desenvolvido pelo usuário do GitHub sunsmarterjie, com foco na tecnologia de detecção de alvos em tempo real. O projeto se baseia na série de estruturas YOLO (You Only Look Once), na introdução do mecanismo de atenção para otimizar o desempenho das redes neurais convolucionais tradicionais (CNN), não apenas ...
02-23 1.3 K0Recomendado
VLM-R1: um modelo de linguagem visual para localizar alvos de imagem por meio de linguagem natural
O VLM-R1 é um projeto de modelagem de linguagem visual de código aberto desenvolvido pelo Om AI Lab e hospedado no GitHub. O projeto se baseia na abordagem R1 do DeepSeek, combinada com o modelo Qwen2.5-VL, e aprimora significativamente o modelo por meio de técnicas de aprendizado por reforço (R1) e ajuste fino supervisionado (SFT) em...
02-23 1.1 K0Recomendado
HealthGPT: um grande modelo médico para apoiar a análise de imagens médicas e as perguntas e respostas de diagnóstico
O HealthGPT é um modelo de linguagem visual médica de última geração que visa obter recursos unificados de geração e compreensão visual médica por meio da adaptação de conhecimento heterogêneo. O objetivo do projeto é integrar os recursos de geração e compreensão da visão médica em uma estrutura autorregressiva unificada, melhorando significativamente a eficiência e a precisão do processamento de imagens médicas...
02-20 9250Recomendado
MedRAX: um corpo inteligente para análise de radiografias de tórax usando macromodelos multimodais
O MedRAX é uma inteligência de IA de última geração projetada especificamente para a análise de radiografia de tórax (CXR). Ele integra ferramentas de análise de CXR de última geração e modelos multimodais de linguagem ampla para processar dinamicamente consultas médicas complexas sem treinamento adicional.
02-10 1.1 K0Recomendado
Agentic Object Detection: uma ferramenta para detecção de objetos visuais sem anotação e treinamento
O Agentic Object Detection é uma ferramenta avançada de detecção de alvos da Landing AI. A ferramenta simplifica muito o processo tradicional de detecção de alvos usando prompts de texto para detecção sem a necessidade de rotulagem de dados e treinamento de modelos. Os usuários simplesmente carregam uma imagem e inserem os prompts de detecção, e o agente de IA pode .....
02-08 1.0 K0Recomendado
CogVLM2: modelo multimodal de código aberto para apoiar a compreensão de vídeos e várias rodadas de diálogo
O CogVLM2 é um modelo multimodal de código aberto desenvolvido pelo Grupo de Pesquisa em Mineração de Dados da Universidade de Tsinghua (THUDM), baseado na arquitetura Llama3-8B e projetado para oferecer desempenho comparável ou até melhor que o GPT-4V. O modelo oferece suporte à compreensão de imagens, ao diálogo em várias rodadas e à compreensão de vídeos, e é capaz de lidar com conteúdo de até 8K de comprimento...
02-08 9830Recomendado
Gaze-LLE: ferramenta de previsão de alvos para o olhar de pessoas em vídeos
O Gaze-LLE é uma ferramenta de previsão de alvo do olhar baseada em um codificador de aprendizado em larga escala. Desenvolvida por Fiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman e James M. Rehg, ela tem como objetivo usar o codificador visual pré-treinado...
01-24 1.3 K0Recomendado
Video Analyzer: analisa o conteúdo do vídeo e gera descrições detalhadas
O Video Analyzer é uma ferramenta abrangente de análise de vídeo que combina visão computacional, transcrição de áudio e técnicas de processamento de linguagem natural para gerar descrições detalhadas do conteúdo do vídeo. A ferramenta gera descrições de linguagem natural extraindo quadros-chave do vídeo, transcrevendo o conteúdo de áudio e...
01-20 1.6 K0Recomendado
Twelve Labs: soluções multimodais de IA para compreensão de conteúdo de vídeo, pesquisa de vídeo, geração e incorporação de serviços de API
A Twelve Labs é uma empresa de IA multimodal focada na compreensão de vídeo, dedicada a ajudar os usuários a compreender e processar grandes quantidades de conteúdo de vídeo por meio de tecnologias avançadas de IA. Suas principais tecnologias incluem pesquisa, geração e incorporação de vídeo, que são capazes de extrair os principais recursos do vídeo, como ações, objetos, texto na tela, fala e personagens...
01-05 1.1 K0Recomendado