Co-Design de IA e Dados
Prof. Dr. Denis M. L. Martins
DCM | FFCLRP | USP

top-right

Prof. Dr. Denis M. L. Martins | martins.denis@usp.br

Sobre mim

  • Engenheiro da Computação pela Universidade de Pernambuco (UPE)
  • Doutorado na Universidade de Münster (Alemanha)
  • Eng. de Software na Stefanini
  • Pesquisador Sênior em IA na Samsung Research Brazil
  • Professor na PUC-Campinas
  • Professor no DCM-USP

Especialidade: Ciência de Dados e IA

Prof. Dr. Denis M. L. Martins | martins.denis@usp.br

Dados multidimensionais

Dados reais raramente vivem em 2D.

Precisamos de uma técnica que ajude a organizar o caos.

  • Centenas de variáveis.
  • Milhares de amostras (observações).
  • Relações não lineares.
  • Grupos difíceis de interpretar.

Fonte da Imagem: https://unsplash.com/@sametkurtkus

Prof. Dr. Denis M. L. Martins | martins.denis@usp.br

Escalar a IA em larga escala exige um design colaborativo de sistemas de dados e modelos inteligentes.

Prof. Dr. Denis M. L. Martins | martins.denis@usp.br

Motivação

Em várias aplicações, objetos de interesse são raros em dados massivos.

  • Podemos anotar alguns dados e treinar um classificador (e.g., CNN) com IA.
  • Depois, podemos aplicá-lo ao banco de dados completo para encontrar os objetos de interesse.

center

Fonte da Imagem: Kim et al. ECAP-YOLO (2021).

Prof. Dr. Denis M. L. Martins | martins.denis@usp.br

Co-Design: Usando Índices

A busca tradicional exige escanear todo o banco de dados.

  • Ineficiente
  • Ignora o potencial do DBMS.

Co-design de índices multidimensionais e modelos de IA.

Fonte: LÜLF, Christian et al. Fast Search-by-Classification for Large-Scale Databases Using Index-Aware Decision Trees and Random Forests. Proceedings of the VLDB Endowment, v. 16, n. 11, p. 2845-2857, 2023.

Prof. Dr. Denis M. L. Martins | martins.denis@usp.br

Co-Design: Modelos SQL + Índices

Melhor desempenho de classificação em comparação com Random Forest.

Muito mais ~200 vezes mais rápido.

center

Fonte: LÜLF, Christian et al. Fast Search-by-Classification for Large-Scale Databases Using Index-Aware Decision Trees and Random Forests. Proceedings of the VLDB Endowment , v. 16, n. 11, p. 2845-2857, 2023.

Prof. Dr. Denis M. L. Martins | martins.denis@usp.br

Co-Design: Generalizando Modelos SQL

HyperNN: Deep Learning Hyperboxes SQL

center

Fonte: Martins, Denis Mayr Lima, Christian Lülf, and Fabian Gieseke. "Training neural networks end-to-end for hyperbox-based classification." Neurocomputing 599 (2024): 127961.

Prof. Dr. Denis M. L. Martins | martins.denis@usp.br

Co-Design: Generalizando Modelos SQL

HyperNN: Deep Learning Hyperboxes SQL
Decisão da Rede Neural pode ser traduzida facilmente em SQL.

Fonte: Martins, Denis Mayr Lima, Christian Lülf, and Fabian Gieseke. "Training neural networks end-to-end for hyperbox-based classification." Neurocomputing 599 (2024): 127961.

Prof. Dr. Denis M. L. Martins | martins.denis@usp.br

Co-Design: Embeddings + Index

Arquitetura CLIP para text-image embeddings.
Busca tradicional + Refinamento via Decision Branches.

center

LÜLF, Christian et al. Clip-branches: Interactive fine-tuning for text-image retrieval. In: Proceedings of the 47th international ACM SIGIR conference on research and development in information retrieval. 2024. p. 2719-2723.

Prof. Dr. Denis M. L. Martins | martins.denis@usp.br

Imagine que você tem milhares de dados: textos, imagens, embeddings de IA...

com pouca anotação...

Prof. Dr. Denis M. L. Martins | martins.denis@usp.br

Self-Organizing Map (SOM)

Um Self-Organizing Map transforma dados complexos em um mapa bidimensional organizado:

  • cada neurônio é uma região do mapa;
  • cada dado é associado ao neurônio mais parecido;
  • regiões próximas representam padrões semelhantes;
  • a topologia dos dados é parcialmente preservada.

Fonte da Imagem: Diego Vicente.

Prof. Dr. Denis M. L. Martins | martins.denis@usp.br

Self-Organizing Map (SOM)

SOM aprende a preservar a topologia dos dados.

Ilustração do treinamento de SOM (grade) para se moldar à distribuição dos dados (em azul). Fonte da Imagem: Wikipedia.

Prof. Dr. Denis M. L. Martins | martins.denis@usp.br

Self-Organizing Map (SOM)

center

Na imagem: (a) Exemplo de um SOM. (b) Example de um mapa topológico de neurônios no cérebro humano, correspondente ao córtex auditivo. Fonte: Marta Pedró et al.

Prof. Dr. Denis M. L. Martins | martins.denis@usp.br

Aplicações

Prof. Dr. Denis M. L. Martins | martins.denis@usp.br

Por que SOM?

O SOM combina três ideias poderosas:

  1. Redução de dimensionalidade
  2. Clusterização
  3. Visualização interpretável

Ele cria uma superfície organizada para explorar padrões.

Na imagem: Mapa de exploração para compra de dados. Fonte: Martins and Vossen. "Self-organizing maps for data purchase support in data marketplaces." ICCCI 2023.

Prof. Dr. Denis M. L. Martins | martins.denis@usp.br

LLMs estão se tornando componentes essenciais em aplicações modernas


Como funcionaria o co-design de prompts de LLM e dados?

Prof. Dr. Denis M. L. Martins | martins.denis@usp.br

Prompts e Dados

O principal desafio reside no fato de que os prompts não são gerenciados de forma centralizada ou padronizada.

  • Pouco documentados
  • Complexos para manter e adaptar
  • Duplicados em diferentes pipelines ou fluxos de trabalho
  • Ocultos em frameworks complexos de orquestração externa.
  • Desconectados dos dados que eles usam!

Prompts devem ser gerenciados por sistemas de gerenciamento de bancos de dados.

Mais informações em: CETINTEMEL, Ugur et al. Making prompts first-class citizens for adaptive llm pipelines. arXiv preprint arXiv:2508.05012, 2025..

Prof. Dr. Denis M. L. Martins | martins.denis@usp.br

Ficou Interessado? Junte-se ao Nosso Time!

  • Problemas Abertos: Precisamos de ajuda para resolver questões de escalabilidade e eficiência.
  • Pesquisa Aplicada em Gerenciamento de Dados, Agricultura, Saúde, Direito, Pesquisa Operacional, Avaliação de Fornecedores em Cadeias de Suprimento...
  • Parcerias nacionais e interncionais.

Se você gosta de inteligência artificial, ciência de dados e resolver problemas complexos, então nosso time é o lugar certo para você.

Prof. Dr. Denis M. L. Martins | martins.denis@usp.br

Muito Obrigado!

Contato: martins.denis@usp.br

Site e GitHub: https://denmartins.github.io

Prof. Dr. Denis M. L. Martins | martins.denis@usp.br