AI-LAW 360 Benchmark · 2026

A odisseia da avaliação
da IA aplicada ao Direito

Avaliação sistemática de 13 sistemas de IA jurídica brasileira aplicando o framework Pádua 2025 (Revista Brasileira de Direito, 2025).

Baixar artigo (PDF) Auditar dados brutos EM BREVE Revisão final dos dados em andamento.
Apresentado na AB2L LawTech Experience · Pier Mauá · Rio de Janeiro · 13–14 de maio de 2026
Licença CC-BY 4.0 · Open science · Replicável

Benchmark 360

É método.
É evidência.

13

sistemas avaliados

5 LLMs genéricos +
8 IAs jurídicas BR

7

testes

6 atômicos +
1 peça completa

39

peças jurídicas

consumerista,
tributário, trabalhista

643

avaliações cegas

270 T1–T6 +
373 T7 (ranking final)

O pipeline completo executou aproximadamente 994 avaliações. As 643 destacadas acima são as que sustentam o ranking final. As demais — 135 T7 v1 sem web search e 144 da fórmula V4 descontinuada por viés de tamanho — estão documentadas no histórico metodológico com justificativa de arquivamento, disponíveis em rastreabilidade.

Método em 3 camadas

Avaliação cega

4 LLMs avaliadores cruzados sem ver o system_id · 3 rodadas independentes

Verificação humana

259 citações de jurisprudência conferidas em portais oficiais do STJ, TST, TJs e TRTs

Validação determinística

Algoritmo CNJ módulo 97 detecta números fabricados independente de busca

Fundamento metodológico:
PÁDUA, S. R.; HARTMANN PEIXOTO, F. Inteligência Artificial Generativa no Direito.
Revista Brasileira de Direito, v. 21, n. 1, e5237, 2025. DOI 10.18256/g4jnx825.

Descobertas críticas · dois níveis de evidência

Prova material.
Indícios circunstanciais.

Pesquisa séria distingue prova de indício. Os dois níveis abaixo carregam peso epistemológico distinto — apresentados nesta ordem para preservar o rigor da inferência.

NÍVEL 1 · PROVA MATERIAL · 1 CASO

IA jurídica fabricou citação
que foi incorporada em sentença real.

Smoking gun: placeholder de template não substituído encontrado dentro de sentença prolatada por juiz de primeira instância.

41

citações fabricadas

confirmadas por verificação humana

259 citações verificadas · 39 peças · 13 sistemas

O caso documentado

Citação de jurisprudência fabricada por sistema comercial de IA jurídica foi incorporada à fundamentação de sentença real prolatada por juiz de primeira instância no Estado do Paraná, em março de 2026.

A sentença cita acórdão com CNJ algoritmicamente inválido pelo módulo 97 (Resolução CNJ 65/2008) e atribui-o a relator de nome "Fulano de Tal" — placeholder canônico de template que humano não inventaria espontaneamente. Os dois elementos juntos constituem prova material da contaminação direta IA → judiciário.

Material probatório com tarjas de proteção de dados arquivado para auditoria. Por respeito institucional, comarca e magistrado não são identificados nesta página — o que importa é o fenômeno, não a pessoa.

Direção da contaminação reconstituída

humano + IA mal usada
   sentença real com placeholder não-substituído
   indexação em portal oficial
   raspagem por sistema comercial de IA jurídica
   propagação para usuários finais

A direção não é "IA inventou e o juiz aceitou". É: o ecossistema oficial foi contaminado por uso inadequado de IA por agentes humanos; sistemas comerciais que confiam em "tribunal = fonte verdadeira" propagam o erro por falta de validação independente.

Não é hipótese acadêmica. É prova material.

NÍVEL 2 · INDÍCIOS CIRCUNSTANCIAIS · 4 CASOS

Quatro CNJs fabricados aparecem indexados —
causa ainda não determinada.

Sistema do Bloco A gerou CNJs com dígito verificador inválido (módulo 97) que aparecem em decisões reais com temas diversos. A direção causal não está demonstrada com o material disponível.

CNJ fabricado Tribunal Tema da decisão real indexada
1023456-78.2021.8.26.0100TJSPCitação por edital. Esgotamento das diligências
0012345-67.2022.8.19.0001TJRJCondomínio. Vazamentos rede de esgoto
1001234-56.2021.8.26.0100TJSPConcurso público. Falha bancária
0023456-78.2022.8.19.0001TJRJManutenção veicular defeituosa

Hipóteses não-excludentes

  • A) Contaminação direcional real (IA → judiciário) — possível
  • B) Coincidência de sequenciais lineares triviais — alta plausibilidade
  • C) Outra fonte de contaminação (não especificamente o sistema) — possível
  • D) Geração algorítmica colidindo com numerações reais por acaso — alta plausibilidade

A hipótese B é particularmente plausível: 1023456, 0012345, 1001234, 0023456 são placeholders óbvios que podem colidir estatisticamente com numerações reais por acaso. Promover ao Nível 1 exigiria identificar o processo de origem, o magistrado responsável e um smoking gun equivalente.

Os dois níveis acima respeitam pesos epistemológicos distintos.
Nível 1 = prova material com rastreabilidade completa. Nível 2 = indícios investigativos que demandam descarte de hipóteses alternativas.

Esta separação é parte do rigor científico do benchmark. Inflar níveis seria mais retórico, menos honesto.

Resultados · Todos os 13 sistemas

Dois mundos,
um abismo.

Nomes das lawtechs: → Lawtech 3, 5–8

TOP 4

0,14 ponto entre 1º e 4º lugar

Síntese do ranking

  • 8 IAs jurídicas BR — 4 acima de 4,4 · cauda longa até 2,57
  • 5 LLMs genéricos — todos abaixo de 2,80
  • + 64% do líder das IAs jurídicas sobre o melhor LLM (4,60 vs 2,80)

Implicações práticas

Engenharia jurídica de confiança
entre Estado, Mercado e Sociedade

Estado

Quem julga e fundamenta

→ Validar antes de admitir.

Validação CNJ módulo 97 e checagem cruzada de jurisprudência citada antes de aceitar como fundamento. Custo trivial, benefício alto.

Mercado

Quem produz e vende IA jurídica

→ RAG dedicado, não web search ingênuo.

Indexação direta de fontes oficiais é necessária mas não suficiente — qualquer sistema que opere por raspagem ingênua propaga eventuais imprecisões. Solução: validação determinística + cruzamento de tema + revisão humana sistemática. É arquitetura, não treinamento.

Sociedade

Quem recebe a decisão

→ Direito a fundamentação verificável.

Fabricação de jurisprudência (Nível 1) atinge o jurisdicionado: decisões fundadas em precedentes inexistentes ferem o devido processo legal e o contraditório. A direção causal documentada exige resposta institucional do Judiciário.

Resposta · Duplo canal de correção

A engenharia jurídica de IA é,
antes de tudo, engenharia da confiança.

Rastreabilidade · Open science

Aberto.
Replicável.
Verificável.

Licença CC-BY 4.0. Você pode usar, redistribuir, replicar e estender este trabalho — pedindo somente a citação correta da fonte.

Artigo da pesquisa

AI-LAW 360 Benchmark

v1 · 12 mai 2026 · Relatório técnico · CC-BY 4.0

PDF

Deck da apresentação

AB2L 2026 · versão palco

10 slides · narrativa de palco

PDF PPTX PPTX EM BREVE

Framework metodológico

Pádua & Hartmann Peixoto

RBD 2025 · 38 páginas · DOI 10.18256/g4jnx825

Dados brutos

EM BREVE

643 avaliações cegas

+ 351 iterações arquivadas com justificativa

Revisão final em andamento.

Código de avaliação

EM BREVE

Scripts Python

Reproduz a fórmula V7 do bench

Publicação prevista pós-evento.

Citações verificadas

EM BREVE

259 conferidas

Status EXISTE / CAP / ERRO MATERIAL por verdict

Revisão final em andamento.

Manifesto de dados

EM BREVE

Inventário com SHA-256

Cada arquivo público auditável

Publicação prevista pós-evento.

Como citar este trabalho

@techreport{padua2026benchmark,
  author      = {Pádua, Sérgio Rodrigo de},
  title       = {AI-LAW 360 Benchmark: avaliação da IA aplicada ao Direito},
  institution = {InteliLaw},
  year        = {2026},
  month       = {May},
  type        = {Technical Report},
  number      = {v1},
  url         = {https://intelilaw.ai/bench360}
}

Última atualização: 9 de maio de 2026 · v1.0.0

Autoria

Sobre o pesquisador

SP

Sérgio Rodrigo de Pádua

  • Pós-doutorado em AI-LAW (UnB)
  • Doutor em Direito (UniBrasil)
  • Graduado em IA Aplicada (PUCPR)
  • Professor UniBrasil
  • Pesquisador de IA Jurídica
  • Head de IA da InteliLaw

Autor de "Da Jurisdição 'Ex Machina' ao Juiz Ciborgue: Inteligência Artificial e Interpretação do Direito" (Thomson Reuters, 2023). Criador do framework Pádua 2025 (Revista Brasileira de Direito), metodologia adotada neste benchmark.

Citação copiada