AI-LAW 360 Benchmark · 2026

A odisseia da avaliação
da IA aplicada ao Direito

Avaliação sistemática de 13 sistemas de IA jurídica brasileira aplicando o framework Pádua 2025 (Revista Brasileira de Direito, 2025).

Baixar artigo (PDF) Auditar dados brutos EM BREVE Revisão final dos dados em andamento.

Apresentado na AB2L LawTech Experience · Pier Mauá · Rio de Janeiro · 13–14 de maio de 2026
Licença CC-BY 4.0 · Open science · Replicável

Benchmark 360

É método.
É evidência.

sistemas avaliados

5 LLMs genéricos +
8 IAs jurídicas BR

testes

6 atômicos +
1 peça completa

peças jurídicas

consumerista,
tributário, trabalhista

643

avaliações cegas

270 T1–T6 +
373 T7 (ranking final)

O pipeline completo executou aproximadamente 994 avaliações. As 643 destacadas acima são as que sustentam o ranking final. As demais — 135 T7 v1 sem web search e 144 da fórmula V4 descontinuada por viés de tamanho — estão documentadas no histórico metodológico com justificativa de arquivamento, disponíveis em rastreabilidade.

Método em 3 camadas

Avaliação cega

4 LLMs avaliadores cruzados sem ver o system_id · 3 rodadas independentes

Verificação humana

259 citações de jurisprudência conferidas em portais oficiais do STJ, TST, TJs e TRTs

Validação determinística

Algoritmo CNJ módulo 97 detecta números fabricados independente de busca

Fundamento metodológico:
PÁDUA, S. R.; HARTMANN PEIXOTO, F. Inteligência Artificial Generativa no Direito.
Revista Brasileira de Direito, v. 21, n. 1, e5237, 2025. DOI 10.18256/g4jnx825.

Descobertas críticas · dois níveis de evidência

Prova material.
Indícios circunstanciais.

Pesquisa séria distingue prova de indício. Os dois níveis abaixo carregam peso epistemológico distinto — apresentados nesta ordem para preservar o rigor da inferência.

NÍVEL 1 · PROVA MATERIAL · 1 CASO

IA jurídica fabricou citação
que foi incorporada em sentença real.

Smoking gun: placeholder de template não substituído encontrado dentro de sentença prolatada por juiz de primeira instância.

citações fabricadas

confirmadas por verificação humana

259 citações verificadas · 39 peças · 13 sistemas

O caso documentado

Citação de jurisprudência fabricada por sistema comercial de IA jurídica foi incorporada à fundamentação de sentença real prolatada por juiz de primeira instância no Estado do Paraná, em março de 2026.

A sentença cita acórdão com CNJ algoritmicamente inválido pelo módulo 97 (Resolução CNJ 65/2008) e atribui-o a relator de nome "Fulano de Tal" — placeholder canônico de template que humano não inventaria espontaneamente. Os dois elementos juntos constituem prova material da contaminação direta IA → judiciário.

Material probatório com tarjas de proteção de dados arquivado para auditoria. Por respeito institucional, comarca e magistrado não são identificados nesta página — o que importa é o fenômeno, não a pessoa.

Direção da contaminação reconstituída

humano + IA mal usada
  → sentença real com placeholder não-substituído
  → indexação em portal oficial
  → raspagem por sistema comercial de IA jurídica
  → propagação para usuários finais

A direção não é "IA inventou e o juiz aceitou". É: o ecossistema oficial foi contaminado por uso inadequado de IA por agentes humanos; sistemas comerciais que confiam em "tribunal = fonte verdadeira" propagam o erro por falta de validação independente.

Não é hipótese acadêmica. É prova material.

NÍVEL 2 · INDÍCIOS CIRCUNSTANCIAIS · 4 CASOS

Quatro CNJs fabricados aparecem indexados —
causa ainda não determinada.

Sistema do Bloco A gerou CNJs com dígito verificador inválido (módulo 97) que aparecem em decisões reais com temas diversos. A direção causal não está demonstrada com o material disponível.

CNJ fabricado	Tribunal	Tema da decisão real indexada
1023456-78.2021.8.26.0100	TJSP	Citação por edital. Esgotamento das diligências
0012345-67.2022.8.19.0001	TJRJ	Condomínio. Vazamentos rede de esgoto
1001234-56.2021.8.26.0100	TJSP	Concurso público. Falha bancária
0023456-78.2022.8.19.0001	TJRJ	Manutenção veicular defeituosa

Hipóteses não-excludentes

A) Contaminação direcional real (IA → judiciário) — possível
B) Coincidência de sequenciais lineares triviais — alta plausibilidade
C) Outra fonte de contaminação (não especificamente o sistema) — possível
D) Geração algorítmica colidindo com numerações reais por acaso — alta plausibilidade

A hipótese B é particularmente plausível: 1023456, 0012345, 1001234, 0023456 são placeholders óbvios que podem colidir estatisticamente com numerações reais por acaso. Promover ao Nível 1 exigiria identificar o processo de origem, o magistrado responsável e um smoking gun equivalente.

Os dois níveis acima respeitam pesos epistemológicos distintos.
Nível 1 = prova material com rastreabilidade completa. Nível 2 = indícios investigativos que demandam descarte de hipóteses alternativas.

Esta separação é parte do rigor científico do benchmark. Inflar níveis seria mais retórico, menos honesto.

Resultados · Todos os 13 sistemas

Dois mundos,
um abismo.

Nomes das lawtechs: → Lawtech 3, 5–8

TOP 4

0,14 ponto entre 1º e 4º lugar

Síntese do ranking

▸ 8 IAs jurídicas BR — 4 acima de 4,4 · cauda longa até 2,57
▸ 5 LLMs genéricos — todos abaixo de 2,80
▸ + 64% do líder das IAs jurídicas sobre o melhor LLM (4,60 vs 2,80)

Implicações práticas

Engenharia jurídica de confiança
entre Estado, Mercado e Sociedade

Estado

Quem julga e fundamenta

→ Validar antes de admitir.

Validação CNJ módulo 97 e checagem cruzada de jurisprudência citada antes de aceitar como fundamento. Custo trivial, benefício alto.

Mercado

Quem produz e vende IA jurídica

→ RAG dedicado, não web search ingênuo.

Indexação direta de fontes oficiais é necessária mas não suficiente — qualquer sistema que opere por raspagem ingênua propaga eventuais imprecisões. Solução: validação determinística + cruzamento de tema + revisão humana sistemática. É arquitetura, não treinamento.

Sociedade

Quem recebe a decisão

→ Direito a fundamentação verificável.

Fabricação de jurisprudência (Nível 1) atinge o jurisdicionado: decisões fundadas em precedentes inexistentes ferem o devido processo legal e o contraditório. A direção causal documentada exige resposta institucional do Judiciário.

Resposta · Duplo canal de correção

A engenharia jurídica de IA é,
antes de tudo, engenharia da confiança.

Rastreabilidade · Open science

Aberto.
Replicável.
Verificável.

Licença CC-BY 4.0. Você pode usar, redistribuir, replicar e estender este trabalho — pedindo somente a citação correta da fonte.

Artigo da pesquisa

AI-LAW 360 Benchmark

v1 · 12 mai 2026 · Relatório técnico · CC-BY 4.0

PDF

Deck da apresentação

AB2L 2026 · versão palco

10 slides · narrativa de palco

PDF PPTX PPTX EM BREVE

Framework metodológico

Pádua & Hartmann Peixoto

RBD 2025 · 38 páginas · DOI 10.18256/g4jnx825

DOI ↗

Dados brutos

EM BREVE

643 avaliações cegas

+ 351 iterações arquivadas com justificativa

Revisão final em andamento.

Código de avaliação

EM BREVE

Scripts Python

Reproduz a fórmula V7 do bench

Publicação prevista pós-evento.

Citações verificadas

EM BREVE

259 conferidas

Status EXISTE / CAP / ERRO MATERIAL por verdict

Revisão final em andamento.

Manifesto de dados

EM BREVE

Inventário com SHA-256

Cada arquivo público auditável

Publicação prevista pós-evento.

Como citar este trabalho

@techreport{padua2026benchmark,
  author      = {Pádua, Sérgio Rodrigo de},
  title       = {AI-LAW 360 Benchmark: avaliação da IA aplicada ao Direito},
  institution = {InteliLaw},
  year        = {2026},
  month       = {May},
  type        = {Technical Report},
  number      = {v1},
  url         = {https://intelilaw.ai/bench360}
}

Última atualização: 9 de maio de 2026 · v1.0.0

Autoria

Sobre o pesquisador

Sérgio Rodrigo de Pádua

Pós-doutorado em AI-LAW (UnB)
Doutor em Direito (UniBrasil)
Graduado em IA Aplicada (PUCPR)
Professor UniBrasil
Pesquisador de IA Jurídica
Head de IA da InteliLaw

Autor de "Da Jurisdição 'Ex Machina' ao Juiz Ciborgue: Inteligência Artificial e Interpretação do Direito" (Thomson Reuters, 2023). Criador do framework Pádua 2025 (Revista Brasileira de Direito), metodologia adotada neste benchmark.

Citação copiada

É método. É evidência.

Prova material. Indícios circunstanciais.

IA jurídica fabricou citaçãoque foi incorporada em sentença real.

Quatro CNJs fabricados aparecem indexados — causa ainda não determinada.

Dois mundos, um abismo.

Engenharia jurídica de confiança entre Estado, Mercado e Sociedade

→ Validar antes de admitir.

→ RAG dedicado, não web search ingênuo.

→ Direito a fundamentação verificável.

Aberto. Replicável. Verificável.

AI-LAW 360 Benchmark

AB2L 2026 · versão palco

Pádua & Hartmann Peixoto

643 avaliações cegas

Scripts Python

259 conferidas

Inventário com SHA-256

Sobre o pesquisador

Sérgio Rodrigo de Pádua

É método.
É evidência.

Prova material.
Indícios circunstanciais.

IA jurídica fabricou citação
que foi incorporada em sentença real.

Quatro CNJs fabricados aparecem indexados —
causa ainda não determinada.

Dois mundos,
um abismo.

Engenharia jurídica de confiança
entre Estado, Mercado e Sociedade

Aberto.
Replicável.
Verificável.