13
sistemas avaliados
5 LLMs genéricos +
8 IAs jurídicas BR
AI-LAW 360 Benchmark · 2026
Avaliação sistemática de 13 sistemas de IA jurídica brasileira aplicando o framework Pádua 2025 (Revista Brasileira de Direito, 2025).
Benchmark 360
13
sistemas avaliados
5 LLMs genéricos +
8 IAs jurídicas BR
7
testes
6 atômicos +
1 peça completa
39
peças jurídicas
consumerista,
tributário, trabalhista
643
avaliações cegas
270 T1–T6 +
373 T7 (ranking final)
O pipeline completo executou aproximadamente 994 avaliações. As 643 destacadas acima são as que sustentam o ranking final. As demais — 135 T7 v1 sem web search e 144 da fórmula V4 descontinuada por viés de tamanho — estão documentadas no histórico metodológico com justificativa de arquivamento, disponíveis em rastreabilidade.
Método em 3 camadas
Avaliação cega
4 LLMs avaliadores cruzados sem ver o system_id · 3 rodadas independentes
Verificação humana
259 citações de jurisprudência conferidas em portais oficiais do STJ, TST, TJs e TRTs
Validação determinística
Algoritmo CNJ módulo 97 detecta números fabricados independente de busca
Fundamento metodológico:
PÁDUA, S. R.; HARTMANN PEIXOTO, F. Inteligência Artificial Generativa no Direito.
Revista Brasileira de Direito, v. 21, n. 1, e5237, 2025. DOI 10.18256/g4jnx825.
Descobertas críticas · dois níveis de evidência
Pesquisa séria distingue prova de indício. Os dois níveis abaixo carregam peso epistemológico distinto — apresentados nesta ordem para preservar o rigor da inferência.
Smoking gun: placeholder de template não substituído encontrado dentro de sentença prolatada por juiz de primeira instância.
41
citações fabricadas
confirmadas por verificação humana
259 citações verificadas · 39 peças · 13 sistemas
O caso documentado
Citação de jurisprudência fabricada por sistema comercial de IA jurídica foi incorporada à fundamentação de sentença real prolatada por juiz de primeira instância no Estado do Paraná, em março de 2026.
A sentença cita acórdão com CNJ algoritmicamente inválido pelo módulo 97 (Resolução CNJ 65/2008) e atribui-o a relator de nome "Fulano de Tal" — placeholder canônico de template que humano não inventaria espontaneamente. Os dois elementos juntos constituem prova material da contaminação direta IA → judiciário.
Material probatório com tarjas de proteção de dados arquivado para auditoria. Por respeito institucional, comarca e magistrado não são identificados nesta página — o que importa é o fenômeno, não a pessoa.
Direção da contaminação reconstituída
humano + IA mal usada
→ sentença real com placeholder não-substituído
→ indexação em portal oficial
→ raspagem por sistema comercial de IA jurídica
→ propagação para usuários finais
A direção não é "IA inventou e o juiz aceitou". É: o ecossistema oficial foi contaminado por uso inadequado de IA por agentes humanos; sistemas comerciais que confiam em "tribunal = fonte verdadeira" propagam o erro por falta de validação independente.
Não é hipótese acadêmica. É prova material.
Sistema do Bloco A gerou CNJs com dígito verificador inválido (módulo 97) que aparecem em decisões reais com temas diversos. A direção causal não está demonstrada com o material disponível.
| CNJ fabricado | Tribunal | Tema da decisão real indexada |
|---|---|---|
| 1023456-78.2021.8.26.0100 | TJSP | Citação por edital. Esgotamento das diligências |
| 0012345-67.2022.8.19.0001 | TJRJ | Condomínio. Vazamentos rede de esgoto |
| 1001234-56.2021.8.26.0100 | TJSP | Concurso público. Falha bancária |
| 0023456-78.2022.8.19.0001 | TJRJ | Manutenção veicular defeituosa |
Hipóteses não-excludentes
A hipótese B é particularmente plausível: 1023456, 0012345, 1001234, 0023456 são placeholders óbvios que podem colidir estatisticamente com numerações reais por acaso. Promover ao Nível 1 exigiria identificar o processo de origem, o magistrado responsável e um smoking gun equivalente.
Os dois níveis acima respeitam pesos epistemológicos distintos.
Nível 1 = prova material com rastreabilidade completa.
Nível 2 = indícios investigativos que demandam descarte de hipóteses alternativas.
Esta separação é parte do rigor científico do benchmark. Inflar níveis seria mais retórico, menos honesto.
Resultados · Todos os 13 sistemas
TOP 4
0,14 ponto entre 1º e 4º lugar
Síntese do ranking
Implicações práticas
Estado
Quem julga e fundamenta
Validação CNJ módulo 97 e checagem cruzada de jurisprudência citada antes de aceitar como fundamento. Custo trivial, benefício alto.
Mercado
Quem produz e vende IA jurídica
Indexação direta de fontes oficiais é necessária mas não suficiente — qualquer sistema que opere por raspagem ingênua propaga eventuais imprecisões. Solução: validação determinística + cruzamento de tema + revisão humana sistemática. É arquitetura, não treinamento.
Sociedade
Quem recebe a decisão
Fabricação de jurisprudência (Nível 1) atinge o jurisdicionado: decisões fundadas em precedentes inexistentes ferem o devido processo legal e o contraditório. A direção causal documentada exige resposta institucional do Judiciário.
Resposta · Duplo canal de correção
A engenharia jurídica de IA é,
antes de tudo, engenharia da confiança.
Rastreabilidade · Open science
Licença CC-BY 4.0. Você pode usar, redistribuir, replicar e estender este trabalho — pedindo somente a citação correta da fonte.
Artigo da pesquisa
v1 · 12 mai 2026 · Relatório técnico · CC-BY 4.0
Deck da apresentação
10 slides · narrativa de palco
Framework metodológico
RBD 2025 · 38 páginas · DOI 10.18256/g4jnx825
Dados brutos
EM BREVE+ 351 iterações arquivadas com justificativa
Revisão final em andamento.
Código de avaliação
EM BREVEReproduz a fórmula V7 do bench
Publicação prevista pós-evento.
Citações verificadas
EM BREVEStatus EXISTE / CAP / ERRO MATERIAL por verdict
Revisão final em andamento.
Manifesto de dados
EM BREVECada arquivo público auditável
Publicação prevista pós-evento.
Como citar este trabalho
@techreport{padua2026benchmark,
author = {Pádua, Sérgio Rodrigo de},
title = {AI-LAW 360 Benchmark: avaliação da IA aplicada ao Direito},
institution = {InteliLaw},
year = {2026},
month = {May},
type = {Technical Report},
number = {v1},
url = {https://intelilaw.ai/bench360}
}
Última atualização: 9 de maio de 2026 · v1.0.0
Autoria
Autor de "Da Jurisdição 'Ex Machina' ao Juiz Ciborgue: Inteligência Artificial e Interpretação do Direito" (Thomson Reuters, 2023). Criador do framework Pádua 2025 (Revista Brasileira de Direito), metodologia adotada neste benchmark.