Ƶ

Dec 18, 2024 5 min

Conjuntos de Dados de IA Jurídica Disponíveis

Advisor
Conjuntos de Dados de IA Jurídica Disponíveis

Nota: Este artigo é apenas uma das 60+ seções do nosso relatório completo intitulado: The 2024 Legal AI Retrospective - Key Lessons from the Past Year. Faça o download do relatório completo para verificar as citações.

Conjuntos de dados disponíveis

O Contract Understanding Atticus Dataset (CUAD) é um corpus com mais de 13.000 rótulos em 510 contratos comerciais jurídicos que foram rotulados manualmente sob a supervisão de advogados experientes para identificar 41 tipos de cláusulas contratuais consideradas importantes na revisão de contratos.

Os contratos foram coletados do sistema Electronic Data Gathering, Analysis, and Retrieval ("EDGAR"), mantido pela U.S. Securities and Exchange Commission (SEC) ().

O ContractNLI é um conjunto de dados para inferência de linguagem natural (NLI) em nível de documento aplicada a contratos, contendo 607 acordos de não divulgação (NDAs). Apesar de conter mais contratos do que o conjunto de dados CUAD, esses contratos são consideravelmente mais curtos, e o corpus contratual completo deste conjunto de dados é menor. Além disso, ele não contempla nenhum outro tipo de contrato além de NDA. Ter um conhecimento mais abrangente do contexto desses dados aprimoraria o desempenho dos modelos ajustados com base neles.