Nota: Este artículo es solo una de las más de 60 secciones de nuestro informe completo titulado: The 2024 Legal AI Retrospective - Key Lessons from the Past Year. Descargue el informe completo para consultar las citas.
Conjuntos de datos disponibles
El Contract Understanding Atticus Dataset (CUAD) es un corpus de más de 13.000 etiquetas en 510 contratos legales comerciales que han sido etiquetados manualmente bajo la supervisión de abogados con experiencia para identificar 41 tipos de cláusulas legales consideradas relevantes en la revisión de contratos.
Los contratos se recopilan del sistema Electronic Data Gathering, Analysis, and Retrieval ("EDGAR"), mantenido por la Comisión de Bolsa y Valores de EE. UU. (SEC) ().
ContractNLI es un conjunto de datos para la inferencia de lenguaje natural (NLI) a nivel de documento sobre contratos, que contiene 607 (NDAs). A pesar de incluir más contratos que el conjunto de datos CUAD, estos son considerablemente más cortos y el corpus total de contratos de este conjunto de datos es más reducido. Además, no contiene ningún otro tipo de contrato que no sea el NDA. Disponer de un conocimiento más amplio del contexto de estos datos mejoraría el rendimiento de los modelos ajustados con ellos.