Ƶ

Dec 18, 2024 5 Min.

Verfügbare Legal-AI-Datensätze

Advisor
Verfügbare Legal-AI-Datensätze

Hinweis: Dieser Artikel ist nur einer von mehr als 60 Abschnitten aus unserem vollständigen Bericht mit dem Titel: The 2024 Legal AI Retrospective - Key Lessons from the Past Year. Bitte laden Sie den vollständigen Bericht herunter, um Quellenangaben zu überprüfen.

Verfügbare Datensätze

Das Contract Understanding Atticus Dataset (CUAD) ist ein Korpus mit mehr als 13.000 Labels in 510 kommerziellen Rechtsverträgen, die unter der Aufsicht erfahrener Anwälte manuell annotiert wurden, um 41 Arten von Vertragsklauseln zu identifizieren, die bei der Vertragsüberprüfung als wichtig erachtet werden.

Die Verträge stammen aus dem Electronic Data Gathering, Analysis, and Retrieval ("EDGAR")-System, das von der U.S. Securities and Exchange Commission (SEC) verwaltet wird ().

ContractNLI ist ein Datensatz für Natural Language Inference (NLI) auf Dokumentenebene bei Verträgen und enthält 607 NDAs. Obwohl er mehr Verträge als der CUAD-Datensatz enthält, sind diese erheblich kürzer, und der gesamte Vertragskorpus dieses Datensatzes ist insgesamt kleiner. Zudem enthält er keine anderen Vertragstypen außer NDA. Ein umfassenderes Kontextwissen zu diesen Daten würde die Leistung von Modellen verbessern, die auf ihnen feinabgestimmt werden.