Detección de entidades en resoluciones jurídicas

brainstorming
Managed by
Contributors [7]
Followers [5]
Algunos juzgados de la Ciudad Autónoma de Buenos Aires han asumido el desafío de transparentar su tarea y hacerla pública con criterios de datos abiertos.
Entre otras acciones, publican regularmente sus RESOLUCIONES en twitter y otros medios. Este acto, parece sencillo, pero oculta una tarea compleja de anonimización. 
Estos juzgados son de materia penal, lo que indica que algunas de las causas que tramita tratan temas de violencia de género o distribución de imágenes de abuso infantil. Para el equipo del Juzgado es vital proteger la intimidad de las víctimas y los acusados al mismo tiempo que transparentar su gestión y decisiones.
Las tareas de anonimización de las RESOLUCIONES hoy se realizan de forma manual y son costosas en términos de tiempo y esfuerzo por parte de los reducido equipo legal.

Los Datos Los juzgados publican regularmente sus RESOLUCIONES en su cuenta de twitter pero para el objetivo de nuestro hackaton se seleccionaron solo resoluciones del año 2019 que podrás encontrar acá: https://drive.google.com/drive/folders/1R43YrpThNZthn3pAkJtm3kvXLbTIdUbc?usp=sharing

El Desafío Las resoluciones son anonimizadas manualmente por personal de la justicia. Los nombres, apellidos, números de DNI, teléfonos, redes sociales, domicilios son reemplazados por “XX”. Ejemplo:

Objetivo: Como desde los juzgados no se deben entregar las resoluciones originales y completas, el desafío será: “Identificar en el texto las “XX” que corresponden a: Nombres y apellidos (indistinto) DNI Números de teléfono Domicilio / lugar Otros

Metodología: La metodología empleada deberá ser replicable por un sistema informático, pero los competidores no tendrán limitaciones en términos de los lenguajes o aplicaciones a utilizar, ni tampoco las técnicas.

Entrega de los resultados: Los resultados se entregarán en un archivo de texto plano (txt). Los datos anonimizados deberán reemplazarse por: Los nombres y apellidos por la palabra -> “NOMBRE” Los DNI o documentos por la palabra -> “DOCUMENTO” Los Números de teléfono por la palabra -> “TELÉFONO” Los domicilios o lugares por la palabra -> “LUGAR” Las XX restantes pueden quedar como XX u “OTRO”

Curveball: Pueden existir errores en la anonimización manual de los textos (por ejemplo “X_X” o “Xx”, etc.). A los fines del desafío también se tendrán en cuenta y se obtendrá puntaje si se detectan estos casos.

Por ejemplo, un caso de resultado esperado:

La Evaluación Al finalizar la jornada de trabajo (19 hs.) los jurados pasarán por las distintas mesas de trabajo. El equipo deberá mostrar el código o aplicación desarrollado y correrlo para la totalidad de las resoluciones en la carpeta de datos/desafio_02. Los jurados eligieron 10 casos al azar y contrastan con los resultados obtenidos por el equipo. Cada éxito contará 1 puntos y cada fracaso -1 puntos. Se usarán los mismos casos elegidos al azar para todos los grupos competidores. De existir un empate, se elegirá 5 nuevos casos al azar. El Jurado El jurado se seleccionó intentando contar con la mayor diversidad de perfiles y puntos de vista, por este motivo es integrado por referentes del sector privado, el sistema judicial y la sociedad civil. Sistema Judicial: Juez Juzgado 10, Dr. Pablo Casas Empresa: Director de Legales Telefónica, Dr. Juan Manuel Haddad Sociedad Civil: Fund. Sadosky, Lic. Gustavo Sibilla El Premio Premio Fundación Sadosky para el equipo ganador: $. 40.000. El premio a los equipos ganadores se entregará el día Viernes 13 a las 9:30 hs. en el salón Azul de la facultad de derecho en el contexto del evento internacional del JusLab (Laboratorio de Innovación del Consejo de la Magistratura de la Ciudad)