Data labeling: conociendo el valor real de los datos

[yasr_visitor_votes]

Tal vez aún no hayas escuchado hablar de data labeling, un concepto muy nuevo pero que ya está en boca de los profesionales del marketing de los principales mercados del mundo. La importancia del DATA es indiscutible, y cada vez son más los anunciantes que utilizan grandes volúmenes de información para optimizar sus campañas. Sin embargo, estudios evidencian que la mayoría de los anunciantes no confía en los datos que están utilizando, pues no pueden evaluar su calidad mediante un método sencillo.

Una encuesta realizada a 200 anunciantes por la compañía de investigación Advertiser Perceptions determinó que, del 80% de los anunciantes que utilizan datos de usuarios, sólo el 33% confía completamente en ellos.

Según el citado estudio, únicamente un tercio de los anunciantes confía plenamente en los datos de Nielsen C3 y C7, porcentaje que desciende hasta el 29% cuando se consulta por la confianza que se tiene en la analítica. Es más, los anunciantes no confían ni siquiera en sus propios datos: el 51% opina que sus first-party data son sólo «algo precisos».

La dificultad que entraña controlar los datos de modo que acaben formando parte de una base de datos válida y en la que poder confiar hace que muchos anunciantes tengan que operar haciendo un ejercicio de fe. El problema es que los anunciantes dependen cada vez más de datos y modelos para orientar sus campañas y, a un tiempo, ocurre que cuantos más datos se cruzan, más difícil es atribuir el impacto, conocer la procedencia de un conjunto o entender su funcionamiento en combinación con otros elementos.

¿Quieres ayuda en Data Labeling para conocer el valor real de los datos?

Contacta

Data labeling como solución al problema

Para dar solución a este problema se propone un estándar para la industria: el data labeling, tecnología de etiquetado de datos que permita conocer el valor de los mismos en base a parámetros como el momento de su recopilación, lo recientes que son, la fuente, el método por el cual han sido recogidos y si han pasado por un proceso de modelado. Está claro que es necesario un procesamiento de los datos que garantice mayor transparencia, tanto en el modelado como en las integraciones, pues sólo así será posible conocer el valor real de un conjunto de datos y tomar una decisión acertada en torno a ellos.

Se prevé que el data labeling aportará valor real y ayudará a garantizar una mayor calidad de los datos, haciendo desaparecer del ecosistema a aquellos actores que no juegan limpio y que favorecen el fraude. Sin embargo, será necesaria la acreditación del auténtico valor de dichos datos mediante una evaluación experta, que garantice al anunciante que los datos adquiridos sirven para su propósito y que sepa distinguir si los sirve una buena fuente o no.

Son diversos los organismos de la industria publicitaria que se enfocan ya en elaborar un estándar que recoja qué información debería ser incluida en las etiquetas de datos. Por su parte, la IAB trabaja por iniciativa propia en el desarrollo de unos estándares de calidad de datos.

Es importante desarrollar fórmulas que permitan determinar la calidad de los datos y que ofrezcan a anunciantes y agencias garantías sobre los paquetes que compran. Ante esa necesidad, el etiquetado de datos parece ser una solución para resolver el problema de falta de transparencia que, en la actualidad, desvirtúa las campañas y no permite extraer todo el potencial de este tipo de información.

data labeling

Etiquetado de datos y deep learning

La figura del etiquetador será la encargada de acreditar la validez de los datos tras una criba y posterior organización para que las máquinas de inteligencia artificial comiencen a aprender. Compañías como IBM ya cuentan con perfiles destinados al data labeling para su posterior utilidad en cometidos de deep learning, ya que todavía muchos sistemas de IA requieren de la intervención humana para un etiquetado que ayude a la máquina en su aprendizaje para lograr, finalmente, algoritmos de inteligencia artificial que no requieran supervisión.

El etiquetado es fundamental para entrenar a una máquina en una nueva tarea, y, al menos de momento, éste debe ser supervisado por personas. Es por eso que IBM trabaja en desarrollos de aprendizaje no supervisado invirtiendo grandes cantidades de dinero, pero tiene grandes rivales en cuanto a desarrollos de Inteligencia Artificial: Google, Facebook, Microsoft o Amazon están haciendo muy bien las cosas en este terreno.

El extraordinario auge de la publicidad programática ha desatado una fiebre por los datos sin precedentes, lo que está favoreciendo que entre los profesionales del marketing se genere una ansiedad sobre si esos datos están cumpliendo la promesa. Cada vez son más los anunciantes que están construyendo o contratando plataformas de gestión de datos que sean capaces de conectar datos propios con datos de terceros, en aras de construir campañas más eficientes gracias a la publicidad dirigida.

Ocurre que, a día de hoy, no es posible tener una visión clara sobre la recopilación y cómo son de precisos los datos que se adquieren. Incluso los segmentos de base de datos que se derivan principalmente de datos demográficos simples, como edad o género -a priori más fáciles de verificar y con mayor probabilidad de ser estables-, han sido cuestionados, pues ya se han dado casos en los que se han segmentado campañas para públicos completamente contrarios al producto, como le ocurrió a Gillette.

En un momento en el que el marketing está cada vez más orientado a datos, se da la paradoja de que no existe ningún estándar de calidad ni modo de verificar cómo de valiosos son los datos en los que se van a basar nuestras campañas. Es por ello que hay grandes esperanzas depositadas en el data labeling, un etiquetado de datos que ayudará a ayudaría a tomar decisiones basadas en una mejor información. La gran ventaja es que el data labeling comprometería a los proveedores de los datos a realizar declaraciones explícitas sobre la procedencia de la información que sirven y que éstas estarían sometidas a auditorías, de modo que la industria asumiría una autorregulación altamente beneficiosa.

Fuentes: Forbes; TechRepublic; AdExchanger; Forbes; Xataka