Recomendaciones de Netflix: Más allá de las 5 estrellas (Parte 1)

6 abr, 2012 – 9 min read

por Xavier Amatriain y Justin Basilico (Ciencia e Ingeniería de la Personalización)

En esta entrada del blog en dos partes, abriremos las puertas de uno de los activos más valorados de Netflix: nuestro sistema de recomendaciones. En la primera parte, relacionaremos el Premio Netflix con el reto más amplio de la recomendación, esbozaremos los componentes externos de nuestro servicio personalizado y destacaremos cómo nuestra tarea ha evolucionado con el negocio. En la segunda parte, describiremos algunos de los datos y modelos que utilizamos y hablaremos de nuestro enfoque de la innovación algorítmica, que combina la experimentación del aprendizaje automático fuera de línea con las pruebas AB en línea. Que lo disfruten… y recuerden que siempre estamos buscando más talentos estelares para añadir a nuestro gran equipo, así que echen un vistazo a nuestra página de empleos.

En 2006 anunciamos el Premio Netflix, un concurso de aprendizaje automático y minería de datos para la predicción de la clasificación de películas. Ofrecimos un millón de dólares a quien mejorara la precisión de nuestro sistema existente, llamado Cinematch, en un 10%. Llevamos a cabo este concurso para encontrar nuevas formas de mejorar las recomendaciones que proporcionamos a nuestros miembros, que es una parte clave de nuestro negocio. Sin embargo, tuvimos que idear una cuestión sustitutiva que fuera más fácil de evaluar y cuantificar: el error cuadrático medio (RMSE) de la calificación predicha. La carrera estaba en marcha para superar nuestro RMSE de 0,9525 con la meta de reducirlo a 0,8572 o menos.

Un año después de la competición, el equipo de Korbell ganó el primer Premio al Progreso con una mejora del 8,43%. Informaron de más de 2000 horas de trabajo para llegar a la combinación final de 107 algoritmos que les dio este premio. Y nos dieron el código fuente. Nos fijamos en los dos algoritmos subyacentes con mejor rendimiento en el conjunto: La factorización de matrices (que la comunidad suele llamar SVD, Singular Value Decomposition) y las máquinas de Boltzmann restringidas (RBM). La SVD por sí sola proporcionó un RMSE de 0,8914, mientras que la RBM por sí sola proporcionó un RMSE competitivo pero ligeramente peor de 0,8990. Una mezcla lineal de ambos redujo el error a 0,88. Para poner en práctica estos algoritmos, tuvimos que trabajar para superar algunas limitaciones, por ejemplo, que fueron construidos para manejar 100 millones de valoraciones, en lugar de los más de 5.000 millones que tenemos, y que no fueron construidos para adaptarse a medida que los miembros añadían más valoraciones. Pero una vez superados esos retos, pusimos los dos algoritmos en producción, donde todavía se utilizan como parte de nuestro motor de recomendación.

Si has seguido el concurso del Premio, te preguntarás qué pasó con el conjunto final del Gran Premio que ganó el millón de dólares dos años después. Se trata de una compilación realmente impresionante y la culminación de años de trabajo, mezclando cientos de modelos predictivos para finalmente cruzar la línea de meta. Evaluamos algunos de los nuevos métodos fuera de línea, pero las ganancias adicionales de precisión que medimos no parecían justificar el esfuerzo de ingeniería necesario para llevarlos a un entorno de producción. Además, para entonces nuestro objetivo de mejorar la personalización de Netflix había pasado al siguiente nivel. En el resto de este post explicaremos cómo y por qué ha cambiado.

De los DVD estadounidenses al streaming global

Una de las razones por las que nuestro enfoque en los algoritmos de recomendación ha cambiado es porque Netflix en su conjunto ha cambiado drásticamente en los últimos años. Netflix lanzó un servicio de streaming instantáneo en 2007, un año después de que comenzara el Premio Netflix. El streaming no sólo ha cambiado la forma en que nuestros miembros interactúan con el servicio, sino también el tipo de datos disponibles para utilizar en nuestros algoritmos. En el caso de los DVD, nuestro objetivo es ayudar a la gente a llenar su cola de títulos para recibirlos por correo en los próximos días y semanas; la selección está alejada en el tiempo del visionado, la gente selecciona con cuidado porque cambiar un DVD por otro lleva más de un día, y no recibimos información durante el visionado. En el caso del streaming, los miembros buscan algo estupendo para ver ahora mismo; pueden probar unos cuantos vídeos antes de decidirse por uno, pueden consumir varios en una sola sesión y podemos observar las estadísticas de visionado, como por ejemplo si un vídeo se ha visto por completo o sólo parcialmente.

Otro gran cambio fue el paso de un único sitio web a cientos de dispositivos. La integración con el reproductor Roku y la Xbox se anunció en 2008, a los dos años de la competencia de Netflix. Sólo un año después, el streaming de Netflix llegó al iPhone. Ahora está disponible en multitud de dispositivos que van desde una miríada de aparatos Android hasta el último AppleTV.

Hace dos años, nos hicimos internacionales con el lanzamiento en Canadá. En 2011, añadimos a la lista 43 países y territorios latinoamericanos. Y hace poco, lanzamos en Reino Unido e Irlanda. En la actualidad, Netflix cuenta con más de 23 millones de suscriptores en 47 países. Esos suscriptores transmitieron 2.000 millones de horas desde cientos de dispositivos diferentes en el último trimestre de 2011. Cada día añaden 2 millones de películas y programas de televisión a la cola y generan 4 millones de valoraciones.

Hemos adaptado nuestros algoritmos de personalización a este nuevo escenario de tal manera que ahora el 75% de lo que la gente ve proviene de algún tipo de recomendación. Hemos llegado a este punto optimizando continuamente la experiencia de los miembros y hemos medido ganancias significativas en la satisfacción de los miembros cada vez que mejoramos la personalización para nuestros miembros. Vamos a explicar algunas de las técnicas y enfoques que utilizamos para producir estas recomendaciones.

Todo es una recomendación

A lo largo de los años hemos descubierto que la incorporación de recomendaciones para personalizar la mayor parte posible de Netflix tiene un enorme valor para nuestros abonados. La personalización comienza en nuestra página de inicio, que consiste en grupos de vídeos dispuestos en filas horizontales. Cada fila tiene un título que transmite la conexión significativa que se pretende establecer entre los vídeos de ese grupo. La mayor parte de nuestra personalización se basa en la forma en que seleccionamos las filas, en cómo determinamos qué elementos incluir en ellas y en qué orden colocar esos elementos.

Tomemos como primer ejemplo la fila de los 10 mejores: es nuestra mejor estimación de los diez títulos que más probablemente disfrutará. Por supuesto, cuando decimos «usted», nos referimos realmente a todos los miembros de su hogar. Es importante tener en cuenta que la personalización de Netflix está pensada para manejar un hogar que probablemente tenga diferentes personas con diferentes gustos. Por eso, cuando veas tu Top10, es probable que descubras artículos para papá, mamá, los niños o toda la familia. Incluso en el caso de un hogar unipersonal, queremos apelar a su gama de intereses y estados de ánimo. Para conseguirlo, en muchas partes de nuestro sistema no sólo optimizamos la precisión, sino también la diversidad.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.