von Xavier Amatriain und Justin Basilico (Personalization Science and Engineering)
In diesem zweiteiligen Blog-Beitrag werden wir die Türen eines der wertvollsten Netflix-Assets öffnen: Unser Empfehlungssystem. In Teil 1 werden wir den Netflix-Preis mit der breiteren Empfehlungsherausforderung in Verbindung bringen, die externen Komponenten unseres personalisierten Dienstes skizzieren und aufzeigen, wie sich unsere Aufgabe mit dem Unternehmen entwickelt hat. In Teil 2 beschreiben wir einige der Daten und Modelle, die wir verwenden, und erörtern unseren Ansatz für algorithmische Innovationen, der Offline-Experimente mit maschinellem Lernen mit Online-AB-Tests kombiniert. Viel Spaß… und denken Sie daran, dass wir immer auf der Suche nach weiteren Talenten sind, um unser großartiges Team zu verstärken, also werfen Sie einen Blick auf unsere Jobseite.
Im Jahr 2006 kündigten wir den Netflix Prize an, einen Wettbewerb für maschinelles Lernen und Data Mining zur Vorhersage von Filmbewertungen. Wir haben 1 Million Dollar für denjenigen ausgelobt, der die Genauigkeit unseres bestehenden Systems namens Cinematch um 10 % verbessert. Wir führten diesen Wettbewerb durch, um neue Wege zu finden, die Empfehlungen für unsere Mitglieder zu verbessern, was ein wichtiger Teil unseres Geschäfts ist. Wir mussten uns jedoch eine Ersatzfrage einfallen lassen, die einfacher zu bewerten und zu quantifizieren war: den mittleren quadratischen Fehler (RMSE) der vorhergesagten Bewertung. Es galt, unseren RMSE von 0,9525 zu übertreffen und ihn auf 0,8572 oder weniger zu reduzieren.
Ein Jahr nach Beginn des Wettbewerbs gewann das Korbell-Team den ersten Fortschrittspreis mit einer Verbesserung von 8,43 %. Sie gaben an, mehr als 2000 Stunden gearbeitet zu haben, um die endgültige Kombination von 107 Algorithmen zu finden, die ihnen diesen Preis einbrachte. Und sie haben uns den Quellcode zur Verfügung gestellt. Wir haben uns die beiden zugrunde liegenden Algorithmen mit der besten Leistung im Ensemble angesehen: Matrixfaktorisierung (in der Community allgemein als SVD, Singular Value Decomposition, bezeichnet) und Restricted Boltzmann Machines (RBM). SVD allein lieferte einen RMSE von 0,8914, während RBM allein einen konkurrenzfähigen, aber etwas schlechteren RMSE von 0,8990 lieferte. Eine lineare Mischung dieser beiden Verfahren reduzierte den Fehler auf 0,88. Um diese Algorithmen einsetzen zu können, mussten wir einige Einschränkungen überwinden, z. B. dass sie für 100 Millionen Bewertungen ausgelegt sind, statt für die mehr als 5 Milliarden, die wir haben, und dass sie sich nicht anpassen lassen, wenn Mitglieder weitere Bewertungen hinzufügen. Aber nachdem wir diese Herausforderungen überwunden hatten, haben wir die beiden Algorithmen in Produktion genommen, wo sie immer noch als Teil unserer Empfehlungsmaschine verwendet werden.
Wenn Sie den Preiswettbewerb verfolgt haben, fragen Sie sich vielleicht, was mit dem endgültigen Ensemble des Großen Preises passiert ist, das zwei Jahre später die 1 Million Dollar gewonnen hat. Dies ist eine wirklich beeindruckende Zusammenstellung und der Höhepunkt jahrelanger Arbeit, bei der Hunderte von Vorhersagemodellen kombiniert wurden, um schließlich die Ziellinie zu überqueren. Wir haben einige der neuen Methoden offline evaluiert, aber die zusätzlichen Genauigkeitsgewinne, die wir gemessen haben, schienen den technischen Aufwand nicht zu rechtfertigen, der nötig war, um sie in eine Produktionsumgebung zu bringen. Außerdem hatte sich unser Fokus auf die Verbesserung der Netflix-Personalisierung inzwischen auf die nächste Ebene verlagert. Im weiteren Verlauf dieses Beitrags werden wir erläutern, wie und warum sich dies geändert hat.
Von US-DVDs zum globalen Streaming
Einer der Gründe, warum sich unser Schwerpunkt bei den Empfehlungsalgorithmen geändert hat, ist, dass sich Netflix als Ganzes in den letzten Jahren dramatisch verändert hat. Netflix hat 2007, ein Jahr nach Beginn des Netflix-Preises, einen Instant-Streaming-Dienst eingeführt. Das Streaming hat nicht nur die Art und Weise verändert, wie unsere Mitglieder mit dem Dienst interagieren, sondern auch die Art der Daten, die wir für unsere Algorithmen verwenden können. Bei DVDs besteht unser Ziel darin, den Nutzern zu helfen, ihre Warteschlange mit Titeln zu füllen, die sie in den nächsten Tagen und Wochen per Post erhalten; die Auswahl ist zeitlich weit von der Betrachtung entfernt, die Nutzer wählen sorgfältig aus, da der Austausch einer DVD gegen eine andere mehr als einen Tag dauert, und wir erhalten während der Betrachtung kein Feedback. Beim Streaming suchen die Mitglieder nach etwas Großartigem, das sie sich sofort ansehen können; sie können einige Videos ausprobieren, bevor sie sich für eines entscheiden, sie können mehrere in einer Sitzung konsumieren, und wir können Betrachtungsstatistiken beobachten, z. B. ob ein Video vollständig oder nur teilweise angesehen wurde.
Eine weitere große Veränderung war der Wechsel von einer einzigen Website zu Hunderten von Geräten. Die Integration mit dem Roku-Player und der Xbox wurde 2008 angekündigt, zwei Jahre nach dem Start des Netflix-Wettbewerbs. Nur ein Jahr später schaffte es das Netflix-Streaming auf das iPhone. Heute ist Netflix auf einer Vielzahl von Geräten verfügbar, die von einer Vielzahl von Android-Geräten bis zum neuesten AppleTV reichen.
Vor zwei Jahren sind wir mit dem Start in Kanada international geworden. Im Jahr 2011 kamen 43 lateinamerikanische Länder und Territorien hinzu. Und erst kürzlich sind wir in Großbritannien und Irland gestartet. Heute hat Netflix mehr als 23 Millionen Abonnenten in 47 Ländern. Diese Abonnenten haben im letzten Quartal 2011 2 Milliarden Stunden von Hunderten von verschiedenen Geräten gestreamt. Jeden Tag fügen sie der Warteschlange 2 Millionen Filme und Fernsehsendungen hinzu und geben 4 Millionen Bewertungen ab.
Wir haben unsere Personalisierungsalgorithmen so an dieses neue Szenario angepasst, dass inzwischen 75 % dessen, was die Menschen sehen, auf eine Art Empfehlung zurückgeht. Wir haben diesen Punkt erreicht, indem wir das Nutzererlebnis kontinuierlich optimiert haben, und haben jedes Mal, wenn wir die Personalisierung für unsere Mitglieder verbessert haben, einen deutlichen Anstieg der Nutzerzufriedenheit gemessen. Lassen Sie uns nun einige der Techniken und Ansätze erläutern, die wir zur Erstellung dieser Empfehlungen verwenden.
Alles ist eine Empfehlung
Wir haben im Laufe der Jahre festgestellt, dass es für unsere Abonnenten von enormem Wert ist, Empfehlungen einzubauen, um Netflix so weit wie möglich zu personalisieren. Die Personalisierung beginnt auf unserer Homepage, die aus Gruppen von Videos besteht, die in horizontalen Reihen angeordnet sind. Jede Reihe hat einen Titel, der die beabsichtigte sinnvolle Verbindung zwischen den Videos in dieser Gruppe vermittelt. Der größte Teil unserer Personalisierung basiert auf der Art und Weise, wie wir die Reihen auswählen, wie wir bestimmen, welche Elemente darin enthalten sein sollen und in welcher Reihenfolge diese Elemente angeordnet werden sollen.
Nehmen wir als erstes Beispiel die Top-10-Reihe: Dies ist unsere beste Schätzung der zehn Titel, die Ihnen wahrscheinlich am besten gefallen werden. Wenn wir „Sie“ sagen, meinen wir natürlich jeden in Ihrem Haushalt. Es ist wichtig, sich vor Augen zu halten, dass die Personalisierung von Netflix für einen Haushalt gedacht ist, in dem wahrscheinlich verschiedene Personen mit unterschiedlichen Vorlieben leben. Wenn Sie also Ihre Top 10 sehen, werden Sie wahrscheinlich Sendungen für Papa, Mama, die Kinder oder die ganze Familie entdecken. Selbst für einen Einpersonenhaushalt möchten wir die verschiedenen Interessen und Stimmungen ansprechen. Um dies zu erreichen, optimieren wir in vielen Bereichen unseres Systems nicht nur die Genauigkeit, sondern auch die Vielfalt der Angebote.