Le chercheur et son étudiante ont déjà fait de nombreux clips pour tester différentes situations, et Jeff Prevost explique la complexité de la tâche : « Une limite dans notre approche est le besoin de classification, qui est présent dans toute la séquence vidéo. » Les deux modèles ont été présentés à un panel de 57 étudiants et les ont convaincus en majorité. Face au premier modèle, 73 % d'entre eux ont choisi le son automatisé plutôt que le son original, et ils ont été 66 % à être plus convaincus par le second modèle que par le son initial de la vidéo.