Jak aplikacje muzyczne, takie jak Shazam i Soundhound, świetnie nadają się do identyfikacji muzyki

Od momentu powstania w 1999 roku, Shazam został użyty ponad pięćdziesiąt miliardów razy do identyfikacji utworów, nie licząc identyfikatorów Soundhound, MusicID i innych aplikacji do rozpoznawania dźwięku.

Z punktu widzenia użytkownika jest to bardzo proste: uruchom aplikację, naciśnij przycisk i posłuchaj piosenki na telefonie komórkowym. Po kilku sekundach aplikacja powie Ci, który to utwór, nawet jeśli w tle występują szumy i zniekształcenia. Działa tak szybko i tak dobrze, że wydaje się niemal magiczny – ale jak większość magicznych rzeczy w dzisiejszych czasach, jest głównie napędzany przez algorytmy.

Indeks

    Jaka jest idea tych aplikacji?

    Shazam, Soundhound i inne usługi identyfikacji muzyki działają zasadniczo w ten sam sposób – mają dużą bazę danych informacji o utworach, algorytm, który może szybko wyodrębnić informacje z próbki utworu oraz aplikację, która pozwala na interakcję z tymi rzeczami. . Technicznie rzecz biorąc, nie potrzebujesz nawet smartfona.

    Shazam był pierwotnie dostępny na starych telefonach komórkowych, po prostu nagrywając piosenkę i wysyłając ją do serwisu. W rzeczywistości Soundhound wykonał jeszcze kilka kroków, umożliwiając śpiewanie lub nucenie w swojej aplikacji, która pasuje do przesłanej przez użytkownika bazy danych innych nagrań śpiewu / szumu.

    Jak pracujesz?

    W uproszczeniu proces wygląda tak:

    1. Baza danych aplikacji zawiera duży zbiór odcisków palców utworów lub niewielkie dane o unikalnych wzorcach dźwiękowych utworu.
    2. Gdy użytkownik naciśnie przycisk Zarejestruj, aplikacja słucha muzyki i tworzy odcisk palca na podstawie kilku sekund usłyszanego dźwięku.
    3. Ten odcisk palca jest weryfikowany za pomocą istniejącej bazy danych odcisków palców. Jeśli Twój 10-sekundowy odcisk palca pasuje do dowolnej części utworu, otrzymasz wynik utworu (mam nadzieję, że jest poprawny). Jeśli tak nie jest, otrzymasz komunikat o błędzie.

    Jeśli szukasz wyjaśnienia na poziomie powierzchni, to wszystko, co musisz wiedzieć. Naprawdę fajną częścią jest to, jak otrzymujesz ten odcisk palca.

    Odcisk palca piosenki

    Wszystko zaczyna się od spektrogramu takiego jak na powyższej grafice, zaczerpniętego z dokument napisany przez jednego z założycieli Shazama, Avery Wang . Jest to zasadniczo wykres z czasem na osi x (w poziomie), częstotliwością na osi y (w pionie) i amplitudą reprezentowaną przez różne poziomy intensywności kolorów. Dowolną sekwencję dźwięków można przekształcić w spektrogram, a zestaw współrzędnych można przypisać do dowolnego punktu spektrogramu. To takie proste, notatki mogą być liczbami.

    Gdyby wszystko, co musieli zrobić, to zebrać razem jakieś dźwięki, mogliby przestać. Jeśli jednak chcesz zbadać bazę danych zawierającą miliony utworów, pełny spektrogram zawiera zbyt wiele punktów danych, aby i tak je przeglądać.

    Wielkim postępem w rozpoznawaniu muzyki było uświadomienie sobie, że dźwięki można identyfikować z niewielką ilością informacji: szczytami lub najgłośniejszymi partiami. Usunięcie większości niskoenergetycznych części utworu nie tylko zmniejsza rozmiar spektrogramu, ale także zmniejsza prawdopodobieństwo, że aplikacje rozpoznają silny, przytłumiony szum tła jako część szumu docelowego. Wyobraź sobie panoramę miasta: najbardziej rozpoznawalne części to szczyty budynków, a nie środkowe piętra, i to widać z najdalszej odległości.

    Tak więc każda sekunda każdego utworu jest zredukowana do niektórych z najbardziej intensywnych punktów danych; Wszystko w panoramie miasta zostało usunięte z wyjątkiem góry. Ale nadal nie jest wystarczająco wydajny, aby można go było natychmiast przeszukiwać, więc następnym krokiem jest Zahaszuj tę sekwencję szczytów . Haszowanie po prostu pobiera serię danych wejściowych, przeprowadza je przez algorytm i przypisuje im dane wyjściowe w postaci liczb całkowitych. W tym przypadku hash jest generowany przez pobranie dwóch pików o wysokiej intensywności, pomiar czasu między nimi i dodanie ich dwóch częstotliwości.

    Wynikiem jest ciąg liczb, który jest łatwy do zapamiętania i przeszukiwania. Kiedy komputer odczytuje ten skrót, rozpoznaje, że reprezentuje on częstotliwość i przedział czasu. Gdy tylko wszystkie szczyty utworu zostaną zidentyfikowane i zahaszowane, transformacja jest zakończona - utwór ma teraz unikalny 32-bitowy numer, który służy jako identyfikator w bazie danych. Co ważniejsze, każda sekunda utworu jest reprezentowana przez liczby.

    Kiedy Twój telefon słucha muzyki, postępuje dokładnie w ten sposób: filtruje wszystko oprócz najwyższych punktów, rozrywa je i tworzy odcisk palca na kilka sekund, które nagrałeś. Gdy to zrobisz, wszystko, co Twój telefon musi zrobić, to zobaczyć, gdzie w bazie danych pojawiają się pasujące ciągi liczb, aby mógł dopasować wykryte częstotliwości i czasy do właściwej piosenki i otrzymać ją z powrotem w ciągu kilku sekund.

    Muzyka i nie tylko

    Ta technologia była najczęściej używana do rozpoznawania muzyki, ale aplikacje do rozpoznawania dźwięku mogą również działać z filmami, reklamami, programami telewizyjnymi, odgłosami ptaków i nie tylko. Najbardziej znane są jednak Shazam i Soundhound teraz możesz też zapytać google jaki utwór jest odtwarzany i uzyskać dokładną odpowiedź.

    A jeśli zastanawiasz się: „Czy te firmy znają utwory, o które prosiłeś?” Odpowiedź brzmi tak. „Posiadaj statystyki identyfikacji muzyki był w stanie przewidzieć sukces piosenek i wykonawców z dość dużą dokładnością a duże wytwórnie płytowe, takie jak Warner, wypożyczyły aplikacje, takie jak Shazam, aby znaleźć obiecujących artystów. Więc jeśli chcesz wesprzeć artystę, możesz zrobić swoją część i poszukać jego piosenki! Możesz pomóc im wystartować.

    Możesz być zainteresowany

    Dodaj komentarz

    Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

    Go up

    a strona wykorzystuje anonimowe, własne pliki cookies analityczne w celu jej prawidłowego funkcjonowania i reklamy. Nasi partnerzy (w tym Google) mogą przechowywać, udostępniać i zarządzać danymi użytkownika w celu dostarczania spersonalizowanych reklam. Użytkownik może zaakceptować, dostosować ustawienia lub cofnąć zgodę tutaj lub na stronie Czytaj więcej