ʵ

Tapahtumat

Väitös akustiikan ja puheteknologian alalta, M.Sc. Ricardo Falcon Perez

Väitös Aalto-yliopiston sähkötekniikan korkeakoulusta, informaatio- ja tietoliikennetekniikan laitokselta
Kuvitus puhujakorokkeesta ja sen yläpuolella olevasta tohtorinhatusta.

Väitöskirjan nimi: Domain-Aware Deep Learning for Room Acoustics: Parameter Estimation, Localization, and Source Separation

äٳٱä: Ricardo Falcon Perez
ղٲäٳää: Prof. Juan Bello, New York University, US 
Kustos: Prof. Ville Pulkki, Aalto-yliopiston sähkötekniikan korkeakoulu

Ääni muovautuu tilojen kautta, joissa se kulkee. Sama signaali voi kuulostaa selkeältä, tunkkaiselta tai mukaansatempaavalta huoneakustiikasta riippuen. Tämä vaikuttaa sekä ihmisiin että teknologioihin, jotka kuuntelevat, analysoivat tai toistavat ääntä.

Tässä väitöskirjassa tarkastellaan, miten koneoppiminen voi yhdessä akustiikan ja signaalinkäsittelyn osaamisen kanssa auttaa ymmärtämään ja hyödyntämään näitä ilmiöitä sekä todellisissa ympäristöissä että virtuaalisissa tiloissa. Tutkimuksessa kehitetään laskennallisia menetelmiä, joilla voidaan ennustaa tai hallita akustista käyttäytymistä ilman laajoja fyysisiä mittauksia.

Väitöskirja jäsentää kontribuutionsa kolmeen tapaan, joilla akustiikka ilmenee koneoppimisen tehtävissä. Ensinnäkin akustiikka kohteena, jossa tavoitteena on arvioida tilojen akustisia ominaisuuksia saatavilla olevan datan perusteella. Toiseksi akustiikka häiriönä, jossa huoneen vaikutukset vaikeuttavat kuunteluun liittyviä tehtäviä ja mallien on oltava entistä robustimpia. Kolmanneksi akustiikka sekä haasteena että mahdollisuutena, jossa vaikeat olosuhteet, kuten kaiunta, hankaloittavat tehtäviä, mutta akustinen rakenne — esimerkiksi tilalliset vihjeet — voi myös tarjota hyödyllistä ohjausta oppimiselle.

Tuloksiin kuuluu parannettuja menetelmiä huoneakustisten ominaisuuksien arviointiin, tekniikka, joka vahvistaa tilallista äänenhavaitsemista tekemällä malleista vähemmän herkkiä akustiselle vaihtelulle, sekä kehys, joka pystyy erottamaan päällekkäisiä koneääniä myös silloin, kun “puhtaita” opetusnäytteitä ei ole saatavilla.

Keskeinen havainto on, että ääntä käsittelevä tekoäly on luotettavampaa silloin, kun sitä ohjaa akustiikan rakenne pelkän hahmontunnistuksen sijaan. Tutkimus tuo uusia tapoja yhdistää oppiminen tietoon siitä, miten ääni käyttäytyy tilassa, ja näin tukee robustimpaa ja merkityksellisempää todellisten akustisten ympäristöjen analyysia.

Näitä oivalluksia voidaan soveltaa tilalliseen ääneen ja immersiiviseen mediaan, älykkäämpiin mikrofoneihin ja konekuunteluun, akustiseen ympäristöanalyysiin sekä koneiden seurantaan todellisissa käyttöympäristöissä. Väitöskirja päätyy siihen, että tuleva kehitys edellyttää paitsi suurempia aineistoja ja malleja myös lähestymistapoja, jotka heijastavat sitä, miten äänen eteneminen ja ihmisen kuulo muovaavat sitä, mitä kuulemme.

Linkki väitöskirjan sähköiseen esittelykappaleeseen (esillä 7 päivää ennen väitöstä):

Yhteystiedot:
 

Sähkötekniikan korkeakoulun väitöskirjat

Suuri valkoinen 'A!' veistos Otaniemen Kandidaattikeskuksen katolla. Taustalla puu ja muita rakennuksia.

Sähkötekniikan korkeakoulun väitöskirjat ovat saatavilla yliopiston ylläpitämässä avoimessa Aaltodoc-julkaisuarkistossa.

Zoom pikaopas
  • äٱٳٲ:
  • Julkaistu:
Jaa
URL kopioitu