De invloed van opnamecondities op analyse en resynthese
van spraak
Citation for published version (APA):
Goossens, J. J. M. (1986). De invloed van opnamecondities op analyse en resynthese van spraak. (IPO rapport; Vol. 521). Instituut voor Perceptie Onderzoek (IPO).
Document status and date: Gepubliceerd: 01/01/1986 Document Version:
Uitgevers PDF, ook bekend als Version of Record Please check the document version of this publication:
• A submitted manuscript is the version of the article upon submission and before peer-review. There can be important differences between the submitted version and the official published version of record. People interested in the research are advised to contact the author for the final version of the publication, or visit the DOI to the publisher's website.
• The final author version and the galley proof are versions of the publication after peer review.
• The final published version features the final layout of the paper including the volume, issue and page numbers.
Link to publication
General rights
Copyright and moral rights for the publications made accessible in the public portal are retained by the authors and/or other copyright owners and it is a condition of accessing publications that users recognise and abide by the legal requirements associated with these rights. • Users may download and print one copy of any publication from the public portal for the purpose of private study or research. • You may not further distribute the material or use it for any profit-making activity or commercial gain
• You may freely distribute the URL identifying the publication in the public portal.
If the publication is distributed under the terms of Article 25fa of the Dutch Copyright Act, indicated by the “Taverne” license above, please follow below link for the End User Agreement:
www.tue.nl/taverne
Take down policy
If you believe that this document breaches copyright please contact us at:
openaccess@tue.nl
Instituut
voor Perceotie 0nderzoekPostbus
5L),
5600 MB EINDHOVENRapport
no.
521De
invloed
van oDnameconditiesop anal-Vse en resvnthese van spraak
Deze TH 6tage
Ís
uitgevoerd aanhet
IPODrs.
Ing.
J.G.
Beerends en Ir.J.P. van
periode december 1985
-
februarl
1986onder begeleÍdlng van Hemert gedurende de
SUMMARY
Thís
report
describesa
studyof
the
lnfluence
of
recording condltlons
onanalysis and
resSmthesisof
speech.
At the Instltute of
Perception Research ln Elndhoven researchÍs
done lnthe
areaof
speechanalysls
andresynthesls.
Normallythls
speechls
recordedÍn
a
quiet
boxwlth a
snall
speaker-nlcrophone
dlstance.
Thts
technlque maynot
be
optlnal,
due to poor acousticsof
the qulet
box andspectral
defornatlons caused by closenlkÍng.
Thts
wasthe
reasonfor
ÍnvestÍgatÍng
the lnfluence
of
recordingcondltions on
speechanalysls
andresynthesls.
Error rate in
automatlcpÍtchtracking
rdas usedas
a crlterlum for
recording
quallty.
The nunberof pttch errors
whlch
were counted manuallylncreased
rrlth
Íncreasing speaker-mlcrophonedistance.
Theptteh error rate
was
also
correlatedwÍth the
Mpid
Speech TransnÍsslonIndex.
For
relÍable pltch
measurementthÍs MSTI
has
to be greater than 0.98.
The
last
aspect
rrtrtch
wasinvestlgated
wasspectral
colouring
caused byclose
niking.
Thts spectralcolourlng
(a rÍse of
low
frequenciesup
to
300Hz)
causes an Lncreaseln
the
nunber of pltcherrors.
A test Ín
whlch
subJects
rdereasked
to
Judgethe qualÍty of
thereslmtheslzed
speech,orlginally
recorded
at
varlous distances,
showedthat
playbackconditions
ere lnportant.
UsÍng headphonesor
loudspeakersgave
dlfferent results.
However,recordings
maderrtth a snall
speakermÍcrophone dlstance were Judged good
Ín
both cases.When an anecholc
studlo
ls not
avallable, the best
rdayto
record
speechÍs
1n
a
studÍo
wtth a
Rastl
lndex
greater
than
0.98
whlch
í.nour
caseresulted
ln a
recordlng dlstance
of
15
crn. ïheserecordlngs
rÈre
Judgedapproximately
the
aanewtth
headphone orloudspeaker.
An
alternatíve
nÍght
beto
record
aÈ evensmaller
distances.
In that
case conpensatlonof the
spectral colouríng,
causedby close
ntklng, wll1
probably reducethe
nunber of pltch errors. It ls not expedlentto
record
ln
small
quiet boxes, suchas
IAC 400-A, becauserecordlng
quallty ln
such boxes 1s not satlsfactory.
I
wanthelplng
thank
Ir. J.P.
van
Henert
andDrs. Ing. J.G.
Beerendsfor
ln
dotngthis
job. toInstituut
voor
PerceptÍe OnderzoekDenDolech2-Eindhoven
Rapport no 521
De
Ínvloed
van opnanecondities op analyseen resynthese van spraak
J.J.M.
GoossensINHOUDSOPGAVE
1.
ïnleÍdine
2.
Svnthetische spraak2.1
NatuurliJke
spraak2.2
Het spraakbewerkÍngs systeem3.
Probleenbeschriivlns
3.1
TheoretÍsche aanpak3.2
Praktische aanpak3.3
De gevolgde aanpak3.4
Resultaten4.
Metennet
de MSTI neter4.1
De STI lndex4.2
Resultaten5.
Spectrale Verkleurlng5.1 Keuze
van de transfomatlenethode5.2
Laagdoorlaat
fllter
5.3
Hoogdoorlaar
fÍlter
5.4
Spectraleverkleurlng
btJ korte
mÍcrofoonafstand6.
KwallteÍtstest
6.1 KwalÍteitstest
m.b.v.
de koptelefoon6.2 Kwaltteitstest
n.b.v.
een luidsprekerbox7.
ConclusÍes8. Líteratuurlljst
9.
Synbolenli.lst 86/03 01 .03 . 1986 BIz. 9l0
10 11 I2 14 T4 19 22 23 25 28 29 32 33 34 38 40 4I 'l 2 2 4BiJtage
I
Ongecorrigeerde en gecorrigeerde toonhoogtenetÍng
van het woordradlo
wat oP 40 crn afstand opgenomen rdas' en tweetabellen
r{aarlnhet
aantal
stemhebbend-stsnloos,respectle-veliJk
het
aantal
stenloos-stemhebbendfouten
als
functle
van de
afstand zíJn
weergegeven.(2
pagtna-s)BiJlage
2
STI waardenín
destudio,
enin
degeluidsdlchte box,
en eensituatieschets
van destudio
(karner 0.45).(2
pagina-s)BtJlage
3
ResultatenlaagdoorlaatfÍ1ter,
methodeI
(5 pagina-s)
BtJlage
4
Resultatenlaagdoorlaatfllter,
nethode 2(3 pagina-s)
BÍJ1age
5
Resultatenhoogdoorlaatfllter
(3
pagÍna-s)BiJlage
6
Spectraleverkleuring
opkorte
afstand(3
pagina-s)BtJlage
7
Resultaten van de kwallteltstestnet
de koptelefoon. ruwe data (2
pagtna-s)BlJlage
8
Resultaten van de kwaliteitstest rnet deluldspreker
box. ruwedata
(2
paglna-s)1
INLEIDINGDe snelle
ontwikkelÍng
van de
micro-electronica
heeft het
nogelljk
genaakt
dat er
thans
apparatente
koop
zÍJn díe
spreken. De
spraak-nogellJkheden vanzulke
apparatenztJn
in
het
algemeen nogbeperkt,
maarhet lÍgt Ín
de verwachtírgdat
binnenenkele
Jaren-synthetische
spraak-op
veel
grotere
schaal
zijn
intrede
za|
doen.Er is al
veel
onderzoek gedaan naar defysische
eígenschappen van spraakgeluíd, naar debeheers-baarheÍd
van die
elgenschappen,en naar het
verband
ervan
Det
deperceptie
vanspraak. DergelÍJk
onderzoekvlndt
momenteelplaats
Ín
eengroot aantal
centra
in
dewereld.
Het vormt ook eenaanzÍenlÍjk
deel
vanhet
progranna vanhet
Instituut
voor
Perceptle Onderzoek (IPO).In
het
IPOnordt
spraak opgenonen Ln eenkleine
geluldsdlchte box.
Er
is
echter
nlet
bekend of deze manier van opnemenoptlnaal
ls.
Een vraag diegesteld
kan wordenls, of
de manier van opnemengrote
lnvloed
heeft
op dekwalÍtett
vande
analyseen
resyntheseresultaten,
en
als
denanler
vanopnemen van
groot
belangls,
hoehet
gelutd
danhet
beste opgenmen kanworden. Een opname kan op
vele
manleren gemaakt rrorden. Een rnogelÍJkheidls
de opnemenín
een an-echolsche kanerte
maken. Danls
het
nog de vraagwelke mlcrofoonafstand
de
beste
resultaten
geeft.
Een tweedevraag
dtegesteld
kan rrcrden Ís, hoelre
kunnen bepalenof
een bepaaldestudio ln
aanmerkÍng
kont, als
opnanestudlovoor spraak.
Dezebepaltng
Eoet
biJ voorkeur op eensnelle
manler gedaan kunnen worden.De bovengenoemde problemen
zlJn
Ín
een TII stage nader bestudeerd.Hterblj
1s vooral
gekekennaar
de lnvloed
van
de
opnÍmeconditlesop
het
aantal toonhoogtefouten,dle
de toonhoogtemeter maakt. Tevens ls gekeken wat deÍnvloed van
de
opnatrecondltle6,Ín het
blJzonder
de
Ínvloed van
deopnameafstand, op de perceptÍeve
kwallteltsbeoordellng
1s. De
bepallngof
eenstudlo
í.n aannerkÍng komtvoor
spraakopnamenis
gedaan Det behulp vaneen
MSTI
meterdÍe
de
verstaanbaarheld meeten
ul tdrukt ln een lndex tussen0
en 1.2
SYNTHETISCHE SPRMKop
het IPO
rsordt onderzoekverricht
naar de fysÍsche
elgenschappen vanspraakgeluld,
naar
de manipuleerbaarheidvan
dte eÍgenschappen,
en
naarhet
verband ervan met de perceptie van spraak. Het spraakonderzoek op hetrPo wordt
verrlcht
met behulp
ven
een
systeeDvoor de
analyse
en
deresynthese
van
het
spraakgeluld.
NatuurliJk
spraakgeluid
rnrdt
geana-lyseerd
ín
dertien
parameters,dle
betrekkellJk langzaa
veranderen,nl.
ongeveertret de
snelheld
waarmeede keel- en
nondholte
van
vormverandert.
De parameters vertegenwoordlgen psycho-fyslsche grootheden diedlrect
verantwoordeltJkziJn voor
duidellJke
elenentenvan
de
spraak-perceptie, zoals de
toonhoogte,de luidheid, en de
epraakklanken. DÍtalles
naakt
eengrote
reductie
mogelÍJkven de
geheugenruLmte,en
hetspraakgeluid
wordt
nanÍpuleerbaar.
zo kan
menmet het rpo
spraak-bewerklngssysteenspraak
representerenmet 16
kbtt/sec l.p.v.
IZOk-bl't/sec
(PCM code12
btt/sample,
1O0OOsamples/sec.).
Deze16
kbit/sec
zlJn
opgebouwduÍt 13
parameters,
nl. mplitude,
toonhoogte,
stem-hebbend/stemloos
paraneter,
vlJf
foruantenen
bandbreedtes,dte
met eenfrequentle
van
100 Hz bepaald worden. Tenkoste
van dekwalÍtelt
van degeresynthetÍseerde
spraak,
kan menzelfs
net nlnder
toe.
Heteffect
vandlt alles kan
men weer methet
spraakbewerkingssysteeo bestuderen.voor nadere
Ínformatle betreffende
synthetische spraakzle Il]
en
l,zl.
2.1
NATUURLIJKE SPRAAKBiJ
nensellJke
spraakproduktlels er
eenveranderlÍJke
geluidsbronU(f)
ener
l-s eenveranderlÍJk
akoestÍechfÍlter
dat het
geluÍd
tinbre
geeft.
Voor de
kllnkers
ende
stenhebbende medeklÍnkersontstaat het
brongelulddoor het trlllen van de
stembanden.De
bronfrequentle
bepaalt
deríaargenmen
toonhoogte.
Het
akoestlsch
filter
bestaat
voor de
stem-hebbende klankenult
de mond- enkeelholte,
enbÍJ
de nasale nedekllnkers m enn ,
ookult
de neusholte.BlJ
de
stenloze wrÍJfklankenf, s en
g
ls
het
brongeluld een
geruls
dat
ontsteat door
turbulentle
ven
de
lucht-stroom
ult de
longen
Ín een
vernauwlng
ín de
nondholte.
BfJ
destenhebbende wrlJfklanken
v
enz
ziJn
er
twee geluldsbronnen:
stenband-trlllÍngen
enluchtturbulentÍes. BiJ
de stemlozeplofklank€n
p, t
en k enbtj
de
stenhebbendeplofklanken
b
end
wordt de
nondholte gedurende eenkorte
ttjd
volledlg
afgesloten.Het
akoestÍschfllter
bestaat
uít het filter
O
gevorrnddoor de
keel-,
mond- en neusholte, en
het
fllter
Rdat
de ultstrallng aan de mondopeningbeschriJft.
Essentleelvoor
stemhebbendgeluid
ls,
dat het
spectrum naastde
grondtoon(frequentte
F0)
eengroot
aantal
hamonÍschenbevat.
Alleen daardoor kanhet
fllter
Ozo'n grote
lnvloed
hebben.In
het
spectrlm vaneen normale stenhebbende bron
bltJkt
deanplttude
van de bovenÈonenaf
te
nenen met ongeveer 12 dB
per
octaaf. Als het
brongeluid
akoestlscheruls
ls,
neemt men neestalaan,
dat
het apectrum
ervan ongeveervlak ls.
Hetanplltudespectrum van
het
spraaksÍgnaal wordt gegevendoor
:s(f)
=u(f).o(f).R(f)
De
overdrachtsfunctle
O(f) bepaalt ln
hoofdzaakde "klank" en
het"tinbre" van
het
geluid.
Men kan de nondkeelholte beschouwenals een
watgrÍ1Íg
gevormdebuls, dÍe
aan één ztJdevriJwel
gesloten en aan de andereztJde open
Ís.
Zo'n buis
heeft
eenaantal
resonantÍefrequentlesdÍe
1n deoverdrachtsfunctie
O(f)
teruggevonden wordenals
pleken, de
zg.
forman-ten.
ELkeforuant
wordt gekarakterÍseerd door een niddenfrequentle en eenbandbreedte. Voor de waarnemlng van spraak
ztJn
ln
het
algeneen niet meerdan
5
formanten, gelegenln
het
frequentlegebled van 100 Hztot
5 kHz vanbelang. De eerste
3
fornanten
ztJn
voornaoellJk
van
belang
voor
deherkenbaarheld van
de klanken.
Devíerde
en
viJfde
formantzÍJn
voorna-ne1lJk van belangvoor
denatuurllJkhetd
van de spraak.2
.2 I]ET
SPRAAKBEIIERKINCS SYSTEEMHet
IPO spraakbewerkingssysteennaakt gebruik
van een eenvoudiger mode1,het
synthese model.Dit
bevatslechts
éénfÍlter
O, waarÍn defunctÍe
vanhet fllter o is
verenigd metdle
vanR, terwiJl
ook dehellíng
van 12 dBPer octaaf van de
stenhebbendebron erí.n ls verwerkt.
De steohebbende bronheeft
nu dus eenvlak
Bp€ctrrrm. Nugeldt
dus :s(f)
=u(f).0(f)
spraak
wordt
in dtt
nodel
beschrevenmet
de
volgendepareeters:
debÍnalre
parameter(V/W)
dle
bepaalt
of
de bron
sternhebbendof
stemloosls ;
de
bronfrequentle F0voor het
geval
van een Btenhebbendebron
;
deanplÍtude
g;
ende frequentÍes
Fl t/n
F5en de
bandbreedtesBI t/n
85. Dezelaatste
10 parameters geven de fornanten weer.De
nogeltJkheid
dat
de
bron
tegellJkertÍJd pertodlek en ruísachtlg
ls,
zoals brj
de
krankenv en z te in dlt
nodel, en dus
in het
spraak-bewerklngssysteemnÍet
opgenomen.BÍJ
de analyse vanhet
spraaksignaalgaat
het
er m
het
spectruns(f)
te
ontleden
Ín
de
tweefactoren
van
het
model:
de spectrale
omhullende,gerepresenteerd
door
een gladde overdrachtsfunctle
o(f) en de
fÍjn-structuur
die
weergegevenwordt
Eet
een
reeks equÍdlstante
frequentte-componenten
van
gellJke sterkte,
danwel
eenwrtte
rulsspectrum,
U(f).
Daartoe wordt
het
slgnaal
bemonsterdnet
een
frequentle
van
l0
kHz,
engedlgÍtalÍseerd
Eet
een noordlengte
van 12
bÍts.
Eén seconde spraak,levert
zo
120 kbits. De fÍlter-en bronkarakterlstÍeken
rrcrdenonafhan-kelÍJk
vanelkaar
ult
het
spraakslgnaal geêxtraheerd. Fornant-Extract LeDe
fornant-extractie
gebeurtÍn een analysevenster van 250 benonsteringen
(25ns
spraak)dat telkens
l0
us
opschulft.
Hetvenster
Ie
zo gekozen dathet
altÍJd
rneer dan één perÍode vanhet
brongeluÍdbevat,
maar anderzÍJdszo
kleln
dat
het
devarlatíes
Ln detlJd
van de spraakparametersniet
te
veel
wegmÍddelt. On schadeltJkeeffecten
tengevolge vanhet
abrupte beglnmet een HsrnnÍng-functÍe. De
formantextractle
-
zonder kennÍs van de bron-
Sebeurt D€tzg.
llneaÍre
predÍctle
vanhet
spreeksignaal. DaarblJ r.urdthet
modelvan
Ííg 2.1
voor
het fÍlter 0
gehanÈeerd.De
fllterwerklng
wordt
verkregen
door
terugkoppellng
ven het
ultgangssÍgnaal
s_
vÍa-predÍctor'
P (eentransversaal
fllter)
op de ingang.flg
2.1 Voorstelllng
van heÈlOe orde.
fllter
Oals een digltaal filter
van deIn flg 2.L srelr
z-l
de
operator bemonsteringsperlodevertraagt.
Aan deslgnaal
6odat
eenlí.neaÍre
conbinatie10
g - I
".."
-n
L/
- J--n-J J=IVoor
het
uitgangssignaalgeldt
nu
:voor dle het signaal met
éénuÍtgang
vanP
verechlJnt
dus hetls
vansn-l,
sn-2,
...,
sn-IO
:-qu +6
n -n
nMet
dezellnealre relatle
kan
mendus
een ultgangsslgnaalwaardevoor-spellen
ult de lngangswaarde
van
dat
ogenbllk
en de
10
voorafgaande uÍÈgangswaarden.Ondat
r' slechts
zelden
+ 0 Ís (de
benonstertngs-frequentle
Ís
zeer
veel
hoger dande
bronfrequentÍe),
zljn vrijwel
alle
spraakmonsters voorspelbaar
ult de
10
voorafgaande monsters.Van
dezecoêfflclënten
"1,
..., tl.
van
P zo
goed
nogelÍJk
te
bepalen.
Men berekent met de nethode van deklelnste
kwadraten dLe waarden vana, t/n
a.
^
díe
de
beste aanpasslng geven vanÊ
aan de werkeltJke slgnaalwaardel0
-
nsn, voor alle
monstervoorspellingenÊr,
in het venster.
De
gevondenwaarden
voor
"l
tln.tO
worden
vervolgens
ongerekendÍn
formant-frequenties
en bandbreedten.Extractle
van de BronkarakteristiekenHet eerste wat
gedaan moet wordenls
de
stenhebbend/stemloos paraoeter bepalen.Het
spectrum van destenbandtrÍllÍngen
1n de nensellJkespraak-productle vertoont
eenhellÍng
van-12
db/oct.
Samen met de*6
dB/oct vanhet strallngseffect
eande
mondopenlngresulteert dit bfJ
steohebbendeklanken 1n een
helllng
van-6
dB/oct,
terwiJl blJ
stemloze klanken alleende +6
dB/oct
van de stralÍng optreedt.
Een
voor de
hand
lÍggende stenloos/stenhebbenddetector
ls
dan ook
de
bepaltng van
de
globalehelltng
van de onhullende vanhet
energÍespectrum vanhet
spraaksÍgnaal.Dat
kan
gebeurendoor
berekenÍngvan
de
eerste
(genorneerde)autocor-relatle
vanhet
lngangssÍgnaal,gedeflnleerd door
:*t/*o
=E
"r,'sn-l
/ E
"n'
Voor
steohebbende lngangsslgnalen1s
Rl/Ro
btJna
1; er ls
een
hogecorrelaÈle
tussen
tlree
opeenvolgendesamples,
terwíJI bÍJ
stemlozelngangsslgnalen
deze
correlatle kleln of negatlef 1s.
De stenhebbend
stenloosklasslfÍcatle berust
op
tnee
elementen :de
verhoudlng Rr/Ro ende
waarde van Ro zelf, dusde
totale
energieÍn
het
analysevenster. Alsdte
energÍe
hoog1s
hebben we vaakmet
k1Ínkers
te
doen.
Het
signaalwordt
bfj
hoge Ro dan ookals
stemhebbendgeklasslflceerd, tenziJ
et
zoweinig
correlatie
ln
het
signaal
1sdat
Rl/Rolager
Ís
dan0,4.
Ongekeerd1s bÍJ
stemlozeklanken
de
energle
neestal
relatlef laag. BfJ
lage
Rowordt het slgnaal dan ook als
stemloos
geklasslflceerd,
tenzlJ
deverhoudlng Rr/Ro hoger
1s
dan 0,9. Ishet
frme
etemhebbend, dan moet deVoor
de
toonhoogtenetlngÍs
de
D(ulfhuÍs)
W(t11ens)S(luyter)
nethodegebrulkt.
Deze methodels
gebaseerdop
de GoldsteÍn
theorle
vanmense-lijke
toonhoogteperceptle.
Deze nethodewerkt
Ín het
frequentÍedonein.Er
1s gekozenvoor
toonhoogtenetlng zondertracking
(AWf).In het
nodel
van
Goldsteln
t3]
wordt
de
perceptle van
toonhoogte vangeluÍd
beschouwdals
een patroon
herkennlngsproces. De
waargenomentoonhoogte Ís
dÍe
fundamentelefrequentíe F0,
waarvan de harrnonischen hetbeste
passen blJ hetspectrun
van
het geluld.
Veel
toonhoogte neters wordengebruikt
voor
vocoder systemen.Hier
wordt de toonhoogte gebrulktals
herhallngsfrequentlevoor
de perÍodiekepuls
generator.De DtrrS nethode
bestaat
uit
2
elenentennl.
eenspectrale analyse,
dle
defrequentles
van de
harnonlsche
conponentendetecteert en Eeet,
enharuonische patroonherkennlng. De eÍgenschappen van
de 6pectrale
analyseen de
patroonherkenningzijn zo
gekozen,dat ze
overeenkonentret
denenselíJke toonhoogte waarnenlng.
Spectrale analyse
De
spectrale
analyse gebeurtmet
de
FFTen
het Bpectrum
wordt
afgekaptbfj
2,5
kHz. Hetgebruikte
tiJdram ts
51,2 msecbreed,
enLs
gevuld netspraak,
varÍ.erendvan 10
tot
40
msec.afhankelÍJk
vande
te
verwachten toonhoogte(lage
toonhoogte:
40nsec. spraak).
Nade epectrale
analyse wordende
plekenÍn het spectrum
bepaald.HierbiJ
wordt gebrulk
genaaktvan
2 drempels. De
eerate
drenpelwaarderepresenteert
de
gehoordrempel,en
llgt
Lneerste
lnstantle
26 dB onder de hoogste spectraLeplek.
Dezedrenpel wordt constant
aangepast.De
tweededrenpel
representeert
het maskeren ven een component, door een nabiJgelegen cmponent, en hangtaf
van
reeds
gevondenpieken. Iedere
gevonden componentlntroduceert
eendrenpel
dte
aande
lage
frequentÍe
kant
45 dBper octaaf
afvalt,
en aande hoge
frequentÍe
kant
90 dBper octaaf
afvalt.
De drempelsziJn
1nfÍg
""'6{,1
Lrtr
I?
a. Xi fr
Xi..-r f't1.r-tir
{to1)
f.Ig 2.2
De Èwee dreopelsals
functíe
van de frequentle.De componenten norden
gezocht,
6tart.endbÍJ lage
frequentles.
Zodra 6corDponenten gevonden
zijn
wordt ge6toptnet
zoeken.harmoni sche patroonherkennlng
Ondat
nlet elke
gevonden componenteen
harnonlschevan
de
toonhoogtehoeft te ziJn,
moeteerst
nog een
harmonlschenzeef gebruíkt
uorden.HÍerbiJ
wordt
tussen F0=
50 Hz en F0-
500Hz.
oplopend in stappen vaneen
halve
semltoon bepaald welke derelevante
conponenten zÍJn.Er
1s
eencriterÍum
ontrdorpen,dat
gebaseerdls
ophet
nlnlrnalÍseren vande
euclÍdlsche afstand
tussen tweevectoren.
De harnonÍschendte per
F0gevonden
zlJn
norden aandÍt crlterÍrn
ondenrorpen,m
zo
de
toonhoogtete
vlnden.Voor een nadere
beschrlJvlng
van deze vorm van toonhoogtemetÍng zle Ízl3
PROBLEEM BESCHRIJVINGHet doel is, uít te
zoekenuat
de invloeden van de opntueconditÍes zlJn,op de kwalÍtelt van het geluld, dat geresynthetlseerd wordt, door
deanalyse
resynthese programmatuur. Deze progrmmatuurls
aanwezlgop
hetrPo
[31.De opnane
condltÍes
kunnengesplltst worden Ín
3
delen.1)
rulsnÍveau/achtergrond geluid2)
echo3)
epectrale verkleurlngDe denpÍng
ln
degebrulkte
studlo
Le zolaag
dat
de Ínvloed vanruis
enachÈergrond
geluid
te
venraarlozenÍs.
Van
geluid
kunnenperceptlef
2
eigenschappen bepaald worden.1)
Hetgeluld
kan beoordeeld worden op kwalltelt.I{at
1s hetnatuurllJkste,
wathoort
het
prettlgste
aan.2)
De verstaanbaarheld vanhet gelutd
kan bepaald worden. Hetpercentage woorden
dat
verstaanwordt,
í.s een maat voor deverstaanbaarheid.
3)
Dekwalltelt
vanhet
geluÍd
ksn ook lndirect bepaald worden.Als er
vanuÍt
gegaanwordt, dat
met een toenenendaantal
fouten van de toonhoogtemetlngdle 1n de progrmmatuur
aanwezlgls,
dekwallteÍt
vanhet
gelutd
achteruÍt gaat,
dan kanhet
aantal toonhoogtefoutenals een
getal beschouwd
rcrden
dat
dekwalltelt
aangeeft.3.1
Ï'ITEORETISCHE MNPAKEen
nogellJke
aanpakvan
het
probleem1s,
enkelekwalltelt, ln
een goedestudio
te
maken. Deze opnamenbemonsterd worden, en opgeslagen (120 kbÍt/sec). Deze
3
manlerengeftlterd
worden (softwarenatíg).l) rulsfllter
2) echofllter
net lnstelbare
echotÍJd3) spectraalfllter,
metÍnstelbare
karakterlstiek
opnatren
van
goedekunnen dan
dlgitaal
ftles
kunnen dan opDe
ultgangsslgnalen
kunnenop de ín het vorlge
hoofdstuk
genoemdenanleren
beoordeeldworden
(kwalltelt,
verstaenbaarheld,
toonhoogt.e-fouten).
Een nadeel
van
deze manierls, dat
de directe
koppeltng tussenopnane-condlties,
enkwalÍtelt
vanhet
geresynthetÍseerdegeluld
wegls.
Het
ls
praktlsch
nlet
reallseerbaar
om een synthetíschdtffuus veld
te
maken watde werkeliJke opnanecondÍtles benaderÈ.
Een voordeel van deze manler zou zlJn,
dat
alles
mathenatischvast
llgt.
3.2
PMKTISCHE AANPAKEen andere
nogeltJke
aanpak 1s, onderverschÍllende
opnmecondÍties ln
een
studlo,
enkele
opnamente
maken. Deze opnamen kunnen dangeresyn-thetlseerd,
en
op
de
3
genoemde maní.eren beoordeeldnorden.
Deopnme-conditles
moeten dan nog nader gespecÍfÍceerd worden, zodatnlet
alleenultspraken
gedaan kunnen worden over degebrulkte studlo.
Een manler, our de opnamecondltles
te
meten ls de RASTI (RApidSTI)
neter.Deze
levert voor leder
Deetpunteen
getal
tusaen
O en 1, de
Speechop
het
meetpunt. Metde
RASTImeter
ls
ook
de
equÍvalente
signaalruls-verhoudlng
S/N
,
€Dde
vroegevenralttjd
EDT (Early DecayTine)
op
het meetpuntte
bepalen.Een
nadeel van
de
RASTImeter
Ís, dat de
lnvloed van
de
spectraleverkleurÍng
níet
meerdeegtln
de beoordellng.
Dezespectrale
verkleurÍng kan natuurlljk ook vanlnvloed
zlJn
op kwallteit en verstaanbaarheld, vanhet
geluid,
en ookhet aantal
toonhoogtefoutenzal
daat vanaf hangen.In
hoofdstuk
4 zaI
nader op de MSTI meter Íngegaan norden.3.3
DE GEVOLGDE MNPAKHet
bepalenvan
de optinale opnamecondltles
1s op
de
volgende manÍergedaan.
Er ztJn
enkele
opn€menmet
verschlllende spreker
microfoon afsÈand(2,5
5
10 20 4080
150 200 cn.) genaaktln
de
IPOstudlo
(karner0.45).
BÍJ
Ledereafstand
zlJn
eenaantal
woordenultgesproken.
Hlervoor IresJ. 't
Hart
ultgenodÍgd.
Tevens zLJnln
de geluldsdichte box
(kaner0.46),
waarin voorheenalle
opnamen werden genaakt, opnámen gemaakt. DegeluÍdsdichte
boxzal Ín
het
vervolg
aangeduld rprdennet box.
In
de boxwerd
een
spreker-microfoon
afstand van 20
cm
gehanteerd.
A1
deze spraakopnanenzÍjn dlgttaal
benonsterdnet het prograna
INP.llet
behulpvan
het
progranma SGF zIJnalle
woordenapert
ln
een sanpleddata
flle
opgeslagen, en Ínethet
schaalprogramma SCL geschaald, oDte voorkonen dat
ten
gevolge vanverschlllende
luÍdheld,
de toonhoogtenetlng verschlllendefouten
gaat naken. Zote die
lnvloed
dusgeêllnlneerd.
Methet
progranEa AAP 1a een LOe orde LPC analyseultgevoerd,
waerna methet
progrmna Al,lEde
toonhoogtels
geneten. DespraakultÍng
wordt
gerepresenteerdmet
13parmeters
als een
functie
van dettJd :
anplítude,
stemhebbend/stemloos,toonhoogte,
5
formantenen
5
bandbreedtes. Eenset
van 13
parameterswordt
een
frame genoemd,en representeert
10
msec.epraak.
Dtt ls
deframeduur.
Al
deze perameterszlJn
opgeslagenÍn
een A/P-fÍle en kunnenlnteractlef
veranderd norden metde
prograornna-s CHPen
CllF. Met behulpvan
het
progr:rÍÍrma CHPts
bepaald hoeveel frames toonhoogtecorrectÍe nodlggecorrlgeerde toonhoogtemeting
voor
alle
afstanden envoor
alvan
het
woord"radlo"
IJeergegeven.Dít ls
Ie
woordJes gedaan.3.4
RESULTATENHet
resultaat
van detelllng
vanhet
aantal
toonhoogtefoutenÍs
tabel
3.1en
grafiek
3.1
waarÍnhet
aantal
toonhoogtefoutenultgezet
ls
tegen despreker-microfoon
afstand.
In
tabel
3.I
1s
tevenshet percentage franes
weergegeven, waarvan de toonhoogtefout
bepaald werd.De
gebrulkte
woordenzlJn : huis,
auto,
treÍn,
eten,
kamer, radÍ.o, elndhovenafstand
:
2,5huis
0euto
4trein
I
eten
I
kamer
3radlo
L2elndhoven
5totaal
267"
4r2 5I
6 4I
2 19 7 40 614 t0I
7I
6 5 9 10 39 6,2 20 3 t2 3 8 2 4 6 38 40 2 L2 7 16 14 22 7 80 80 4 18 15 I1 10 33 20 111 150 15 20 15 I2 20 34 13 L29 20,6 9 25 L7 L4 t7 29 10I3I
1 6 7 4I
9 9 372OO
boxtabel 3.1 aantal
toonhoogtefoutenals functle
van de6,1 12,8
L7 ,7 20,9
5,9I tl 'lt"J
it
tl
ti
ècc [---I,-l
'."1:-l
t"l
""1.rD I I*l
,r" I ::"1;l
i::l f.-fgraflek 3.1
aantal
toonhoogtefoutenals
functle
van de afstand.Utt
de
graflek bfíJkt dat het
aantal
toonhoogtefouten toeneemt met eentoename
van de
spreker-mÍcrofoonafstand.
Ook
blÍJkt dat de
opnameafstanden
5,
10 en 20 cn geensÍgnificant
verschll
ln
aantal
toonhoogte-fouten
opleveren.De toonhoogteÍneter
naakt
somsde
fout dat
eenstenloos
frme
aangezÍ enwordt
voor
stemhebbend, en andersom.In
btJlage 1
tabel I ls het aantel
malen lteergegeven,dat
een stenhebbendfrae
aangezlen werdvoor
stem-loos. In
btJlage
1 tabel 2 ts het aantal
malen neergegevendat
eenstemloos frame
aangezienwerd
voor
steohebbend.Het bllJkt, dat
hetaantal
fouten
meerafhankeliJk
ls
van
het
gebrulkte
woord, danvan
deafstand.
líet
behulp vanhet
progrÍrnmathetiseerd. Deze
resyntheses hoofdstuk6
beschreven Ls. De volgendestap
díe
gemaakteen STI lndex.
SYN
ztJn
de gecorrÍgeerde analysesgeresyn-ziJn gebrulkt
voor eenkwalÍteltstest die ln
4
METEN MET DE RASTI I.íETERDe
MSTI
(RAptdSTI) Deter,
dle ls
ontwlkkeld door
TZF(InstÍtuut
voorZÍntulg
Pysiologte) en
geproduceerddoor
Briiel
enKJaer,
Ís
gebrulkt
omde
verstaanbaarheÍdvan
het geluld ln de
studlo
te
bepalen.
De RASTI11eter
levert
een
STI Índex, dle de
verstaanbaarheldvan
het
geluidaangeeft, op de plaats
van
oPname. DezeÍndex
l1gt
tussen
0
en
1.
In hoofdstuk4.1
wordt nader lngegaanop de
werklng van de RASTImeter'
ende erachter
lÍggendetheorle. In
hoofdetuk4.2
ztJn
deresultaten
van deMSTI metÍng Ín de
studÍo
en ln de box beschreven.4.1
DE STI INDEXDe
achtergrondenvan de STI lndex zullen ln dtt
hoofdstuk
summÍerbehandeld worden. Voor nadere
lnformatle
wordt verrrezennaar
t4l.
De akoestlek
van
een
zael
kan
een vermlnderde verstaanbaarheld veroor-zaken. MogeltJke oorzakenzÍJn teveel
echo,
spectrale verkleurlng, ruis,
etc.
Dekwallteit
van een geluidstransmlssÍesysteem kan beschreven lrordendoor de Modulatie Transfer FunctÍe.
De ModulatLe
Transfer Functle quantlflceert ln
welke matede fluctuatles
ln het orlgÍnele
sÍgnaal
gereduceerdlrorden,
als
een
functÍe
van
denodulatlefrequentle.
De modulatles wordengedeflnieerd
door eenlntensl-telts
onhullende vanhet
slgnaal.
Ondat de meesteverstorlngen
aanzien-llJk
varÍeren
als
eenfunctÍe
van
de
carrier
frequentle,
1s de
analyse octaafbandspecÍflek.
In het
algeneenls het effect
van
echoof rtrí.s,
een
reductie van
defluctuatles ln
de onhullende vanhet
slgnaal.
In het
geval
van echo (T)heeft
de!íIF
de vorm van eenlaag
doorlaat
fÍlter.
Desnelle fluctuatÍes
ztJn het
meest gevoelÍgvoor
het
effect
vanecho.
In het
geval
vanruÍs
(S/N), Ís de tfIF
onafhankelÍJk
van
de
nodulatiefrequenÈ1e.De
reduceert
zode
fluctuatles ln
de
onhullende vanhet
sÍgnaal voor
alle
modulatlefrequentlestret
dezelfde factor.
De modulatle
transfer functle
hangtals volgt
vande
S/Naf (
S/NÍs
deslgnaal ruls
verhoudlngtn
dB)
:ts/N(F)
=-
I
,.
*
,.;T=ffiJ7tT-De
nodulatle transfer functle hangt als volgt
van deechotiJd af ( T ts
de
echottjd )
:nr(F)
=L
+
Í2,n.F.TJ2
190, 4
Is er
zowelruls als
echo,
dan moeten deze 2 factoren
vemenlgmldtgdworden, om de modulatle
transfer functie te
vÍnden. Ter
verduldeliJkingls
hleronder
flg 4.L
opgenonen,waarin
schenatÍschhet effect
van
eengeluldstransmlsslesysteen
verduldelÍJkt
wordt.I I llt . rrP"t. rtl I I I II I I I
fLg
4.1
Schenatlsche weergave van deHet
is
belangrtJk
op
te
merken daÈte
volgen procedure.de
líTFvan
een
geluidstransmissleI
| -J!-.
'n'-l'^il-
s
Bysteen onafhankelÍJk
ls
vanhet
lngangsslgnaaldat
bekeken r.prdt,als
tenmí.nste
1n de
bekekenoctaafband
de
slgnalen dezelfde
genÍddeldeÍntenslteÍt
hebben.De MIF
van
eengeluidstransnlssie
syste€n kanop verschlllende
manl.erenbepaald
uorden. De
nodulatle
reductlefactoren
wordendaarbtJ
alttjd
afgeleid
uÍt
eenvergeliJklng
van de
nodulatÍe
van
het ultgangsslgnaal
net dÍe
vanhet
íngangssignaal. Dereductíe factoren
zlJn gelÍJk aan:
m-
ontvangen modulatiegezonden nodulatÍe
De RASTI meter
gebruikt voor de
bepalíng
van
dezereductlefactoren
hetvolgende
testsÍgnaal,
zodat dereductlefactoren
slmultaan bepaald kunnenworden :
tr(t) - I
+
0,4(sln2.
n.t *
sln2.
n.2.t
+
s1n2. n.4.t f
stn2.2.8.t)
T1
T1
T1
T1Tl-lsec
1^(t)
=
1+ 0,32(sln2.n.t * sln2.n.2.t * stn2.n.4.r
+ 61n2.n.8.t
**--+ sÍn2.2.16.t)
T2 T2=
1.43 secTEST(t)
=
lr(t).ruts(500
Hz)+
12(t).ruis(2
kHz)fig
-1 )rh
1-Hz HetDe
MSTI
meter
gebrulkt
dus
9
datapunÈen,verdeeld
over 2
oct avennanellJk
:500Hzoctaaf:F=I249Hz
2
kEzoctaaf
:
F=
O,7I,4
2,8 5,6
11,2
HzDe MSTI meter
geeft
voor de9
datapunten denodulatle reductle
factoren.Voor
leder
octaafbandgeeft de
MSTI een equlvalente
S/N
en
een
EDT(Early
Decay Ttne)Het
behulp
van de
9
gevondennodulatÍe
reductÍe factoren
moetnu
eenlndex
bepaald worden,de STI lndex,
dle
eentraat
Ís
voor de
verstaan-baarheldop de
plaats
vande
lul.steraar.
Deze STIlndex
lsordtals
volgt
ult
de9 nodulatle reductÍefactoren
bepaald :Eerst
wordenalle
reductlefactoren
teruggerekendnaar
een
equlvalenteslgnaal
ruÍs verhoudÍng
volgens :spectrum van ruis(500
log n
dB1-n
S/N -
10eq
Deze equlvalente
sÍgnaal
ruls
verhoudlngen worden afgekapttot
15 dB als zegroter zlJn
dan 15dB,
of tot
-15
dBals
zeklelner
zlJn
dan-15
dB.IIet
gentddelde vande
9
equlvalente
slgnaal
ruí.sverhoudlngenresulteert
1n de STI
Índex,
nadater een
normallsatle
heeft
plaatsgevondenzo,
datsrr=I(sh)-+15Jl30
'eqSTI
=
1,0
a1s (S/N)eq)= 15
dBvoor
alle
9 daÈapunren
STI
= 0,0
als
(S/N)eq(=
-15
dBvoor
alle
9 datapr.rnten
Met behulp van dlt berekenÍngsschena kan een STI Índex bepaald worden
ult
de
9 reductle
factoren.De equivalente
slgnaal
rulsverhouding en de vroegevervaltlJd
worden ookdoor de
RASTI meterper
octaafband bepaald. Dezebepalíng
gebeurtn.b.v
de modulatie
transfer functle die
gegeven wordtdoor
:n(F)
=nr(F).nrr*(F)
=L
+
12. n .F.Tl2
LgO,4Omdat
voor
iedere
octaafband,4 of
5
modulatie reductlefactoren
bepaaldziJn,
voor
deverschlllende
modulatÍefrequentles
F,
kunnen de correspon-derende waardenT
en S/N,dÍe het
beste passenbÍJ
deze4 of 5
waarden,bepaald rmrden. De tiJd
T
zoals
dle
op deze manÍerafgeleid
wordtuÍt
de MTFliJkt
meergedefÍnÍeerd
te ztJn
door de
vroege
vervaltlJd
van
deonhullende,
lJaarde
llTF gemetenwas,
dandoor
de
traditÍonele
reverbe-ratietÍJd T.
De
gevondenttjd wordt
daaron
EDT(Early
Decay Tine)genoemd.
In fig 4.3 ztJn 3
vervalcurves
gegevenwelke
gemaaktzijn voor
eenexperí.ment
dat sÍtuaties
metverschlllende
reverberatlettJd T
betrof.
Devroege
vervaltlJd voor
deze sltuaties rrasconstant
(EOt=
1,5
sec).
Detraditlonele
reverberatÍetÍJd verschllde echter
(1,5; 2,4;
3,3
sec).l.0rfí!.raE
c l, 0.. a, 0, r.0
th t-l
ftg
4.3
reverberetlecurves voor3 sltuatles.
verstaanbaarheld
is
ldentlek
voor
deHet
effect
op dedrÍe sltuatÍes.
Experlnentele
resultaten
tonendat
de
verataanbaarheldsscores, alsook deMTF's
voor
dezesltuaties
Ídencíek waren.DÍt
toont
de
elgnlficantie
aanvan de vroege
vervaltiJd
voor detransfer
van varierende signalen en voor de verstaanbaarheid.Voor
meer
lnformatle
betreffende
de
RASTItreter en de
Èheoretische achtergrondenzie
t41.4.2
RESULTATENDe STI
lndex
ls
bepaald op de 8 afstandentot
denicrofoon,
zoals
dÍe
Ín
het vorÍge
hoofdstuk
ter
sprake
ztJn
gekonen. Omdater nogal
watspreÍdÍng
lag ln
de STI lndex
biJ
verschillende
netlÍrgen
op
hetzelfdepunt,
ls
opleder punt,
denetlng
7
keer herhaald,
enhet
genlddelde ende
spreldÍng van
de
STI ven
het
betreffende punt
Ís
bepaald.
Iederenetlng
duurde 32 seconden(Er
rras een keuzenogeliJk
tussen8,
16
of. 32Het
resultaat
Ís
afgebeeld 1ntabel
4.1.
Afstandtot
mÍcro 2r5 5 10 20 40 80 150 200 350 box geniddelde STI lndex 0,989 o,gg2 0, 988 o, 984 o,979 0,91 7 0,887 0,857 0,793 0, 991 spr elding op het gemtddelde 0,004 0 ,004 0,002 0,004 0,003 0,004 0,004 0,004 0,008 0,004Tabel
4.1
MSTI waardesals
functle
van de afstand.ook
ln
grafiek 4.1 uitgezet
tegen de afstand.graflek 4.1
STI Índexals
functle
van de afstand.1t
De STI index
bltjft
t/m
een opnameafstand van 40cn.
boven de0,97.
I{ordtde
afstand
groter,
danvalt
de STI lndex enel
terug tot
O,79bij
eenafstand van 350
cn.
De STI waardeszlJn
ook bepaald op5
andere punten Lnde studlo,
en
de
STI
Índex
ls
bepaaldven
de box.
Deplaats
van
de
5 puntenln
de
studlo,
en de
biJbehorenderesultaten
van de
RASTI netlngzlJn
weergegeven 1nbtJlage
2.
Nuls
dushet
aantal
toonhoogtefouten
alsfunctÍe
van de opnameafstand bepaald, ende
STIlndex
als
functle
van deafstand
Ís
bepaald.
Conblnatle
van
deze
gegevens levert graflek 4.2waarln
het aantal
toonhoogtefouten
ultstaat als functle
van
de
STI í.ndex.grafiek 4.2
aantal
toonhoogtefouten alsÍe
van de STI lndex.Utt
degrafiek
blÍJkt,
dat voor
eengering aantal
toonhoogtefouten de STIlndex
groter
dan 0,98 moet ztJn.tL lb lac l-t. lo l. b l. I 3 rox lrrll r 0r* | trt
5
SPECTRALE VERICEURINGDe resul.Ëaten van hoofdstuk
3
en4
kunnen als volgt smengevat worden1) Er ziJn
geluÍdsopnamen genaakt, metverschlllende
spreker-uícro-foon
afstanden.Deze geluldsopnaDenziJn
geanalyseerd en deana-lyses
zÍjn
op toonhoogtefoutengecorrigeerd.
IIet
aantal
toonhoog-tefouten
is
uitgezet,
tegen deafstand
tot
de mÍcrofoon.De conclusie
dÍe
ult
dezegraflek
getrokken kan wordenÍs,
dat
despreker rnicrofoon afstand zo
klein
nogeltjk
noet
zljn.
Het aantal toonhoogtefouten neentnaneliJk
af,
btJ klelner
wordende sprekernlcrofoon afstand,
waarschiJnllJk ondat de echo dannlnder
wordt.2)
Er
ztJn
RASTI netlngen gedaanln
destudlo,
op dezelfde plaatsen, waar ook de geluldsopnamenzlJn
genaakt. Hetblijkt,
dat
de MSTI lndex toeneent,bij
afnemendeafstand
tot
de mícrofoon. Ook nukan dus geconcludeerd
rcrden, dat
de spreker-mÍ.crofoon afstand zokleln
nogelijk
noeÈ ziJn3)
Deresultaten
vanI
en2
geconblneerd duldenerop,
dat
een STIgroter
dan 0,98 waarschiJnlÍJkzal
resulteren
in
een goede opname.De experÍmenten wiJzen
er
op,
datnogellJk noet
zlJn, terwtJl
Jutst volgendeeffecten
:de
spreker-mlcrofoonafstand zo
kleln
bfj klelne
afstanden sprakeis
van de1) 2) 3)
6pectrale
verkleuringdÍrecte
luchtstroomln
de microfoonafstand
tot
denicrofoon
nlet
goed constantDe
spectrale
verkleuring
zaL Ln dit hoofdstuk nader besproken worden.De invloed van de 6pectrale verkleuring op de
toonhoogteneting 1sverkleurÍng
dtgltaal te
simuleren.Er ls
een programna, genaamdFIL
aanwezlg opIlseerde slgnaal, dlgitaal te fÍlteren.
Dit
coêfficienten
vanhet
volgende polynoomhet IPO,
omhet
gedigtta-programma
vraagt naar
deF(z)
=
"o
* rl
-"-L
* ....
+
rr."*
-'l
bO
*
bt.r-'
+
....
+ brr.r-t
HierbiJ
1s n de orde van de teller, enn
de orde van de noemer.Door
een
geschÍkte
keuze
van de coêfficienten
kunnen verschlllendefllters dÍgttaal
geslnuleerd worden.5.1
KEUZE VAN DE TRANSFORMATIEI'ÍETHODEHet
bepalen van deln te
voerencoëfficíënten
kanop
de volgende manÍergebeuren
[5]
:Ten
eerste
wordt een analoge overdrachtsfr.rnctle bepaald,die
een bepaaldegeríenste
fllterkarakterlstlek reallseert.
Deze analoge overdrachtsfunctle moet dannog
overgezet wordennaar
een z-getransformeerdeoverdrachts-functle.
Voordit
laatste
zÍJn
drle nethodes beschikbaar.
1) Benonster de
inpulsresponsÍehc(t)
omh(n)
te
verkriJgen.2) Vervang
s
1n tt"(s) door eenfunctÍe
Ín
z
envínd
zo een H(z).3) Vervang
afgeleidenln
dedifferentÍaalvergeltJking
doordi fferent
les.
In het
algemeendient
noggeëist
te
lorden
dat een
stablel
ttJdcontinu systeemleÍdÈ
tot
eenstablel
ttjddiscreet
systeen. Verderls
het
meestalvan
belang
dat de
essent.iële
eigenschappenvan
de frequentíeresponsÍe
H-(Jar)
c'-
behoudenblljven tn H("JO). Dtt laatste
betekentdat de
Jír)-asafgebeeld
dient
te
worden op a""JO
clrkel.
af.
Methode
I
Transfornatíenet
behoud van lnpulsresponsieh(n) - h
(nT) cUlt
deze benonsteringvolgt
:u1"Jo)
=
t
lr",tg
+
i2nr)
Tr
Methode
2
b1lÍneaLtez
transfornatLeHet ls nogeliJk de
dlfferentlaalvergeltJkÍng
te
lntegreren
en
dezelntegratie numeriek
te benaderen. Met gebruÍknaklng van de trapezír.rnregel
kan de volgendebÍllneaire
transformatLe tussena
enz
afgeletd rmrden.
T
T
-
bemonsterlngsfrequentie. r1De frequentleresponsÍe H("J
o)
wordt dus gevorrndals son
van Hc(Jo/t)
enperÍodlek
verschoven repllka hí.ervan. Deze componentenzullen
elkaar
1nhet
algemeen overlappen(altaslng). Indien
echter
t"
voldoendeband-begrensd
Ís,
d,.v.z.
H"(lAlT).-
0
voor
O
) r
oftewel
H"(J<,r)3
0
voor@> z/t
, dan geldt tt("JO)=H"(Jo/T>
voor a < r . op
herverschiJnsel
van overlapptng nakriJgen
we dus een linealretransfornatíe
van @ naar í)
s=2.
TL-z
L*z
1I
T=
bemonsteringsfrequentíe.De
J <r,r-as wordt afgebeeld
opoverdrachtssysteem
wordt
ookde
"Jo
clrkel
getrans formeerd,
êDeen stabiel
analoogsysteem.
Het
verband tussen a, enO Ís als volgt
:Q =
2.arctan(u.,T/2)
at -
2.tan( í) );1
Het verband 1s dus we1 eenduldlg maar
niet llneaír.
Het voordeel van dezeneÈhode
Ís,
dat
de overdrachtsfunctlenlet
bandbegrensdhoeft
te zljn.
De
conclusle
die uit dit
verhaal
getrokkenkan
wordenÍs, dat btj
eenoverdrachtsfunctle,
die niet
bandbegrensdÍs, de
transfonnatle
met methode2
benaderd kan worden.Als
deoverdrachtsfunctle
wel bandbegrensd1s,
kunnen belde methodengebruikt
worden5.2
IÁAGDOORLMTFILTERVoordat gekeken
is
naar
het effect
van Bpectrale
verkleurlng
t.g.v
eenklelne
spreker-mlcrofoon afstand op de toonhoogtemetlng,Ís
eerst
gekekenwat het effect 1s van
een
eerste orde laag doorlaat fÍlter op
detoonhoogtemeting.
BfJ
het
bepalen van decoëffÍciënten zÍJn
zowel nethodeI als
methode2
gebrutkt.laag doorlaat
fllter ,
nethodeI
Een analoog
eerste
ordelaag doorlaat
fÍlter zÍet er
als
volgt uÍt
:Analoog Laag
doorlaat
filter :
F(s)
=
I
e=IJcc
=2.r.fs+a
HÍerbiJ
is f
de afkapfrequentle(-3 dB).
c
De btJbehorende
z
getransformeerdeoverdrachtsfr:nctle
zÍet
F(z)--
z
T-1.f0-4Bec
" -
a-^TDe
foruule
Ín
het
fonaat
wathet
progrmnaFIL
wenst, ztet er
als
volgt
ult
F(z)
=
I,
_
"-aT"-l
D€
volgendeafkapfrequentles
en
blJbehorendeoverdrachtsfunctÍes
zlJngebrulkt.
f
Overdrachtsfunctie c 1kHz
F(z)
--l-I -
0, 53349.2-L 500 HzF(z)
=__
I
I -
0 ,73040.2-I 25oHz F(")
=-l_-I -
O ,85464.2-IDeze
3
fllters
zÍJn gebrulkt
voor de soordenradlo
en huls,dle
opgencmenwaren met een
spreker-nlcrofoon afstand
van20
cn.
Het
resulteat
van detoonhoogtenetlng
van de
orlglnele
rmorden,en de
geschaaldegefllterde
versí.es
ls te zlen ln
btJlage
3.
De
fllterkarakterlstÍeken zlJn
ook opgenonentn
bÍJlage
3.Het
bl1Jkt, dat
de
toonhoogteoetlngniet
drastlsch
de
fout Ín
gaat,
enbtJ het
woordhuÍs
wordtbtj I
kHz fÍlterÍng, enblJ 500 Hz fÍltertng
hetLaag
doorlaat fllter
,
nethode 2Ook
nu wordt
uÍÈgegaanBilÍneaire
z
transfornatÍe
van hetzelfde analoge laagdoorlaat filter.
levert nu
:F(z)
= 500 Hz -1a.Tlz'
(2 +
a.T)+
(a.T
-
2).r'L
De overdrachtsfuncties zien
er
nuals volgt ult
: (hverdracht sfunct 1e cI
kHz 2.628-
L.372.2-rF(z)=0.628*"-t
F(z)=0.314*r-'
2.314-
1.686.2-lDeze
2
filters
zíJn gebrulkt voor
de woordenredlo
en huls,die
opgenomenwaren met een spreker-mLcrofoon
afstand
van20
cn.
Het resultaat
van detoonhoogtenetÍng
van
de
orlglnele
woorden,en de
geschaaldegefilterde
versÍes ls te zlen Ín
blJlage
4.
De
fllterkarakterlstÍeken ztjn
ookopgenomen
Ín
blJlage
4.
Ooknu
Ís het
aanÈa1 toonhoogtefouten kleí.ner,blj
500Hz
flltering.
Eenafnme
van
de
hogefrequentles vanaf
500 llzbliJkt dus een
verbeterlng
van de
toonhoogteneter
op te
leveren.I{aarechlJnltJk
zal dit nlet
opgaanvoor
een vrouwenst@. Deverschillen
5.3
HOOGDOORLAATFILTEREr
is
tevens gekeken wathet
effect Ís,
van eeneerste
orde hoog doorlaatfÍlter,
op de
toonhoogteneting.HlerbtJ
ls
nethode2
gebrulkt,
oudat deoverdrachtsfunctÍe
nÍet
bandbegrensdls.
Hoog
doorlaat
filter
:
F(s)
= 6
a=rd-
=
2.n.f^
"-"
c
cHlerbiJ
'c
ts f
de afkapfrequentle.Blllnealre z
transformatle
levert
:F(z)
= 2-
2.2-I
(2+a.T)+(a.T
-2).r-L
De volgende afkapfrequentles en blJbehorende overdrachtsfunctÍes zÍJn
gebruikt.
f
Overdrachtsfunctle clkHz
F(z)=2-2.2-L
2.628-
1.372.2-I50OHz F(z)=2-2.2-1
2.314-
1.686.2-125OHz F(z)-2-2.2-I
J
2 .157-
L.843.2Het
woordhuls,
wat
opgenomen was met eenspreker-nlcrofoon afstand
van20 cm,
Ís
op deze manler gefllterd. Hetresultaet
van de toonhoogtenetÍngvan de
gefllterde,
geschaaldeversles
Ís
weergegeven1n bÍJlage
5.
DefllterkarakterlstÍeken zijn
ook opgenmen 1nblJlage
5.
HetbllJkt
dat
nuhet aantal
toonhoogtefouten toeneemt met een toenaDe van deftltertng.
5.4
SPECTRALE VERKLEURINGBIJ
KORTE MICROFOONAFSTANDUÍt
delÍÈeratuur
[6] bfÍJkt
dat
de Bpectraleverkleurlng ten
gevolge vaneen
korte
microfoonafstand neerkont op eenversterkÍng
van delage
tonen.Dlt ls
voor
een afstand van8
cm vande
geluidsbrontot
de
mÍcrofoonÍn
grafiek 5.1
afgebeeld.Als referentÍe
ls hier
een an-echoÍsche opnae Eeteen spreker-microfoon afstand van
I
meter gekozen. Van beide opnanen ziJnde
sPectra bepaald. Doorde
spectra van belde opnanen opelkaar
te
delen(aftrekken op decÍbel schaal), wordt
de
spectrale verkleurÍng
van
het spraakslgnaal,ten
gevolge ven de opnaeafstand gevonden, waarblJ dus alsreferentle
een opnameafstand van 1 meterÍs
gekozen.
3aC-r-lld a ÍalIF.rr 6l
graflek 5.1
Spectraleverkleurlng
op I cn afstandEen spraakopname,
ln
een an-echolsche kamer opgenonen op een afstand vanI
meter,
Itas aanwezí.g. Doordit
signaal
te fÍlteren
net
dekarakterlstÍek
van
grafiek
5.1, kan een
opneneafstand
van8
cn
geslmuleerd rrcrden. Dankan
er
eenvergellJking
getrokken worden tussenhet
aantal
toonhoogte-fouten
ln
beide gevallen.Het
verschÍl
tn
aantal
toonhoogtefouten kanvolledlg
toegeschreven wordenaan de
spectrale verkleurÍng
door de geslmuleerdekorte
opnaoe afstand.Utt
grafiek 5.1
blijkt,
dat
tussen lO0 en 200 Hz deftlter
karakterÍstiek
ïoJg.-?
It"^t
-aoJ\
betekent een tweede orde
fllter,
Eet
degestlleerde
fllterkerakterÍstlek,
afgebeeldín
grafiek
5.2.
Spectraleverkleuring
rnanÍfesteert
zlch
dus Ínhet
frequentlegebledtot
ongeveer 4OO Hz.od9
t--1oJÁ 30graftek 5.2
genÍ
I i I I aoo .t-'c! óot ,l;ll
ril
iil trl-l-lJ
lll .o l--.o oo t st Íl ee crofoIr
nd óo f1 sta _1 \o rde nafVoor een
versterklng
I bij
fÍlter er
als
volgt ult
:a
Ondat deze
overdrachtefunctí.egebrulkt,
om decoËffÍctënten
teeen
Ís oneÍndig zlet het te
gebruÍken analogeF(s)-(s+a)2
a-2.7.300
niet
bandbegrensdis, rrcrdt
nethodebepalen. Het
resultaat ls
dan :F(z)
-
4.7895-
7.g28g.1--L + 3.2gL5.2-2-1
8.2' *
4.r-2
Omdat deze overdrechtsfunctLe een
versterking
oneíndlg heeftdit fÍlter nlet
realLseerbaar. Daarmwordt
nog eenfilter
dit fÍlter
gezet,
rdateen
karakterÍstlek
heeft,
zoals in
gestyleerd
afgebeeld1s,
met een afkapfrequentle van 10,
20voor
0
HzÍs
1n