De invloed van opnamecondities op analyse en resynthese van spraak

(1)

De invloed van opnamecondities op analyse en resynthese

van spraak

Citation for published version (APA):

Goossens, J. J. M. (1986). De invloed van opnamecondities op analyse en resynthese van spraak. (IPO rapport; Vol. 521). Instituut voor Perceptie Onderzoek (IPO).

Document status and date: Gepubliceerd: 01/01/1986 Document Version:

Uitgevers PDF, ook bekend als Version of Record Please check the document version of this publication:

• A submitted manuscript is the version of the article upon submission and before peer-review. There can be important differences between the submitted version and the official published version of record. People interested in the research are advised to contact the author for the final version of the publication, or visit the DOI to the publisher's website.

• The final author version and the galley proof are versions of the publication after peer review.

• The final published version features the final layout of the paper including the volume, issue and page numbers.

Link to publication

General rights

Copyright and moral rights for the publications made accessible in the public portal are retained by the authors and/or other copyright owners and it is a condition of accessing publications that users recognise and abide by the legal requirements associated with these rights. • Users may download and print one copy of any publication from the public portal for the purpose of private study or research. • You may not further distribute the material or use it for any profit-making activity or commercial gain

• You may freely distribute the URL identifying the publication in the public portal.

If the publication is distributed under the terms of Article 25fa of the Dutch Copyright Act, indicated by the “Taverne” license above, please follow below link for the End User Agreement:

www.tue.nl/taverne

Take down policy

If you believe that this document breaches copyright please contact us at:

openaccess@tue.nl

(2)

Instituut

voor Perceotie 0nderzoek

Postbus

5L),

5600 MB EINDHOVEN

Rapport

no.

521

De

invloed

van oDnamecondities

op anal-Vse en resvnthese van spraak

(3)

Deze TH 6tage

Ís

uitgevoerd aan

het

IPO

Drs.

Ing.

J.G.

Beerends en Ir.

J.P. van

periode december 1985

-

februarl

1986

onder begeleÍdlng van Hemert gedurende de

(4)

SUMMARY

Thís

report

describes

a

study

of

the

lnfluence

of

recording condltlons

on

analysis and

resSmthesis

of

speech.

At the Instltute of

Perception Research ln Elndhoven research

Ís

done ln

the

area

of

speech

analysls

and

resynthesls.

Normally

thls

speech

ls

recorded

Ín

a

quiet

box

wlth a

snall

speaker-nlcrophone

dlstance.

Thts

technlque may

not

be

optlnal,

due to poor acoustics

of

the qulet

box and

spectral

defornatlons caused by close

nlkÍng.

Thts

was

the

reason

for

ÍnvestÍgatÍng

the lnfluence

of

recording

condltions on

speech

analysls

and

resynthesls.

Error rate in

automatlc

pÍtchtracking

rdas used

as

a crlterlum for

recording

quallty.

The nunber

of pttch errors

whlch

were counted manually

lncreased

rrlth

Íncreasing speaker-mlcrophone

distance.

The

ptteh error rate

was

also

correlated

wÍth the

Mpid

Speech TransnÍsslon

Index.

For

relÍable pltch

measurement

thÍs MSTI

has

to be greater than 0.98.

The

last

aspect

rrtrtch

was

investlgated

was

spectral

colouring

caused by

close

niking.

Thts spectral

colourlng

(a rÍse of

low

frequencies

up

to

300

Hz)

causes an Lncrease

ln

the

nunber of pltch

errors.

A test Ín

whlch

subJects

rdere

asked

to

Judge

the qualÍty of

the

reslmtheslzed

speech,

orlginally

recorded

at

varlous distances,

showed

that

playback

conditions

ere lnportant.

UsÍng headphones

or

loudspeakers

gave

dlfferent results.

However,

recordings

made

rrtth a snall

speaker

mÍcrophone dlstance were _Judgedgood

Ín

both cases.

When an anecholc

studlo

ls not

avallable, the best

rday

to

record

speech

Ís

1n

a

studÍo

wtth a

Rastl

lndex

greater

than

0.98 whlch

í.n

our

case

resulted

ln a

recordlng dlstance

of

15

crn. ïhese

recordlngs

rÈre

Judged

approximately

the

aane

wtth

headphone or

loudspeaker.

An

alternatíve

nÍght

be

to

record

aÈ even

smaller

distances.

In that

case conpensatlon

of the

spectral colouríng,

caused

by close

ntklng, wll1

probably reduce

the

nunber of pltch errors. It ls not expedlent

to

record

ln

small

quiet boxes, such

as

IAC 400-A, because

recordlng

quallty ln

such boxes 1s not satl

sfactory.

I

want

helplng

thank

Ir. J.P.

van

Henert

and

Drs. Ing. J.G.

Beerends

for

ln

dotng

this

job. to

(5)

Instituut

voor

PerceptÍe Onderzoek

DenDolech2-Eindhoven

Rapport no 521

De

Ínvloed

van opnanecondities op analyse

en resynthese van spraak

J.J.M.

Goossens

INHOUDSOPGAVE

1. ïnleÍdine

2.

Svnthetische spraak

2.1 NatuurliJke

spraak

2.2

Het spraakbewerkÍngs systeem

3.

Probleenbeschri

ivlns

3.1

TheoretÍsche aanpak

3.2

Praktische aanpak

3.3

De gevolgde aanpak

3.4

Resultaten

4.

Meten

net

de MSTI neter

4.1

De STI lndex

4.2

Resultaten

5.

Spectrale Verkleurlng

5.1 Keuze

van de transfomatlenethode

5.2

Laag

doorlaat

fllter

5.3

Hoog

doorlaar

fÍlter

5.4

Spectrale

verkleurlng

btJ korte

mÍcrofoonafstand

6. KwallteÍtstest

6.1 KwalÍteitstest

m.b.v.

de koptelefoon

6.2 Kwaltteitstest

_n.b.v.

_{een luidsprekerbox}

7.

ConclusÍes

8. Líteratuurlljst

9

.

Synbolenli.lst 86/03 01 .03 . 1986 BIz. 9

l0

10 11 I2 14 T4 19 22 23 25 28 29 32 33 34 38 40 4I 'l 2 2 4

(6)

BiJtage

I

Ongecorrigeerde en gecorrigeerde toonhoogte

netÍng

van het woord

radlo

wat oP 40 crn afstand opgenomen rdas' en twee

tabellen

r{aarln

het

aantal

stemhebbend-stsnloos,

respectle-veliJk

het

aantal

stenloos-stemhebbend

fouten

als

functle

van de

afstand zíJn

weergegeven.

(2

pagtna-s)

BiJlage

2

STI waarden

ín

de

studio,

en

in

de

geluidsdlchte box,

en een

situatieschets

van de

studio

(karner 0.45).

(2

pagina-s)

BtJlage

3

Resultaten

laagdoorlaatfÍ1ter,

methode

I

(5 pagina-s)

BtJlage

4

Resultaten

laagdoorlaatfllter,

nethode 2

(3 pagina-s)

BÍJ1age

5

Resultaten

hoogdoorlaatfllter

(3

pagÍna-s)

BiJlage

6

Spectrale

verkleuring

op

korte

afstand

(3

pagina-s)

BtJlage

7

Resultaten van de kwallteltstest

net

de koptelefoon. ruwe dat

a (2

pagtna-s)

BlJlage

8

Resultaten van de kwaliteitstest rnet de

luldspreker

box. ruwe

data

(2

paglna-s)

(7)

1

INLEIDING

De snelle

ontwikkelÍng

van de

micro-electronica

heeft het

nogelljk

genaakt

dat er

thans

apparaten

te

koop

zÍJn díe

spreken. De

spraak-nogellJkheden van

zulke

apparaten

ztJn

in

het

algemeen nog

beperkt,

maar

het lÍgt Ín

de verwachtírg

dat

binnen

enkele

_Jaren

-synthetische

spraak-op

veel

grotere

schaal

zijn

intrede

za|

doen.

Er is al

veel

onderzoek gedaan naar de

fysische

eígenschappen van spraakgeluíd, naar de

beheers-baarheÍd

van die

elgenschappen,

en naar het

verband

ervan

Det

de

perceptie

van

spraak. DergelÍJk

onderzoek

vlndt

momenteel

plaats

Ín

een

groot aantal

centra

in

de

wereld.

Het vormt ook een

aanzÍenlÍjk

deel

van

het

progranna van

het

Instituut

voor

Perceptle Onderzoek (IPO).

In

het

IPO

nordt

spraak opgenonen Ln een

kleine

geluldsdlchte box.

Er

is

echter

nlet

bekend of deze manier van opnemen

optlnaal

ls.

Een vraag die

gesteld

kan worden

ls, of

de manier van opnemen

grote

lnvloed

heeft

op de

kwalÍtett

van

de

analyse

en

resynthese

resultaten,

en

als

de

nanler

van

opnemen van

groot

belang

ls,

hoe

het

gelutd

dan

het

beste opgenmen kan

worden. Een opname kan op

vele

manleren gemaakt rrorden. Een rnogelÍJkheid

ls

de opnemen

ín

een an-echolsche kaner

te

maken. Dan

ls

het

nog de vraag

welke mlcrofoonafstand

de

beste

resultaten

geeft.

Een tweede

vraag

dte

gesteld

kan rrcrden Ís, hoe

lre

kunnen bepalen

of

een bepaalde

studio ln

aanmerkÍng

kont, als

opnanestudlo

voor spraak.

Deze

bepaltng

Eoet

biJ voorkeur op een

snelle

manler gedaan kunnen worden.

De bovengenoemde problemen

zlJn

Ín

een TII stage nader bestudeerd.

Hterblj

1s vooral

gekeken

naar

de lnvloed

van

de

opnÍmeconditles

op

het

aantal toonhoogtefouten,

dle

de toonhoogtemeter maakt. Tevens ls gekeken wat de

Ínvloed van

de

opnatrecondltle6,

Ín het

blJzonder

de

Ínvloed van

de

opnameafstand, op de perceptÍeve

kwallteltsbeoordellng

1s. De

bepallng

of

een

studlo

í.n aannerkÍng komt

voor

spraakopnamen

is

gedaan Det behulp van

een

MSTI

meter

dÍe

de

verstaanbaarheld meet

en

ul tdrukt ln een lndex tussen

0

en 1.

(8)

2

SYNTHETISCHE SPRMK

op

het IPO

rsordt onderzoek

verricht

naar de fysÍsche

elgenschappen van

spraakgeluld,

naar

de manipuleerbaarheid

van

dte eÍgenschappen,

en

naar

het

_{verband ervan met de}_{perceptie van spraak. Het}_{spraakonderzoek op het}

rPo wordt

verrlcht

met behulp

ven

een

systeeD

voor de

analyse

en

de

resynthese

van

het

spraakgeluld.

NatuurliJk

spraakgeluid

rnrdt

geana-lyseerd

ín

dertien

parameters,

_dle

_{betrekkellJk langzaa}

_veranderen,

_nl.

ongeveer

tret de

snelheld

waarmee

_{de keel- en}

nondholte

van

vorm

verandert.

De _{parameters vertegenwoordlgen psycho-fyslsche grootheden die}

dlrect

verantwoordeltJk

ziJn voor

duidellJke

elenenten

van

de

spraak-perceptie, zoals de

toonhoogte,

_{de luidheid, en de}

_{epraakklanken. DÍt}

alles

naakt

een

grote

reductie

mogelÍJk

ven de

geheugenruLmte,

en

het

spraakgeluid

wordt

nanÍpuleerbaar.

zo kan

men

met het rpo

spraak-bewerklngssysteen

spraak

representeren

met 16

kbtt/sec l.p.v.

IZO

k-bl't/sec

(PCM code

12 btt/sample,

1O0OO

samples/sec.).

Deze

16 kbit/sec

zlJn

opgebouwd

_{uÍt 13}

parameters,

_{nl. mplitude,}

_toonhoogte,

stem-hebbend/stemloos

paraneter,

vlJf

foruanten

en

bandbreedtes,

_dte

_met_een

frequentle

van

100 Hz bepaald worden. Ten

koste

van de

kwalÍtelt

van de

geresynthetÍseerde

_spraak,

_kan_men

_zelfs

_{net nlnder}

_toe.

_Het

_effect

_van

dlt alles kan

men weer met

het

_{spraakbewerkingssysteeo bestuderen.}

voor nadere

Ínformatle betreffende

synthetische spraak

_{zle Il]}

en

_l,zl.

2.1

NATUURLIJKE SPRAAK

BiJ

nensellJke

spraakproduktle

_{ls er}

een

veranderlÍJke

geluidsbron

_U(f)

en

er

l-s een

veranderlÍJk

akoestÍech

fÍlter

dat het

geluÍd

tinbre

geeft.

Voor de

kllnkers

en

de

stenhebbende medeklÍnkers

_{ontstaat het}

brongeluld

door het trlllen van de

stembanden.

De

bronfrequentle

bepaalt

de

ríaargenmen

toonhoogte.

Het

akoestlsch

f

ilter

bestaat

voor de

stem-hebbende klanken

ult

de mond- en

keelholte,

en

bÍJ

de nasale nedekllnkers m en

n ,

ook

ult

de neusholte.

BlJ

de

stenloze wrÍJfklanken

f, s en

g

ls

(9)

het

brongeluld een

geruls

dat

ontsteat door

turbulentle

ven

de

lucht-stroom

ult de

longen

Ín een

vernauwlng

ín de

nondholte.

BfJ

de

stenhebbende wrlJfklanken

v

en

z

ziJn

er

twee geluldsbronnen

:

stenband-trlllÍngen

en

luchtturbulentÍes. BiJ

de stemloze

plofklank€n

p, t

en k en

btj

de

stenhebbende

plofklanken

b

en

d

wordt de

nondholte gedurende een

korte

ttjd

volledlg

afgesloten.

Het

akoestÍsch

fllter

bestaat

uít het filter

O

gevorrnd

door de

keel-,

mond- en neusholte, en

het

fllter

R

dat

de ultstrallng aan de mondopening

beschriJft.

Essentleel

voor

stemhebbend

geluid

ls,

dat het

spectrum naast

de

grondtoon

(frequentte

F0)

een

groot

aantal

hamonÍschen

bevat.

Alleen daardoor kan

het

fllter

O

zo'n grote

lnvloed

hebben.

In

het

spectrlm van

een normale stenhebbende bron

bltJkt

de

anplttude

van de bovenÈonen

af

te

nenen met ongeveer 12 dB

per

octaaf. Als het

brongeluid

akoestlsche

ruls

ls,

neemt men neestal

aan,

dat

het apectrum

ervan ongeveer

vlak ls.

Het

anplltudespectrum van

het

spraaksÍgnaal wordt gegeven

door

:

s(f)

=

u(f).o(f).R(f)

De

overdrachtsfunctle

O(f) bepaalt ln

hoofdzaak

de "klank" en

het

"tinbre" van

het

geluid.

Men kan de nondkeelholte beschouwen

als een

wat

grÍ1Íg

gevormde

buls, dÍe

aan één ztJde

vriJwel

gesloten en aan de andere

ztJde open

Ís.

Zo'n buis

heeft

een

aantal

resonantÍefrequentles

dÍe

1n de

overdrachtsfunctie

O(f)

teruggevonden worden

als

pleken, de

zg.

forman-ten.

ELke

foruant

wordt gekarakterÍseerd door een niddenfrequentle en een

bandbreedte. Voor de waarnemlng van spraak

ztJn

ln

het

algeneen niet meer

dan

5

formanten, gelegen

ln

het

frequentlegebled van 100 Hz

tot

5 kHz van

belang. De eerste

3 fornanten

ztJn

voornaoellJk

van

belang

voor

de

herkenbaarheld van

de klanken.

De

víerde

en

viJfde

formant

zÍJn

voorna-ne1lJk van belang

voor

de

natuurllJkhetd

van de spraak.

(10)

2

.2 I]ET

SPRAAKBEIIERKINCS SYSTEEM

Het

IPO spraakbewerkingssysteen

naakt gebruik

van een eenvoudiger mode1,

het

synthese model.

Dit

bevat

slechts

één

fÍlter

O, waarÍn de

functÍe

van

het fllter o is

verenigd met

dle

van

R, terwiJl

ook de

hellíng

van 12 dB

Per octaaf van de

stenhebbende

_{bron erí.n ls verwerkt.}

_De_steohebbende bron

heeft

nu dus een

vlak

Bp€ctrrrm. Nu

geldt

dus :

s(f)

=

u(f).0(f)

spraak

wordt

in dtt

nodel

beschreven

met

de

volgende

pareeters:

de

bÍnalre

parameter

(V/W)

dle

bepaalt

of

de bron

sternhebbend

of

stemloos

ls ;

de

bronfrequentle F0

voor het

geval

van een Btenhebbende

bron

;

de

anplÍtude

g;

en

de frequentÍes

Fl t/n

F5

en de

bandbreedtes

BI t/n

85. Deze

laatste

10 parameters geven de fornanten weer.

De

nogeltJkheid

dat

de

bron

tegellJkertÍJd pertodlek en ruísachtlg

ls,

zoals brj

de

kranken

v en z te in dlt

nodel, en dus

in het

spraak-bewerklngssysteem

nÍet

opgenomen.

BÍJ

de analyse van

het

spraaksignaal

gaat

het

er m

het

spectrun

s(f)

te

ontleden

Ín

de

twee

factoren

van

het

model

:

de spectrale

omhullende,

gerepresenteerd

_door

_{een gladde overdrachtsfunctle}

_{o(f) en de}

fÍjn-structuur

die

weergegeven

wordt

Eet

een

reeks equÍdlstante

frequentte-componenten

van

gellJke sterkte,

dan

wel

een

wrtte

rulsspectrum,

U(f).

Daartoe wordt

het

slgnaal

bemonsterd

net

een

frequentle

van

l0

kHz,

en

gedlgÍtalÍseerd

_Eet

_{een noordlengte}

_{van 12}

_bÍts.

_Eén_{seconde spraak,}

levert

zo

120 kbits. De fÍlter-

en bronkarakterlstÍeken

rrcrden

onafhan-kelÍJk

van

elkaar

ult

het

spraakslgnaal geêxtraheerd. Fornant-Extract Le

De

fornant-extractie

gebeurt

Ín een analysevenster van 250 benonsteringen

(25

ns

spraak)

dat telkens

l0

us

opschulft.

Het

venster

Ie

zo gekozen dat

het

altÍJd

rneer dan één perÍode van

het

brongeluÍd

bevat,

maar anderzÍJds

zo

kleln

dat

het

de

varlatíes

Ln de

tlJd

van de spraakparameters

niet

te

veel

wegmÍddelt. On schadeltJke

effecten

tengevolge van

het

abrupte begln

(11)

met een HsrnnÍng-functÍe. De

formantextractle

-

zonder kennÍs van de bron

-

Sebeurt D€t

zg.

llneaÍre

predÍctle

van

het

spreeksignaal. DaarblJ r.urdt

het

model

van

Ííg 2.1

voor

het fÍlter 0

gehanÈeerd.

De

fllterwerklng

wordt

verkregen

door

terugkoppellng

ven het

ultgangssÍgnaal

s_

vÍa

-predÍctor'

_P_(een

_transversaal

_fllter)

_{op de ingang.}

flg

2.1 Voorstelllng

van heÈ

lOe orde.

fllter

O

als een digltaal filter

van de

In flg 2.L srelr

z-l

de

operator bemonsteringsperlode

vertraagt.

Aan de

slgnaal

6o

dat

een

lí.neaÍre

conbinatie

10

g - I

_".."

-n

_L/

_{- J--n-J} J=I

Voor

het

uitgangssignaal

geldt

nu

:

voor dle het signaal met

één

uÍtgang

van

P

verechlJnt

dus het

ls

van

sn-l,

sn-2,

...,

sn-IO

:

-qu +6

n -n

n

Met

deze

llnealre relatle

kan

men

dus

een ultgangsslgnaalwaarde

voor-spellen

ult de lngangswaarde

van

dat

ogenbllk

en de

10

voorafgaande uÍÈgangswaarden.

Ondat

r' slechts

zelden

_{+ 0 Ís (de}

benonstertngs-frequentle

Ís

zeer

veel

hoger dan

de

bronfrequentÍe),

zljn vrijwel

alle

spraakmonsters voorspelbaar

ult de

10

voorafgaande monsters.

Van

deze

(12)

coêfflclënten

"1,

.

.., tl.

van

P zo

goed

nogelÍJk

te

bepalen.

Men berekent met de nethode van de

klelnste

kwadraten dLe waarden van

a, t/n

a.

_^

díe

de

beste aanpasslng geven van

Ê

aan de werkeltJke slgnaalwaarde

l0

-

n

sn, voor alle

monstervoorspellingen

Êr,

in het venster.

De

gevonden

waarden

voor

_"l

tln.tO

worden

vervolgens

ongerekend

Ín

formant-frequenties

en bandbreedten.

Extractle

van de Bronkarakteristieken

Het eerste wat

gedaan moet worden

ls

de

stenhebbend/stemloos paraoeter bepalen.

Het

spectrum van de

stenbandtrÍllÍngen

1n de nensellJke

spraak-productle vertoont

een

hellÍng

van

-12

db/oct.

Samen met de

*6

dB/oct van

het strallngseffect

ean

de

mondopenlng

resulteert dit bfJ

steohebbende

klanken 1n een

helllng

van

_-6

dB/oct,

terwiJl blJ

stemloze klanken alleen

de +6

dB/oct

van de stralÍng optreedt.

Een

voor de

hand

lÍggende stenloos/stenhebbend

detector

ls

dan ook

de

bepaltng van

de

globale

helltng

van de onhullende van

het

energÍespectrum van

het

spraaksÍgnaal.

Dat

kan

gebeuren

door

berekenÍng

van

de

eerste

(genorneerde)

autocor-relatle

van

het

lngangssÍgnaal,

gedeflnleerd door

:

t/o

=E

_"r,'sn-l

_{/ E}

_"n'

Voor

steohebbende lngangsslgnalen

1s

Rl/Ro

btJna

1; er ls

een

hoge

correlaÈle

tussen

tlree

opeenvolgende

samples,

terwíJI bÍJ

stemloze

lngangsslgnalen

deze

correlatle kleln of negatlef 1s.

De stenhebbend

stenloosklasslfÍcatle berust

op

tnee

elementen :

de

verhoudlng Rr/Ro en

de

waarde van Ro zelf, dus

de

totale

energie

Ín

het

analysevenster. Als

dte

energÍe

hoog

1s

hebben we vaak

met

k1Ínkers

te

doen.

Het

signaal

wordt

bfj

hoge Ro dan ook

als

stemhebbend

geklasslflceerd, tenziJ

et

zo

weinig

correlatie

ln

het

signaal

1s

dat

Rl/Ro

lager

Ís

dan

0,4.

Ongekeerd

1s bÍJ

stemloze

klanken

de

energle

neestal

relatlef laag. BfJ

lage

Ro

wordt het slgnaal dan ook als

stemloos

geklasslflceerd,

tenzlJ

de

verhoudlng Rr/Ro hoger

1s

dan 0,9. Is

het

frme

etemhebbend, dan moet de

(13)

Voor

de

toonhoogtenetlng

Ís

de

D(ulfhuÍs)

W(t11ens)

S(luyter)

nethode

gebrulkt.

Deze methode

ls

gebaseerd

op

de GoldsteÍn

theorle

van

mense-lijke

toonhoogte

perceptle.

Deze nethode

werkt

Ín het

frequentÍedonein.

Er

1s gekozen

voor

toonhoogtenetlng zonder

tracking

(AWf).

In het

nodel

van

Goldsteln

_t3]

wordt

de

perceptle van

toonhoogte van

geluÍd

beschouwd

als

een patroon

herkennlngs

proces. De

waargenomen

toonhoogte Ís

dÍe

fundamentele

frequentíe F0,

waarvan de harrnonischen het

beste

passen blJ het

spectrun

van

het geluld.

Veel

toonhoogte neters worden

gebruikt

voor

vocoder systemen.

Hier

wordt de toonhoogte gebrulkt

als

herhallngsfrequentle

voor

de perÍodieke

puls

generator.

De DtrrS nethode

bestaat

uit

2

elenenten

nl.

een

spectrale analyse,

dle

de

frequentles

van de

harnonlsche

conponenten

detecteert en Eeet,

en

haruonische patroonherkennlng. De eÍgenschappen van

de 6pectrale

analyse

en de

patroonherkenning

zijn zo

gekozen,

dat ze

overeenkonen

tret

de

nenselíJke toonhoogte waarnenlng.

Spectrale analyse

De

spectrale

analyse gebeurt

met

de

FFT

en

het Bpectrum

wordt

afgekapt

bfj

2,5

kHz. Het

gebruikte

tiJdram ts

51,2 msec

breed,

en

Ls

gevuld net

spraak,

varÍ.erend

van 10

tot

40

msec.

afhankelÍJk

van

de

te

verwachten toonhoogte

(lage

toonhoogte

:

40

nsec. spraak).

Na

de epectrale

analyse worden

de

pleken

Ín het spectrum

bepaald.

HierbiJ

wordt gebrulk

genaakt

van

2 drempels. De

eerate

drenpelwaarde

representeert

de

gehoordrempel,

en

llgt

Ln

eerste

lnstantle

26 dB onder de hoogste spectraLe

plek.

Deze

drenpel wordt constant

aangepast.

De

tweede

drenpel

representeert

het maskeren ven een component, door een nabiJgelegen cmponent, en hangt

af

van

reeds

gevonden

pieken. Iedere

gevonden component

lntroduceert

een

drenpel

dte

aan

de

lage

frequentÍe

kant

45 dB

per octaaf

afvalt,

en aan

de hoge

frequentÍe

kant

90 dB

per octaaf

afvalt.

De drempels

ziJn

1n

fÍg

(14)

""'6{,1

Lrtr

I

?

a. Xi fr

Xi..

-r f't1.r-tir

{to1)

f.Ig 2.2

De Èwee dreopels

als

functíe

van de frequentle.

De componenten norden

gezocht,

6tart.end

bÍJ lage

frequentles.

Zodra 6

corDponenten gevonden

zijn

wordt ge6topt

net

zoeken.

harmoni sche patroonherkennlng

Ondat

nlet elke

gevonden component

een

harnonlsche

van

de

toonhoogte

hoeft te ziJn,

moet

eerst

nog een

harmonlschen

zeef gebruíkt

uorden.

HÍerbiJ

wordt

tussen F0

₌

50 Hz en F0

-

500

Hz.

oplopend in stappen van

een

halve

semltoon bepaald welke de

relevante

conponenten zÍJn.

Er

1s

een

criterÍum

ontrdorpen,

dat

gebaseerd

ls

op

het

nlnlrnalÍseren van

de

euclÍdlsche afstand

tussen twee

vectoren.

De harnonÍschen

dte per

F0

gevonden

zlJn

norden aan

dÍt crlterÍrn

ondenrorpen,

m

zo

de

toonhoogte

te

vlnden.

Voor een nadere

beschrlJvlng

van deze vorm van toonhoogtemetÍng zle Ízl

(15)

3

PROBLEEM BESCHRIJVING

Het doel is, uít te

zoeken

uat

de invloeden van de opntueconditÍes zlJn,

op de kwalÍtelt van het geluld, dat geresynthetlseerd wordt, door

de

analyse

resynthese programmatuur. Deze progrmmatuur

ls

aanwezlg

op

het

rPo

_[31.

De opnane

condltÍes

kunnen

gesplltst worden Ín

3

delen.

1)

rulsnÍveau/achtergrond geluid

2)

echo

3)

epectrale verkleurlng

De denpÍng

ln

de

gebrulkte

studlo

Le zo

laag

dat

de Ínvloed van

ruis

en

achÈergrond

geluid

te

venraarlozen

Ís.

Van

geluid

kunnen

perceptlef

2

eigenschappen bepaald worden.

1)

Het

geluld

kan beoordeeld worden op kwalltelt.

I{at

1s het

natuurllJkste,

wat

hoort

het

prettlgste

aan.

2)

De verstaanbaarheld van

het gelutd

kan bepaald worden. Het

percentage woorden

dat

verstaan

wordt,

í.s een maat voor de

verstaanbaarheid.

3)

De

kwalltelt

van

het

geluÍd

ksn ook lndirect bepaald worden.

Als er

vanuÍt

gegaan

wordt, dat

met een toenenend

aantal

fouten van de toonhoogtemetlng

dle 1n de progrmmatuur

aanwezlg

ls,

de

kwallteÍt

van

het

gelutd

achteruÍt gaat,

dan kan

het

aantal toonhoogtefouten

als een

getal beschouwd

rcrden

dat

de

kwalltelt

aangeeft.

(16)

3.1

Ï'ITEORETISCHE MNPAK

Een

nogellJke

aanpak

van

het

probleem

1s,

enkele

kwalltelt, ln

een goede

studio

te

maken. Deze opnamen

bemonsterd worden, en opgeslagen (120 kbÍt/sec). Deze

3

manleren

geftlterd

worden (softwarenatíg).

l) rulsfllter

2) echofllter

net lnstelbare

echotÍJd

3) spectraalfllter,

met

Ínstelbare

karakterlstiek

opnatren

van

goede

kunnen dan

dlgitaal

ftles

kunnen dan op

De

ultgangsslgnalen

kunnen

op de ín het vorlge

hoofdstuk

genoemde

nanleren

beoordeeld

worden

(kwalltelt,

verstaenbaarheld,

toonhoogt.e-fouten).

Een nadeel

van

deze manier

ls, dat

de directe

koppeltng tussen

opnane-condlties,

en

kwalÍtelt

van

het

geresynthetÍseerde

geluld

weg

ls.

Het

ls

praktlsch

nlet

reallseerbaar

om een synthetísch

dtffuus veld

te

maken wat

de werkeliJke opnanecondÍtles benaderÈ.

Een voordeel van deze manler zou zlJn,

dat

alles

mathenatisch

vast

llgt.

3.2

PMKTISCHE AANPAK

Een andere

nogeltJke

aanpak 1s, onder

verschÍllende

opnme

condÍties ln

een

studlo,

enkele

opnamen

te

maken. Deze opnamen kunnen dan

geresyn-thetlseerd,

en

op

de

3

genoemde maní.eren beoordeeld

norden.

De

opnme-conditles

moeten dan nog nader gespecÍfÍceerd worden, zodat

nlet

alleen

ultspraken

gedaan kunnen worden over de

gebrulkte studlo.

Een manler, our de opnamecondltles

te

meten ls de RASTI (RApid

STI)

neter.

Deze

levert voor leder

Deetpunt

een

getal

tusaen

O en 1, de

Speech

(17)

op

het

meetpunt. Met

de

RASTI

meter

ls

ook

de

equÍvalente

signaalruls-verhoudlng

S/N

_,

€D

de

vroege

venralttjd

EDT (Early Decay

Tine)

op

het meetpunt

te

bepalen.

Een

nadeel van

de

RASTI

meter

Ís, dat de

lnvloed van

de

spectrale

verkleurÍng

níet

meerdeegt

ln

de beoordellng.

Deze

spectrale

verkleurÍng kan natuurlljk ook van

lnvloed

zlJn

op kwallteit en verstaanbaarheld, van

het

geluid,

en ook

het aantal

toonhoogtefouten

zal

daat vanaf hangen.

In

hoofdstuk

4 zaI

nader op de MSTI meter Íngegaan norden.

3.3

DE GEVOLGDE MNPAK

Het

bepalen

van

de optinale opnamecondltles

1s op

de

volgende manÍer

gedaan.

Er ztJn

enkele

opn€men

met

verschlllende spreker

microfoon afsÈand

(2,5

5

10 20 40

80

150 200 cn.) genaakt

ln

de

IPO

studlo

(karner

0.45).

BÍJ

Ledere

afstand

zlJn

een

aantal

woorden

ultgesproken.

Hlervoor Ires

J. 't

Hart

ultgenodÍgd.

Tevens zLJn

ln

de geluldsdichte box

(kaner

0.46),

waarin voorheen

alle

opnamen werden genaakt, opnámen gemaakt. De

geluÍdsdichte

box

zal Ín

het

vervolg

aangeduld rprden

net box.

In

de box

werd

een

spreker-microfoon

afstand van 20

cm

gehanteerd.

A1

deze spraakopnanen

zÍjn dlgttaal

benonsterd

net het prograna

INP.

llet

behulp

van

het

progranma SGF zIJn

alle

woorden

apert

ln

een sanpled

data

flle

opgeslagen, en Ínet

het

schaalprogramma SCL geschaald, oD

te voorkonen dat

ten

gevolge van

verschlllende

luÍdheld,

de toonhoogtenetlng verschlllende

fouten

gaat naken. Zo

te die

lnvloed

dus

geêllnlneerd.

Met

het

progranEa AAP 1a een LOe orde LPC analyse

ultgevoerd,

waerna met

het

progrmna Al,lE

de

toonhoogte

ls

geneten. De

spraakultÍng

wordt

gerepresenteerd

met

13

parmeters

als een

functie

van de

ttJd :

anplítude,

stemhebbend/stemloos,

toonhoogte,

5

formanten

en

5

bandbreedtes. Een

set

van 13

parameters

wordt

een

frame genoemd,

en representeert

10

msec.

epraak.

Dtt ls

de

frameduur.

Al

deze perameters

zlJn

opgeslagen

Ín

een A/P-fÍle en kunnen

lnteractlef

veranderd norden met

de

prograornna-s CHP

en

CllF. Met behulp

van

het

progr:rÍÍrma CHP

ts

bepaald hoeveel frames toonhoogtecorrectÍe nodlg

(18)

gecorrlgeerde toonhoogtemeting

voor

alle

afstanden en

voor

al

van

het

woord

"radlo"

IJeergegeven.

Dít ls

Ie

woordJes gedaan.

3.4

RESULTATEN

Het

resultaat

van de

telllng

van

het

aantal

toonhoogtefouten

Ís

tabel

3.1

en

grafiek

3.1

waarÍn

het

aantal

toonhoogtefouten

ultgezet

ls

tegen de

spreker-microfoon

afstand.

In

tabel

3.I

1s

tevens

het percentage franes

weergegeven, waarvan de toonhoogte

fout

bepaald werd.

De

gebrulkte

woorden

zlJn : huis,

auto,

treÍn,

eten,

kamer, radÍ.o, elndhoven

afstand

:

2,5

huis

0

euto

4

trein

I

eten

I

kamer

3

radlo

L2

elndhoven

5

totaal

26

7"

4r2 5

I

6 4

I

2 19 7 40 614 t0

I

7

I

6 5 9 10 39 6,2 20 3 t2 3 8 2 4 6 38 40 2 L2 7 16 14 22 7 80 80 4 18 15 I1 10 33 20 111 150 15 20 15 I2 20 34 13 L29 20,6 9 25 L7 L4 t7 29 10

I3I

1 6 7 4

I

9 9 37

2OO

box

tabel 3.1 aantal

toonhoogtefouten

als functle

van de

6,1 12,8

L7 _,7 20

,9

5,9

(19)

I tl 'lt"J

it

tl

ti

ècc

[---I

,-l

'."1

:-l

t"l

""1_.rDI I

*l

,r" I ::"1

;l

i::l f.-f

graflek 3.1

aantal

toonhoogtefouten

als

functle

van de afstand.

Utt

de

graflek bfíJkt dat het

aantal

toonhoogtefouten toeneemt met een

toename

van de

spreker-mÍcrofoon

afstand.

Ook

blÍJkt dat de

opname

afstanden

5,

10 en 20 cn geen

sÍgnificant

verschll

ln

aantal

toonhoogte-fouten

opleveren.

De toonhoogteÍneter

naakt

soms

de

fout dat

een

stenloos

frme

aangezÍ en

wordt

voor

stemhebbend, en andersom.

In

btJlage 1

tabel I ls het aantel

malen lteergegeven,

dat

een stenhebbend

frae

aangezlen werd

voor

stem-loos. In

btJlage

1 tabel 2 ts het aantal

malen neergegeven

dat

een

stemloos frame

aangezien

werd

voor

steohebbend.

Het bllJkt, dat

het

aantal

fouten

meer

afhankeliJk

ls

van

het

gebrulkte

woord, dan

van

de

afstand.

líet

behulp van

het

progrÍrnma

thetiseerd. Deze

resyntheses hoofdstuk

6

beschreven Ls. De volgende

stap

díe

gemaakt

een STI lndex.

SYN

ztJn

de gecorrÍgeerde analyses

geresyn-ziJn gebrulkt

voor een

kwalÍteltstest die ln

(20)

4

METEN MET DE RASTI I.íETER

De

MSTI

(RAptd

STI) Deter,

dle ls

ontwlkkeld door

TZF

(InstÍtuut

voor

ZÍntulg

Pysiologte) en

geproduceerd

door

Briiel

en

KJaer,

Ís

gebrulkt

om

de

verstaanbaarheÍd

van

het geluld ln de

studlo

te

bepalen.

De RASTI

11eter

levert

een

STI Índex, dle de

verstaanbaarheld

van

het

geluid

aangeeft, op de plaats

van

oPname. Deze

Índex

l1gt

tussen

0 en

1.

In hoofdstuk

4.1

wordt nader lngegaan

op de

werklng van de RASTI

meter'

en

de erachter

lÍggende

theorle. In

hoofdetuk

4.2 ztJn

de

resultaten

van de

MSTI metÍng Ín de

studÍo

en ln de box beschreven.

4.1

DE STI INDEX

De

achtergronden

van de STI lndex zullen ln dtt

hoofdstuk

summÍer

behandeld worden. Voor nadere

lnformatle

wordt verrrezen

naar

t4l.

De akoestlek

van

een

zael

kan

een vermlnderde verstaanbaarheld veroor-zaken. MogeltJke oorzaken

zÍJn teveel

echo,

spectrale verkleurlng, ruis,

etc.

De

kwallteit

van een geluidstransmlssÍesysteem kan beschreven lrorden

door de Modulatie Transfer FunctÍe.

De ModulatLe

Transfer Functle quantlflceert ln

welke mate

de fluctuatles

ln het orlgÍnele

sÍgnaal

gereduceerd

lrorden,

als

een

functÍe

van

de

nodulatlefrequentle.

De modulatles worden

gedeflnieerd

door een

lntensl-telts

onhullende van

het

slgnaal.

Ondat de meeste

verstorlngen

aanzien-llJk

varÍeren

als

een

functÍe

van

de

carrier

frequentle,

1s de

analyse octaafband

specÍflek.

In het

algeneen

ls het effect

van

echo

of rtrí.s,

een

reductie van

de

fluctuatles ln

de onhullende van

het

slgnaal.

In het

geval

van echo (T)

heeft

de

!íIF

de vorm van een

laag

doorlaat

fÍlter.

De

snelle fluctuatÍes

ztJn het

meest gevoelÍg

voor

het

effect

van

echo.

In het

geval

van

ruÍs

(S/N), Ís de tfIF

onafhankelÍJk

van

de

nodulatiefrequenÈ1e.

De

(21)

reduceert

zo

de

fluctuatles ln

de

onhullende van

het

sÍgnaal voor

alle

modulatlefrequentles

tret

de

zelfde factor.

De modulatle

transfer functle

hangt

als volgt

van

de

S/N

af (

S/N

Ís

de

slgnaal ruls

verhoudlng

tn

dB

₎

:

ts/N(F)

=

-

I

,.

*

,.;T=ffiJ7tT-De

nodulatle transfer functle hangt als volgt

van de

echotiJd af ( T ts

de

echottjd )

:

nr(F)

=

L

+

_Í2,n.F.TJ2

190, 4

Is er

zowel

ruls als

echo,

dan moeten deze 2 f

actoren

vemenlgmldtgd

worden, om de modulatle

transfer functie te

vÍnden. Ter

verduldeliJking

ls

hleronder

flg 4.L

opgenonen,

waarin

schenatÍsch

het effect

van

een

geluldstransmlsslesysteen

verduldelÍJkt

wordt.

I I llt . rrP"t. rtl I I I I_I I I I

fLg

4.1

Schenatlsche weergave van de

Het

is

belangrtJk

op

te

merken daÈ

te

volgen procedure.

de

líTF

van

een

geluidstransmissle

I

| _-J!-.

'n'-l'^il-

s

(22)

Bysteen onafhankelÍJk

ls

van

het

lngangsslgnaal

dat

bekeken r.prdt,

als

tenmí.nste

1n de

bekeken

octaafband

de

slgnalen dezelfde

genÍddelde

ÍntenslteÍt

hebben.

De MIF

van

een

geluidstransnlssie

syste€n kan

op verschlllende

manl.eren

bepaald

uorden. De

nodulatle

reductlefactoren

worden

daarbtJ

alttjd

afgeleid

uÍt

een

vergeliJklng

van de

nodulatÍe

van

het ultgangsslgnaal

net dÍe

van

het

íngangssignaal. De

reductíe factoren

zlJn gelÍJk aan:

m

-

ontvangen modulatie

gezonden nodulatÍe

De RASTI meter

gebruikt voor de

bepalíng

van

deze

reductlefactoren

het

volgende

testsÍgnaal,

zodat de

reductlefactoren

slmultaan bepaald kunnen

worden :

tr(t) - I

+

0,4(sln2.

n

_{.t *}

_sln2.

n

_.2.t

+

s1n2. n

_{.4.t f}

stn2.

2.8.t)

T1

Tl-lsec

1^(t)

=

1+ 0,32(sln2.n.t * sln2.n.2.t * stn2.n.4.r

+ 61n2.n.8.t

**--+ sÍn2.2.16.t)

T2 T2

₌

1.43 sec

TEST(t)

=

lr(t).ruts(500

Hz)

+

12(t).ruis(2

kHz)

(23)

fig

-1 )

rh

1-Hz Het

De

MSTI

meter

gebrulkt

dus

9

datapunÈen,

verdeeld

over 2

oct aven

nanellJk

:

500Hzoctaaf:F=I249Hz

2

kEz

octaaf

:

F

=

O,7

I,4

2,8 5,6

11

,2

Hz

De MSTI meter

geeft

voor de

9

datapunten de

nodulatle reductle

factoren.

Voor

leder

octaafband

geeft de

MSTI een equlvalente

S/N

en

een

EDT

(Early

Decay Ttne)

Het

behulp

van de

9

gevonden

nodulatÍe

reductÍe factoren

moet

nu

een

lndex

bepaald worden,

de STI lndex,

dle

een

traat

Ís

voor de

verstaan-baarheld

op de

plaats

van

de

lul.steraar.

Deze STI

lndex

lsordt

als

volgt

ult

de

9 nodulatle reductÍefactoren

bepaald :

Eerst

worden

alle

reductlefactoren

teruggerekend

naar

een

equlvalente

slgnaal

ruÍs verhoudÍng

volgens :

spectrum van ruis(500

log n

dB

1-n

S/N -

10

eq

Deze equlvalente

sÍgnaal

ruls

verhoudlngen worden afgekapt

tot

15 dB als ze

groter zlJn

dan 15

dB,

of tot

-15

dB

als

ze

klelner

zlJn

dan

-15

dB.

(24)

IIet

gentddelde van

de

9 equlvalente

slgnaal

ruí.sverhoudlngen

resulteert

1n de STI

Índex,

nadat

er een

normallsatle

heeft

plaatsgevonden

zo,

dat

srr=I(sh)-+15Jl30

_'eq

STI

=

1,0

a1s (S/N)eq

)= 15

dB

voor

alle

9 daÈapunren

STI

= 0,0

als

(S/N)eq

(=

_-15

dB

voor

alle

9 datapr.rnten

Met behulp van dlt berekenÍngsschena kan een STI Índex bepaald worden

ult

de

9 reductle

factoren.

De equivalente

slgnaal

rulsverhouding en de vroege

vervaltlJd

worden ook

door de

RASTI meter

per

octaafband bepaald. Deze

bepalíng

gebeurt

n.b.v

de modulatie

transfer functle die

gegeven wordt

door

:

n(F)

=

nr(F).nrr*(F)

=

L

+

_12.n .F

.Tl2

LgO,4

Omdat

voor

iedere

octaafband,

4 of

5 modulatie reductlefactoren

bepaald

ziJn,

voor

de

verschlllende

modulatÍe

frequentles

F,

kunnen de correspon-derende waarden

T

en S/N,

dÍe het

beste passen

bÍJ

deze

4 of 5

waarden,

bepaald rmrden. De tiJd

T

zoals

dle

op deze manÍer

afgeleid

wordt

uÍt

de MTF

liJkt

meer

gedefÍnÍeerd

te ztJn

door de

vroege

vervaltlJd

van

de

onhullende,

lJaar

de

llTF gemeten

was,

dan

door

de

traditÍonele

reverbe-ratietÍJd T.

De

gevonden

_{ttjd wordt}

_daaron

EDT

(Early

Decay Tine)

genoemd.

In fig 4.3 ztJn 3

vervalcurves

gegeven

welke

gemaakt

_{zijn voor}

een

experí.ment

dat sÍtuaties

met

verschlllende

reverberatlettJd T

betrof.

De

vroege

vervaltlJd voor

deze sltuaties rras

constant

(EOt

₌

1,5

sec).

De

traditlonele

reverberatÍetÍJd verschllde echter

(1,5; 2,4;

3,3

sec).

(25)

l.0rfí!.raE

c l, 0.. a, 0, r.0

th t-l

ftg

4.3

reverberetlecurves voor

3 sltuatles.

verstaanbaarheld

is

ldentlek

voor

de

Het

effect

op de

drÍe sltuatÍes.

Experlnentele

resultaten

tonen

dat

de

verataanbaarheldsscores, alsook de

MTF's

voor

deze

sltuaties

Ídencíek waren.

DÍt

toont

de

elgnlficantie

aan

van de vroege

vervaltiJd

voor de

transfer

van varierende signalen en voor de verstaanbaarheid.

Voor

meer

lnformatle

betreffende

de

RASTI

treter en de

Èheoretische achtergronden

zie

_t41.

4.2

RESULTATEN

De STI

lndex

ls

bepaald op de 8 afstanden

tot

de

nicrofoon,

zoals

dÍe

Ín

het vorÍge

hoofdstuk

ter

sprake

ztJn

gekonen. Omdat

er nogal

wat

spreÍdÍng

lag ln

de STI lndex

biJ

verschillende

netlÍrgen

op

hetzelfde

punt,

ls

op

leder punt,

de

netlng

7 keer herhaald,

en

het

genlddelde en

de

spreldÍng van

de

STI ven

het

betreffende punt

Ís

bepaald.

Iedere

netlng

duurde 32 seconden

(Er

rras een keuze

nogeliJk

tussen

8,

16

of. 32

(26)

Het

resultaat

Ís

afgebeeld 1n

tabel

4.1.

Afstand

tot

mÍcro 2r5 5 10 20 40 80 150 200 350 box geniddelde STI lndex 0,989 o,gg2 0, 988 o, 984 o,979 0,91 7 0,887 0,857 0,793 0, 991 spr elding op het gemtddelde 0,004 0 _,004 0,002 0,004 0,003 0,004 0,004 0,004 0,008 0,004

Tabel

4.1

MSTI waardes

als

functle

van de afstand.

ook

ln

grafiek 4.1 uitgezet

tegen de afstand.

graflek 4.1

STI Índex

als

functle

van de afstand.

1t

(27)

De STI index

bltjft

t/m

een opnameafstand van 40

cn.

boven de

0,97.

I{ordt

de

afstand

groter,

dan

valt

de STI lndex enel

terug tot

O,79

bij

een

afstand van 350

cn.

De STI waardes

zlJn

ook bepaald op

5

andere punten Ln

de studlo,

en

de

STI

Índex

ls

bepaald

ven

de box.

De

plaats

van

de

5 punten

ln

de

studlo,

en de

biJbehorende

resultaten

van de

RASTI netlng

zlJn

weergegeven 1n

btJlage

2.

Nu

ls

dus

het

aantal

toonhoogte

fouten

als

functÍe

van de opnameafstand bepaald, en

de

STI

lndex

als

functle

van de

afstand

Ís

bepaald.

Conblnatle

van

deze

gegevens levert graflek 4.2

waarln

het aantal

toonhoogte

fouten

ultstaat als functle

van

de

STI í.ndex.

grafiek 4.2

aantal

toonhoogtefouten als

Íe

van de STI lndex.

Utt

de

grafiek

blÍJkt,

dat voor

een

gering aantal

toonhoogtefouten de STI

lndex

groter

dan 0,98 moet ztJn.

tL lb lac l-t. lo l. b l. I 3 rox lrrll r 0r* | trt

(28)

5

SPECTRALE VERICEURING

De resul.Ëaten van hoofdstuk

3

en

4

kunnen als volgt smengevat worden

1) Er ziJn

geluÍdsopnamen genaakt, met

verschlllende

spreker-uícro-foon

afstanden.Deze geluldsopnaDen

ziJn

geanalyseerd en de

ana-lyses

zÍjn

op toonhoogtefouten

gecorrigeerd.

IIet

aantal

toonhoog-tefouten

is

uitgezet,

tegen de

afstand

tot

de mÍcrofoon.

De conclusie

dÍe

ult

deze

graflek

getrokken kan worden

Ís,

dat

de

spreker rnicrofoon afstand zo

klein

nogeltjk

noet

zljn.

Het aantal toonhoogtefouten neent

naneliJk

af,

btJ klelner

wordende spreker

nlcrofoon afstand,

waarschiJnllJk ondat de echo dan

nlnder

wordt.

2)

Er

ztJn

RASTI netlngen gedaan

ln

de

studlo,

op dezelfde plaatsen, waar ook de geluldsopnamen

zlJn

genaakt. Het

blijkt,

dat

de MSTI lndex toeneent,

bij

afnemende

afstand

tot

de mícrofoon. Ook nu

kan dus geconcludeerd

rcrden, dat

de spreker-mÍ.crofoon afstand zo

kleln

nogelijk

noeÈ ziJn

3)

De

resultaten

van

I

en

2

geconblneerd dulden

erop,

dat

een STI

groter

dan 0,98 waarschiJnlÍJk

zal

resulteren

in

een goede opname.

De experÍmenten wiJzen

er

op,

dat

nogellJk noet

zlJn, terwtJl

Jutst volgende

effecten

:

de

spreker-mlcrofoon

afstand zo

kleln

bfj klelne

afstanden sprake

is

van de

1) 2) 3)

6pectrale

verkleuring

dÍrecte

luchtstroom

ln

de microfoon

afstand

tot

de

nicrofoon

nlet

goed constant

De

spectrale

verkleuring

zaL Ln dit hoofdstuk nader besproken worden.

De invloed van de 6pectrale verkleuring op de

toonhoogteneting 1s

(29)

verkleurÍng

dtgltaal te

simuleren.

Er ls

een programna, genaamd

FIL

aanwezlg op

Ilseerde slgnaal, dlgitaal te fÍlteren.

Dit

coêfficienten

van

het

volgende polynoom

het IPO,

om

het

gedigtta-programma

vraagt naar

de

F(z)

=

_"o

* rl

-"-L

* ....

+

rr."*

-'l

bO

*

bt

.r-'

+

....

+ brr.r-t

HierbiJ

1s n de orde van de teller, en

n

de orde van de noemer.

Door

een

geschÍkte

keuze

van de coêfficienten

kunnen verschlllende

fllters dÍgttaal

geslnuleerd worden.

5.1

KEUZE VAN DE TRANSFORMATIEI'ÍETHODE

Het

bepalen van de

ln te

voeren

coëfficíënten

kan

op

de volgende manÍer

gebeuren

_[5]

:

Ten

eerste

wordt een analoge overdrachtsfr.rnctle bepaald,

die

een bepaalde

geríenste

fllterkarakterlstlek reallseert.

Deze analoge overdrachtsfunctle moet dan

nog

overgezet worden

naar

een z-getransformeerde

overdrachts-functle.

Voor

dit

laatste

zÍJn

drle nethodes beschikbaar.

1) Benonster de

inpulsresponsÍe

hc(t)

om

h(n)

te

verkriJgen.

2) Vervang

s

1n tt"(s) door een

functÍe

Ín

z

en

vínd

zo een H(z).

3) Vervang

afgeleiden

ln

de

differentÍaalvergeltJking

door

di fferent

les.

In het

algemeen

dient

nog

geëist

te

lorden

dat een

stablel

ttJdcontinu systeem

leÍdÈ

tot

een

stablel

ttjddiscreet

systeen. Verder

ls

het

meestal

van

belang

dat de

essent.iële

eigenschappen

van

de frequentíeresponsÍe

H-(Jar)

_c'-

behouden

blljven tn H("JO). Dtt laatste

betekent

dat de

_Jír)-as

afgebeeld

dient

te

worden op a"

"JO

clrkel.

(30)

af.

Methode

I

Transfornatíe

net

behoud van lnpulsresponsie

h(n) - h

(nT) c

Ult

deze benonstering

volgt

:

u1"Jo)

=

t

_lr",tg

+

_i2nr)

Tr

Methode

2

b1lÍneaLte

z

transfornatLe

Het ls nogeliJk de

dlfferentlaalvergeltJkÍng

te

lntegreren

en

deze

lntegratie numeriek

te benaderen. Met gebruÍknaklng van de trapezír.rnregel

kan de volgende

bÍllneaire

transformatLe tussen

a

en

z

afgeletd rmrden.

T

-

bemonsterlngsfrequentie. r1

De frequentleresponsÍe H("J

o)

wordt dus gevorrnd

als son

van Hc(J

o/t)

en

perÍodlek

verschoven repllka hí.ervan. Deze componenten

zullen

elkaar

1n

het

algemeen overlappen

(altaslng). Indien

echter

t"

voldoende

band-begrensd

Ís,

d,.v.z.

H"(

_lAlT).-

0 voor

O

) r

oftewel

H"(J<,r)

₃

0

voor

@> z/t

_{, dan geldt tt("JO)=H"(Jo/T>}

_{voor a < r . op}

_her

verschiJnsel

van overlapptng na

kriJgen

we dus een linealre

transfornatíe

van @ naar í)

s=2.

T

L-z

L*z

1

I

T

=

bemonsteringsfrequentíe.

De

J <r,r

-as wordt afgebeeld

op

overdrachtssysteem

wordt

ook

de

"J

o

_clrkel

getrans formeerd

,

êD

een stabiel

analoog

(31)

systeem.

Het

verband tussen a, en

O Ís als volgt

:

Q =

2.arctan(

u.,T/2)

at -

2.tan( í) )

;1

Het verband 1s dus we1 eenduldlg maar

niet llneaír.

Het voordeel van deze

neÈhode

Ís,

dat

de overdrachtsfunctle

nlet

bandbegrensd

hoeft

te zljn.

De

conclusle

die uit dit

verhaal

getrokken

kan

worden

Ís, dat btj

een

overdrachtsfunctle,

die niet

bandbegrensd

Ís, de

transfonnatle

met methode

2

benaderd kan worden.

Als

de

overdrachtsfunctle

wel bandbegrensd

1s,

kunnen belde methoden

gebruikt

worden

5.2

IÁAGDOORLMTFILTER

Voordat gekeken

is

naar

het effect

van Bpectrale

verkleurlng

t.g.v

een

klelne

spreker-mlcrofoon afstand op de toonhoogtemetlng,

Ís

eerst

gekeken

wat het effect 1s van

een

eerste orde laag doorlaat fÍlter op

de

toonhoogtemeting.

BfJ

het

bepalen van de

coëffÍciënten zÍJn

zowel nethode

I als

methode

2

gebrutkt.

laag doorlaat

fllter ,

nethode

I

Een analoog

eerste

orde

laag doorlaat

fÍlter zÍet er

als

volgt uÍt

:

Analoog Laag

doorlaat

filter :

F(s)

=

I

e=IJ

_cc

=2.r.f

s+a

HÍerbiJ

is f

de afkapfrequentle

(-3 dB).

c

De btJbehorende

z

getransformeerde

overdrachtsfr:nctle

zÍet

(32)

F(z)--

z

T-1.f0-4Bec

" -

a-^T

De

foruule

Ín

het

fonaat

wat

het

progrmna

FIL

wenst

_{, ztet er}

als

volgt

ult

F(z)

=

I

,

_

"-aT"-l

D€

volgende

afkapfrequentles

en

blJbehorende

overdrachtsfunctÍes

zlJn

gebrulkt.

f

Overdrachtsfunctie c 1

kHz

F(z)

--l-I -

0, 53349.2-L 500 Hz

F(z)

=__

I

I -

0 _,73040.2-I 25o

Hz F(")

=-l_-I -

O ,85464.2-I

Deze

3 fllters

zÍJn gebrulkt

voor de soorden

radlo

en huls,

dle

opgencmen

waren met een

spreker-nlcrofoon afstand

van

20 cn.

Het

resulteat

van de

toonhoogtenetlng

van de

orlglnele

rmorden,

en de

geschaalde

gefllterde

versí.es

ls te zlen ln

btJlage

3. De

fllterkarakterlstÍeken zlJn

ook opgenonen

tn

bÍJlage

3.

Het

bl1Jkt, dat

de

toonhoogteoetlng

niet

drastlsch

de

fout Ín

gaat,

en

btJ het

woord

huÍs

wordt

btj I

kHz fÍlterÍng, en

blJ 500 Hz fÍltertng

het

(33)

Laag

doorlaat fllter

_,

nethode 2

Ook

nu wordt

uÍÈgegaan

BilÍneaire

z

transfornatÍe

van hetzelfde analoge laagdoorlaat filter.

levert nu

:

F(z)

= 500 Hz -1

a.Tlz'

(2 +

a.T)

+

(a.T

-

2).r'L

De overdrachtsfuncties zien

er

nu

als volgt ult

: (hverdracht _sfunct_1e c

I

kHz 2.628

_-

L.372.2-r

F(z)=0.628*"-t

F(z)=0.314*r-'

2.314

_-

1.686.2-l

Deze

2 filters

zíJn gebrulkt voor

de woorden

redlo

en huls,

die

opgenomen

waren met een spreker-mLcrofoon

afstand

van

20 cn.

Het resultaat

van de

toonhoogtenetÍng

van

de

orlglnele

woorden,

en de

geschaalde

gefilterde

versÍes ls te zlen Ín

blJlage

4. De

fllterkarakterlstÍeken ztjn

ook

opgenomen

Ín

blJlage

4.

Ook

nu

Ís het

aanÈa1 toonhoogtefouten kleí.ner,

blj

500

Hz

flltering.

Een

afnme

van

de

hoge

frequentles vanaf

500 llz

bliJkt dus een

verbeterlng

van de

toonhoogteneter

op te

leveren.

I{aarechlJnltJk

zal dit nlet

opgaan

voor

een vrouwenst@. De

verschillen

(34)

5.3

HOOGDOORLAATFILTER

Er

is

tevens gekeken wat

het

effect Ís,

van een

eerste

orde hoog doorlaat

fÍlter,

op de

toonhoogteneting.

HlerbtJ

ls

nethode

2 gebrulkt,

oudat de

overdrachtsfunctÍe

nÍet

bandbegrensd

ls.

Hoog

doorlaat

filter

:

F(s)

= 6

a=rd-

=

2.n.f^

"-"

c

HlerbiJ

_'c

ts f

de afkapfrequentle.

Blllnealre z

transformatle

levert

:

F(z)

= 2-

2.2-I

(2+a.T)+(a.T

_-2).r-L

De volgende afkapfrequentles en blJbehorende overdrachtsfunctÍes zÍJn

gebruikt.

f

Overdrachtsfunctle c

lkHz

F(z)=2-2.2-L

2.628

-

1.372.2-I

50OHz F(z)=2-2.2-1

2.314

_-

1.686.2-1

25OHz F(z)-2-2.2-I

J

2 .157

-

L.843.2

Het

woord

huls,

wat

opgenomen was met een

spreker-nlcrofoon afstand

van

20 cm,

Ís

op deze manler gefllterd. Het

resultaet

van de toonhoogtenetÍng

van de

gefllterde,

geschaalde

versles

Ís

weergegeven

1n bÍJlage

5.

De

fllterkarakterlstÍeken zijn

ook opgenmen 1n

blJlage

5.

Het

bllJkt

dat

nu

het aantal

toonhoogtefouten toeneemt met een toenaDe van de

ftltertng.

(35)

5.4

SPECTRALE VERKLEURING

BIJ

KORTE MICROFOONAFSTAND

UÍt

de

lÍÈeratuur

_{[6] bfÍJkt}

dat

de Bpectrale

verkleurlng ten

gevolge van

een

korte

microfoonafstand neerkont op een

versterkÍng

van de

lage

tonen.

Dlt ls

voor

een afstand van

8

cm van

de

geluidsbron

tot

de

mÍcrofoon

Ín

grafiek 5.1

afgebeeld.

Als referentÍe

ls hier

een an-echoÍsche opnae Eet

een spreker-microfoon afstand van

I

meter gekozen. Van beide opnanen ziJn

de

sPectra bepaald. Door

de

spectra van belde opnanen op

elkaar

te

(aftrekken op decÍbel schaal), wordt

de

spectrale verkleurÍng

van

het spraakslgnaal,

ten

gevolge ven de opnaeafstand gevonden, waarblJ dus als

referentle

een opnameafstand van 1 meter

Ís

gekozen.

3aC-r-lld a ÍalIF.rr 6l

graflek 5.1

Spectrale

verkleurlng

op I cn afstand

Een spraakopname,

ln

een an-echolsche kamer opgenonen op een afstand van

I

meter,

Itas aanwezí.g. Door

dit

signaal

te fÍlteren

net

de

karakterlstÍek

van

grafiek

5.1, kan een

opnene

afstand

van

8 cn

geslmuleerd rrcrden. Dan

kan

er

een

vergellJking

getrokken worden tussen

het

aantal

toonhoogte-fouten

ln

beide gevallen.

Het

verschÍl

tn

aantal

toonhoogtefouten kan

volledlg

toegeschreven worden

aan de

spectrale verkleurÍng

door de geslmuleerde

korte

opnaoe afstand.

Utt

grafiek 5.1

blijkt,

dat

tussen lO0 en 200 Hz de

ftlter

karakterÍstiek

(36)

ïoJg.-?

It"^t

-aoJ\

betekent een tweede orde

fllter,

Eet

de

gestlleerde

fllterkerakterÍstlek,

afgebeeld

ín

grafiek

5.2.

Spectrale

verkleuring

rnanÍfesteert

zlch

dus Ín

het

frequentlegebled

tot

ongeveer 4OO Hz.

od9

t--1oJÁ 30

graftek 5.2

ge

nÍ

I i I I aoo

.t-'c! óot ,l;

ll

ril

iil trl

-l-lJ

_lll .o l--.o oo t st Íl ee crofo

Ir

nd óo f1 sta _1 \o rde naf

Voor een

versterklng

I bij

fÍlter er

als

volgt ult

:

a

Ondat deze

overdrachtefunctí.e

gebrulkt,

om de

coËffÍctënten

te

een

Ís oneÍndig zlet het te

gebruÍken analoge

F(s)-(s+a)2

a-2.7.300

niet

bandbegrensd

is, rrcrdt

nethode

bepalen. Het

resultaat ls

dan :

F(z)

-

4.7895

-

7.g28g.1--L + 3.2gL5.2-2

-1

8.2' *

4.r-2

Omdat deze overdrechtsfunctLe een

versterking

oneíndlg heeft

dit fÍlter nlet

realLseerbaar. Daarm

wordt

nog een

filter

dit fÍlter

gezet,

rdat

een

karakterÍstlek

heeft,

zoals in

gestyleerd

afgebeeld

1s,

met een afkapfrequentle van 10

_,

20

voor

0

Hz

Ís

1n

serle

met

graflek

5.3 of. 40 Hz.