• No results found

Ethnisch clusteren in voormalige Sovjet russische persoonlijke naamnetwerken

N/A
N/A
Protected

Academic year: 2021

Share "Ethnisch clusteren in voormalige Sovjet russische persoonlijke naamnetwerken"

Copied!
81
0
0

Bezig met laden.... (Bekijk nu de volledige tekst)

Hele tekst

(1)

ETHNIC CLUSTERING IN FORMER SOVIET

RUSSIAN PERSONAL NAMING NETWORKS

W o r d c o u n t : 1 3 1 6 0 F e l i c i a a n D e P a l m e n a e r S t u d e n t n u m b e r : 0 0 9 0 2 6 3 0 S u p e r v i s o r : p r o f . d r . K o e n S c h o o r s C o - s u p e r v i s o r : T o m E e c k h o u t M a s t e r p r o e f v o o r g e d r a g e n t o t h e t b e k o m e n v a n d e g r a a d v a n : M a s t e r o f S c i e n c e i n d e A l g e m e n e E c o n o m i e A c a d e m i c y e a r : 2 0 1 9 - 2 0 2 0

(2)

P E R M I S S I O N

I d e c l a r e t h a t t h e c o n t e n t o f t h i s M a s t e r ’s D i s s e r t a t i o n m a y b e c o n s u l t e d a n d / o r r e p r o d u c e d , p r o v i d e d t h a t t h e s o u r c e i s r e f e r e n c e d .

F e l i c i a a n D e P a l m e n a e r

(3)

SAMENVATTING

T i t e l : E t n i s c h c l u s t e r e n i n v o o r m a l i g e S o v j e t R u s s i s c h e p e r s o o n l i j k e n a a m n e t w e r k e n O p d i t m o m e n t b e g i n t h e t o n d e r z o e k n a a r c o r r u p t i e e n d i s c r i m i n a t i e m e e r e n m e e r d a t a b r o n n e n t e g e b r u i k e n d i e b e s c h i k b a a r w o r d e n v o o r o n d e r z o e k e r s . V a a k b e v a t t e n d e z e e n k e l d e n a m e n v a n p e r s o n e n e n g e e n v e r d e r e i n f o r m a t i e o v e r d e e t n i c i t e i t . H e t d o e l v a n d e z e m a s t e r p r o e f i s d a n o o k o m t e o n d e r z o e k e n o f h e t k a n e n w e l k e m e t h o d e s h i e r v o o r k u n n e n g e b r u i k t w o r d e n o m o p b a s i s v a n n a m e n n a a r e t n i c i t e i t e n t e g a a n . I n d e z e m a s t e r p r o e f z a l d e f o c u s l i g g e n o p d e S o v j e t U n i e e n h e t h u i d i g e R u s l a n d . D a a r v o o r z i j n d e v o l g e n d e o n d e r z o e k s v r a g e n o n t w i k k e l d . A l l e r e e r s t w o r d t e r o n d e r z o c h t o f h e t m o g e l i j k i s o m R u s s i s c h e n a m e n t e c l u s t e r e n n a a r d e v e r s c h i l l e n d e e t n i c i t e i t e n . T e n t w e e d e w o r d t e r o n d e r z o c h t o f h e t m o g e l i j k i s o m v o o r s p e l l i n g e n t e m a k e n o p b a s i s v a n e n k e l e e n R u s s i s c h e n a a m . E n a l s d e r d e w o r d t e r o n d e r z o c h t o f e r v o o r d e l e n z i j n a a n h e t g e b r u i k v a n h e t p a t r o n i e m , w e l k e i n S l a v i s c h e l a n d e n e e n s t a n d a a r d d e e l i s v a n d e n a a m , e n g e b a s e e r d i s o p d e n a a m v a n d e v a d e r . H i e r v o o r z i j n e r t w e e m e t h o d e s o n t w i k k e l d . D e e e r s t e i s g e b a s e e r d o p h e t c l u s t e r e n v a n p e r s o n a l n a m i n g n e t w o r k s [1 9] . D e z e m e t h o d e m a a k t a a n d e h a n d v a n e e n l i j s t v o o r - e n a c h t e r n a a m p a r e n e e n a c h t e r n a a m g r a a f a a n . D a a r v o o r w o r d e n a c h t e r n a m e n v e r b o n d e n m e t a n d e r e a c h t e r n a m e n , d o -o r d a t d e a c h t e r n a m e n g e d e e l d e v -o -o r n a m e n h e b b e n , h -o e m e e r v -o -o r n a m e n e r g e d e e l d w o r d e n h o e g r o t e r h e t g e w i c h t v a n e e n s p e c i fi e k e a c h t e r n a a m - a c h t e r n a a m v e r b i n d i n g . D e a c h t e r n a a m g r a a f w o r d t m e t b e h u l p v a n c l u s t e r i n g s t e c h n i e k e n o m g e z e t i n g e m e e n s c h a p p e n v a n v e r b o n d e n a c h t e r n a -m e n . B i j d e z e g e -m e e n s c h a p p e n w o r d t e r d a n b e k e k e n t o t w e l k e e t n i c i t e i t d e z e b e h o r e n . D e t w e e d e m e t h o d e i s o n t w i k k e l d o p b a s i s v a n r e c u r r e n t e n e u r a l e n e t w e r k e n , w e l k e d e b a s i s v o r m e n v o o r d e e p l e a r n i n g . D e z e m o d e l l e n g e b r u i k e n d e v o o r n a a m , a c h t e r n a a m e n p a t r o n i e m a l s i n p u t v a n e e n n e u -r a a l n e t w e -r k . D e z e w o -r d e n d a n g e t -r a i n d m e t e e n d a t a s e t w a a -r d e e t n i c i t e i t v a n i e d e -r e n a a m g e k e n d i s . E n k e l e v e r s c h i l l e n d e m o d e l l e n w e r d e n o n t w i k k e l d , m a a r e e n m e e r w a a r d e h i e r b i j i s o m d e s t a m v a n d e p a t r o n i e m o o k a l s v o o r n a a m t e g e b r u i k e n i n h e t n e t w e r k . B e i d e m e t h o d e s w e r d e n d a n g e t e s t o p t w e e d a t a s e t s . D e e e r s t e d a t a s e t i s d a t a a f k o m s t i g v a n e e n w e b s i t e o v e r s l a c h t o f f e r s v a n p o l i t i e k g e w e l d d o o r d e S o v j e t s b i j h o u d w a a r z o w e l d e n a m e n a l s d e e t n i c i t e i t v a n e e n p e r s o o n b e s c h i k b a a r z i j n . O p b a s i s v a n d e z e d a t a s e t w e r d e n b e i d e m e t h o d e s o n t w i k k e l d . D e g r a a f g e b a s e e r d e m e t h o d e k a n d e d e e t n i c i t e i t b e p a l e n i n 1 5 , 9 8 % v a n d e g e v a l l e n . I n d i e n d e n a m e n d i e n i e t b e p a a l d k u n n e n w o r d e n z i j n m e e t e l l e n , s t i j g t d e c o r r e c t h e i d n a a r 5 4 , 1 2 % . H e t n e u r a a l n e t w o r k d a a r e n t e g e n k a n i n 7 2 , 2 5 % d e j u i s t e e t n i c i t e i t t o e w i j z e n a a n e e n n a a m . A l s e r v o o r b e i d e m e t h o d e s g e k e k e n w o r d t o f d e e t n i c i t e i t i n d e v i j f m e e s t w a a r s c h i j n l i j k e e t n i c i t e i t e n d a n i s e r e e n k a n s v a n 2 5 , 0 3 % b i j d e g r a f e n m e t h o d e e n 8 4 , 7 7 % a l s d e o n b e p a a l b a r e w e g l a t e n w o r d e n . V o o r h e t n e u r a l e n e t w e r k k r i j g 9 5 , 5 9 % . A l s e r g e k e k e n w o r d t h o e b e i d e p r e s t e r e n o p d e t w e e d e d a t a s e t d i e d e R u s s i s c h e s l a c h t o f f e r s v a n d e t w e e d e w e r e l d o o r l o g b e v a t , d a n z i j n d e v e r s c h i l l e n d u i d e l i j k e r . D e g r a f e n m e t h o d e k a n m a a r m e t e e n b e p e r k t a a n t a l n a m e n c l u s t e r s v o r m e n , m a a r d e z e z i j n d a n h o m o g e n e r d a n d e v o o r s p e l l i n g e n g e d a a n d o o r h e t n e u r a a l n e t w o r k .

(4)

FOREWORD

A f t e r g r a d u a t i n g a s a c o m p u t e r s c i e n c e e n g i n e e r . I w a n t e d t o l e a r n m o r e a b o u t h o w t h e e c o n o m y w o r k s , a n d h o w t o e c o n o m i c a c t o r s i n t e r a c t w h i c h e a c h o t h e r . O n e o f t h e m o r e m e m o r a b l e c o u r s e s w a s I n s t i t u t i o n a l E c o n o m i c s , l e c t u r e d b y p r o f . S c h o o r s , a n d g a v e a n o v e r v i e w h o w i n s t i t u t i o n s f o r m t h e w o r l d a r o u n d . T h e r e a s o n I c h o s e t h i s d i s s e r t a t i o n , w a s t h a t i t ’s s i t u a t e d o n t h e c r o s s r o a d s o f c o m p u t e r s c i e n c e a n d e c o n o m i c s , a n d p r o v i d e s a b u i l d i n g b l o c k t o f u r t h e r t h e r e s e a r c h i n c o r r u p t i o n a n d d i s c r i m i n a -t i o n , w h i c h i s o n e o f -t h e b i g g e s -t f r i c -t i o n s i n s o c i e -t y . D u r i n g t h e c r e a t i o n o f t h i s d i s s e r t a t i o n , t h e C O V I D - 1 9 e p i d e m i c h a p p e n e d w h i c h d i d n ’ t h a v e a b i g i m p a c t o n t h e r e s e a r c h t h a t n e e d e d t o b e d o n e , b u t s t i l l l i m i t e d t h e i n t e r a c t i o n s w i t h t h e s u p e r v i s o r s t o v i d e o m e e t i n g s . F i r s t I w i s h t o t h a n k m y s u p e r v i s o r p r o f e s s o r K o e n S c h o o r s , f o r h i s a d v i c e d u r i n g t h e c r e a t i o n o f t h i s d i s s e r t a t i o n a n d g i v i n g m e t h i s o p p o r t u n i t y . N e x t I w i s h t o g r e a t l y t h a n k m y c o - s u p e r v i s o r T o m E e c k h o u t f o r h i s c o n s i d e r a b l e s u p p o r t i n a l l a s p e c t s o f t h i s d i s s e r t a t i o n , t h e w e e k l y m e e t i n g s t h a t k e p t m e f o c u s e d o n t h e i m p o r t a n t g o a l s o f t h i s d i s s e r t a t i o n , a n d p r o o f r e a d i n g . F i n a l l y I w i s h l i k e t o t h a n k m y f r i e n d s a n d f a m i l y f o r s u p p o r t i n g m e , e s p e c i a l l y m y f r i e n d s o f t h e G h e n t S t u d e n t C o u n -c i l , t h e F l e m i s h U n i o n o f S t u d e n t s , a n d Z e u s . S o m e p e o p l e I e s p e -c i a l l y w a n t t o t h a n k a r e D r i e s f o r p r o o f r e a d i n g a n d m y g i r l f r i e n d A n n e l i e k e f o r s u p p o r t i n g m e e m o t i o n a l l y w h e n t i m e s g o t t o u g h . F e l i c i a a n D e P a l m e n a e r G h e n t , J u n e 2 0 2 0

(5)

CONTENTS

Samenvatting

I I

Foreword

I I I

1

Introduction

1

2

Literature study

3

2.1.

(Soviet)-Russian background

. . .

3

2.1.1.

Demographics

. . .

3

2.1.2.

Naming schemes

. . .

4

2.1.3.

Russification

. . .

5

2.2.

Classification of Names

. . .

5

2.2.1.

Naming Networks

. . .

5

2.2.2.

Machine learning

. . .

6

2.2.3.

Rule based and fuzzy matching

. . .

7

3

Data Exploration

9

3.1.

Memorial data

. . .

9

3.1.1.

Names

. . .

9

3.1.2.

Relationship between name and ethnicity

. . .

11

3.1.3.

Data cleaning

. . .

12

3.1.4.

Different samples of data

. . .

12

3.2.

World War II soldiers and victims

. . .

13

(6)

4.1.

Clustering personal naming networks

. . .

15

4.1.1.

Building a surname-surname graph and clustering it

. . .

15

4.1.2.

Choosing the software libraries

. . .

17

4.2.

Neural network

. . .

18

4.2.1.

Building blocks of neural networks

. . .

18

4.2.2.

The model

. . .

20

4.2.3.

Input data

. . .

23

4.2.4.

Model training, evaluation and optimization

. . .

24

5

Results

2 5

5.1.

Clustering personal naming networks

. . .

25

5.1.1.

How to take metrics?

. . .

25

5.1.2.

Memorial data

. . .

27

5.1.3.

World War II Data

. . .

35

5.2.

Neural network

. . .

36

5.2.1.

How to take measurements?

. . .

36

5.2.2.

Memorial data

. . .

37

5.2.3.

World War II Data

. . .

40

5.3.

Comparison

. . .

41

6

Discussion & Conclusion

4 4

6.1.

Main findings

. . .

44

6.2.

Naming networks vs neural networks

. . .

45

6.3.

Main shortcomings

. . .

45

6.4.

Future work

. . .

46

6.5.

Conclusion

. . .

47

Bibliography

4 8

A

Data exposition

A - 1

B

Results

B - 1

B.1.

Personal naming networks

. . .

B-1

B.2.

Neural network

. . .

B-2

(7)

LIST OF TABLES

2 . 1 S h o w i n g t h e e t h n i c i t y g r o u p s s t r u c t u r e o f t h e U S S R f r o m T h e P o p u l a t i o n o f t h e S o v i e t U n i o n [8] . . . 4 3 . 1 e t h n i c i t i e s i n M e m o r i a l D a t a b a s e ( t o p 3 0 ) . . . 9 3 . 2 T a b l e c o n t a i n i n g t h e d i f f e r e n t f r a c t i o n s b a s e d o n e t h n i c i t y s i z e . . . 1 2 3 . 3 T a b l e c o n t a i n i n g h o w t h e d i f f e r e n t e t h n i c i t i e s w e r e g r o u p e d . . . 1 3 5 . 1 T a b l e c o n t a i n i n g a n e x a m p l e o f a c o m m u n i t y . . . 2 6 5 . 2 S h o w i n g d i f f e r e n c e b e t w e e n u s i n g d i f f e r e n t p a r a m e t e r s K . . . 3 0 5 . 3 S u m m a r y t a b l e s h o w i n g t h e d i f f e r e n t T o p 1 a n d T o p 5 v a l u e s . . . 3 5 5 . 4 S h o w i n g t h e e v o l u t i o n o f t h e T o p 1 a n d T o p 5 f o r t h e m o d e l . . . 3 7 5 . 5 S h o w i n g t h e T o p 1 a n d T o p 5 f o r d i f f e r e n t s a m p l i n g m e t h o d s . . . 4 0 5 . 6 S h o w i n g t h e a v e r a g e e t h n i c i t y d i s t r i b u t i o n s . . . 4 1 5 . 7 S u m m a r y t h e d i f f e r e n t T o p 1 a n d T o p 5 v a l u e s , i n p e r c e n t . . . 4 2 A . 1 e t h n i c i t i e s i n M e m o r i a l D a t a b a s e . . . A - 2 B . 4 T o p 6 e t h n i c i t i e s f o r e v e r y r e g i o n , s a m p l e o f 1 0 . 0 0 0 n a m e s p e r r e g i o n . . . B - 2 B . 1 S h o w i n g t h e c o m m u n i t i e s o f t h e d e f a u l t s e t t i n g o f p e r s o n a l n a m i n g n e t w o r k s a l g o r i t h mB - 1 0 B . 2 S h o w i n g t h e c o m m u n i t i e s o f t h e d e f a u l t s e t t i n g o f p e r s o n a l n a m i n g n e t w o r k s a l g o r i t h mB - 1 1 B . 3 S h o w i n g t h e c o m m u n i t i e s o f t h e d e f a u l t s e t t i n g o f p e r s o n a l n a m i n g n e t w o r k s a l g o r i t h mB - 1 2

LIST OF FIGURES

2 . 1 M a p o f t h e U S S R S o u r c e : W i k i p e d i a [7] . . . 4 3 . 1 F i g u r e s s h o w i n g t h e f r e q u e n c y o f t h e n a m e s . . . 1 0 3 . 2 S h o w i n g o v e r l a p b e t w e e n e t h n i c i t i e s f o r v a r i o u s p a r t s o f t h e n a m e . . . 1 1 3 . 3 F i g u r e s s h o w i n g t h e f r e q u e n c y o f t h e n a m e s . . . 1 4 4 . 1 S i m p l e l i n e a r l a y e r w i t h 4 i n p u t s a n d 3 o u t p u t s . . . 1 9 4 . 2 A s i m p l i fi e d G R U l a y e r , s h o w i n g i t ’s i n p u t , o u t p u t a n d p o s s i b i l i t y t o r e s e t . . . 1 9 4 . 3 B a s i c m o d e l : s h o w i n g t h e d i f f e r e n t l a y e r s . . . 2 1

(8)

4 . 4 M u l t i p l e m o d e l : s h o w i n g t h e d i f f e r e n t l a y e r s . . . 2 1 4 . 5 A d v a n c e d m o d e l : s h o w i n g t h e d i f f e r e n t l a y e r s . . . 2 2 4 . 6 F i n a l m o d e l : s h o w i n g t h e d i f f e r e n t l a y e r s . . . 2 3 5 . 1 C l u s t e r e d s u r n a m e g r a p h i n t h e d e f a u l t s e t t i n g . . . 2 8 5 . 2 S h o w i n g fi v e l a r g e s t e t h n i c i t i e s p e r c o m m u n i t y . . . 2 9 5 . 3 C o n f u s i o n m a t r i c e s o f t h e d e f a u l t s e t t i n g . . . 2 9 5 . 4 C o n f u s i o n m a t r i c e s c o m p a r i n g K = 1 & K = 1 0 0 . . . 3 0 5 . 5 C o n f u s i o n m a t r i c e s o f t h e e q u a l w e i g h t s a m p l e m e t h o d . . . 3 1 5 . 6 S h o w i n g t h e c o m m u n i t i e s w h e n c l u s t e r i n g t o t h e fi r s t n a m e . . . 3 2 5 . 7 C o n f u s i o n m a t r i c e s w h e n u s i n g t h e fi r s t n a m e . . . 3 2 5 . 8 C o n f u s i o n m a t r i c e s w h e n u s i n g t h e w h o l e d a t a s e t . . . 3 3 5 . 9 C o n f u s i o n m a t r i c e s w h e n u s i n g s a m p l e o n l y s m a l l c o m m u n i t i e s . . . 3 4 5 . 1 0 C o n f u s i o n m a t r i c e s w h e n u s i n g m a c r o g r o u p s ( 5 7 , 4 6 % k n o w n ) . . . 3 5 5 . 1 1 C o n f u s i o n m a t r i c e s s h o w i n g t h e e v o l u t i o n o f t h e m o d e l . . . 4 2 5 . 1 2 C o n f u s i o n m a t r i c e s s h o w i n g t h e e v o l u t i o n o f t h e m o d e l . . . 4 3 B . 1 P i e s h o w i n g t h e d i f f e r e n t c o m m u n i t i e s f o r t h e d e f a u l t s e t t i n g w i t h K = 1 . . . B - 1 B . 2 P i e s h o w i n g t h e d i f f e r e n t c o m m u n i t i e s f o r t h e d e f a u l t s e t t i n g w i t h K = 1 0 0 . . . .B - 1 3 B . 3 P i e s h o w i n g t h e d i f f e r e n t c o m m u n i t i e s w h e n u s i n g a n e q u a l l y w e i g h t e d d a t a s e t . . .B - 1 4 B . 4 P i e s h o w i n g t h e c o m m u n i t i e s w h e n u s i n g n o fi l t e r s . . . .B - 1 5 B . 5 P i e d i a g r a m s h o w i n g t h e c o m m u n i t i e s w h e n u s i n g o n l y t h e s m a l l c o m m u n i t i e s . . .B - 1 6 B . 6 P i e d i a g r a m s h o w i n g t h e c o m m u n i t i e s w h e n t a k i n g r e l a t e d e t h n i c i t i e s i n t o o n e g r o u pB - 1 7 B . 7 P i e d i a g r a m s h o w i n g t h e c o m m u n i t i e s w h e n i n s p e c t i n g t h e m u s i n g t h e M e m o r i a l d a t aB - 1 8 B . 8 P i e d i a g r a m s h o w i n g t h e c o m m u n i t i e s o f t h e W o r l d W a r I I d a t a u s i n g t h e b i r t h r e g i o n f r o m t h e W o r l d W a r I I D a t a s e t . . . .B - 1 9 B . 9 M a t r i x s h o w i n g t h e p r e d i c t e d e t h n i c i t i e s d i s t r i b u t i o n s p e r r e g i o n f o r t h e W o r l d W a r I I u s i n g t h e n e u r a l n e t w o r k m o d e l . . . .B - 2 0

LIST OF ACRONYMS

G R M G a t e d R e c u r r e n t U n i t U S S R U n i o n o f S o v i e t S o c i a l i s t R e p u b l i c s W W I I S e c o n d W o r l d W a r U S S R U n i o n o f S o v i e t S o c i a l i s t R e p u b l i c s N N N e u r a l N e t w o r k L S T M L o n g S h o r t t e r m M e m o r y

(9)

1. INTRODUCTION

I n R u s s i a m o r e a n d m o r e d a t a b e c o m e s a v a i l a b l e t o t h e p u b l i c a b o u t g o v e r n m e n t o p e r a t i o n s , i n s t i t u -t i o n s a n d p e o p l e . A p o s s i b l e a v e n u e -t o u s e -t h i s d a -t a i s -t o fi n d c l u e s a n d e v i d e n c e o f d i s c r i m i n a -t i o n , c o r r u p t i o n a n d f o u l p l a y , c o m m i t t e d b y g o v e r n m e n t o f fi c i a l s a n d t h e b r o a d e r c o m m u n i t y . R e s e a r c h o n t h e s e d a t a c a n f o r e x a m p l e r e v e a l h o w p o l i c y a n d i t s e x e c u t i o n d i f f e r s b e t w e e n p e o p l e o f d i f f e r -e n t -e t h n i c i t i -e s , s u c h a s t h -e S t o p - a n d - F r i s k b y N -e w Y o r k C i t y p o l i c e , w h e r e r a c i a l b i a s o c c u r r e d . [9] . I t i s k n o w n t h a t c o r r u p t i o n a n d d i s c r i m i n a t i o n h a s a n e c o n o m i c i m p a c t o n m i n o r i t i e s [2 3] . S o r e s e a r c h t o d i s c r i m i n a t i o n c a n r e d u c e t h e s e n e g a t i v e e x t e r n a l i t i e s . T h i s p a p e r w i l l f o c u s m a i n l y o n R u s s i a a n d i t ’s s u r r o u n d i n g f o r m e r - S o v i e t n e i g h b o r s . F o r o n e t h e R u s s i a p o p u l a t i o n i s v e r y e t h n i c a l l y d i v e r s e , c o n t a i n i n g a l o t o f m i n o r i t i e s . A n o t h e r t h i n g t h a t h a p -p e n e d i s t h a t d u r i n g t h e 1 9 9 0 s a n d e a r l y 2 0 0 0 s , C h e c h e n t e r r o r i s t s e x e c u t e d t e r r o r i s t a t t a c k s a g a i n s t c i v i l i a n t a r g e t s i n R u s s i a . T h e i r g o a l w a s i n d e p e n d e n c e f o r C h e c h n y a w h i c h i s a n a u t o n o m o u s r e -g i o n . O n e o f t h e a t t a c k s c a r r i e d o u t b y t h e C h e c h e n t e r r o r i s t s w a s t h e h o s t a -g e t a k i n -g o f a s c h o o l i n B e s l a n o n t h e 1 S e p t e m b e r 2 0 0 4 . W h i c h e n d e d w i t h 3 7 2 p e o p l e k i l l e d a n d 7 4 7 p e o p l e w o u n d e d [2 5] . A q u e s t i o n t h a t a r i s e s f r o m t h i s i s h o w t h e p e r c e p t i o n o f t h e p o p u l a t i o n o f R u s s i a c h a n g e d a g a i n s t t h e C h e c h e n p e o p l e a n d o t h e r m i n o r i t i e s i n t h e a f t e r m a t h o f t h e s e t e r r o r i s t a t t a c k s . A n d i f t h a t l e d t o a n i n c r e a s e d d i s c r i m i n a t i o n a g a i n s t m i n o r i t i e s . U s i n g t h e c u r r e n t s t a t e o f t h e a r t a l g o r i t h m s t o d e t e c t c o m m u n i t i e s i n a p o p u l a t i o n a r e n o t y e t m o d -i f-i e d f o r u s e o n R u s s i a n n a m i n g s c h e m e s [2 9] . O t h e r m e t h o d s t h a t e x i s t u s e m a c h i n e l e a r n i n g a p -p r o a c h e s t o c l a s s i f y n a m e s b u t d o s o i n v e r y b r o a d e t h n i c g r o u -p s t h a t c l a s s i f y a l l -p e o -p l e w o r l d w i d e i n t o o n l y 1 4 g r o u p s . [1 6] . D a t a s e t s c a n b e f o u n d o n l i n e c o n t a i n i n g d a t a o n c a r s s t o p p e d b y t h e R u s s i a n p o l i c e f o r r a n d o m i n s p e c t i o n s . T h e s e d a t a s e t s o n l y c o n t a i n t h e n a m e o f t h e p e r s o n a n d t h e r e a s o n o f t h e s t o p . T o t e s t t h a t c e r t a i n m i n o r i t y g r o u p s g e t s t o p p e d m o r e o f t e n t h a n o t h e r g r o u p s t h e e t h n i c i t y o f t h e g r o u p t h a t g e t s s t o p p e d n e e d s t o b e p r e d i c t e d a n d c o m p a r e d t o t h e c o m m o n g r o u p . T h e fi r s t a i m o f t h i s i s t o fi n d o u t h o w w e l l a g r o u p o f R u s s i a n p e o p l e c a n b e s e p a r a t e d i n t h e i r c o r r e c t e t h n i c i t y g r o u p ? T h e n e x t g o a l i s t o d e t e r m i n e i f i t ’s p o s s i b l e t o p r e d i c t t h e e t h n i c i t y o f a p e r s o n , u s i n g o n l y i t s n a m e . T h e fi n a l i n t e n t i s t o d e t e r m i n e i f u s i n g t h e p a t r o n y m i m p r o v e s t h e p r e v i o u s t w o q u e s t i o n s , w h i c h i s m a n d a t o r y i n R u s s i a . T o d i s c o v e r t h e a n s w e r s t o t h e s e q u e s t i o n s , t w o m e t h o d s a r e d e v e l o p e d t o c l a s s i f y p e o p l e b a s e d o n

(10)

t h e i r n a m e s . T h e fi r s t o n e u s e s p e r s o n a l n a m i n g n e t w o r k s [1 9] t o c l u s t e r p e o p l e i n t o c o m m u n i t i e s w h i c h i s a n u n s u p e r v i s e d m e t h o d , a n d t e l l s u s s o m e t h i n g a b o u t t h e p o p u l a t i o n . W h e r e a s t h e o t h e r

m e t h o d u s e s s u p e r v i s e d m a c h i n e l e a r n i n g m e t h o d s t o p r e d i c t t h e e t h n i c i t y b a s e d o n a n a m e , a n d

(11)

2. LITERATURE STUDY

T h i s c h a p t e r s t a r t s w i t h a b a c k g r o u n d o n t h e d i v e r s e p o p u l a t i o n o f S o v i e t U n i o n , t h e n a m e s o f t h e s e p e o p l e a r e u s e d t o b u i l d n a m i n g n e t w o r k s . T h i s p r o d u c e s a n o v e r v i e w o f t h e e t h n i c i t i e s u s e d , a n d t h e n a m i n g s c h e m e s u s e d b y t h e s t a t e . T h i s c h a p t e r e n d s w i t h s t a t e o f t h e a r t r e s e a r c h o f c l a s s i f y i n g n a m e s , b o t h p e r s o n a l n a m i n g n e t w o r k s a n d o t h e r s t r a t e g i e s t o c l a s s i f y n a m e s .

2.1. (Soviet)-Russian background

F i r s t t h e s t r u c t u r e a n d e t h n i c i t i e s i n t h e U n i o n o f S o v i e t S o c i a l i s t R e p u b l i c s ( U S S R ) w i l l b e e x p l a i n e d , a n d t h e l a y o u t o f t h e n a m i n g s c h e m e s u s e d b y t h e S o v i e t g o v e r n m e n t . T h e S o v i e t U n i o n w a s a f e d e r a t i o n o f 1 5 S o v i e t R e p u b l i c s , i n N o r t h e r n a n d E a s t e r n E u r o p e a s w e l l a s i n N o r t h e r n A s i a . T h e b i g g e s t a n d m o s t p o w e r f u l o f t h e s e R e p u b l i c s w a s t h e R u s s i a n S o v i e t F e d -e r a t i v -e R -e p u b l i c . T h i s r -e p u b l i c w a s f o r m -e d a f t -e r t h -e S o c i a l i s t R -e v o l u t i o n o f 1 9 1 7 , a n d t h -e f o l l o w i n g c i v i l w a r w h i c h c o n c l u d e d i n 1 9 2 2 w i t h f o r m a t i o n o f t h e S o v i e t U n i o n . F i g u r e 2 . 1 s h o w s a m a p o f t h e U S S R .

2.1.1. Demographics

I n t h i s t h e s i s , a s s e e n l a t e r , t h e d a t a w e w i l l b e u s i n g c o m e s f r o m t w o d a t a s e t s , t h e fi r s t o n e i n -c l u d e s t h e p e o p l e w h o f o u g h t i n W o r l d W a r I I ( 1 9 4 0 - 1 9 4 5 ) a n d t h e s e c o n d d a t a s e t i s c o m p o s e d o f t h e v i c t i m s o f t h e S o v i e t p o l i t i c a l t e r r o r ( 1 9 2 2 - 1 9 8 0 ) . T o g i v e s o m e b a c k g r o u n d o v e r t h e e t h n i c c o m p o s i t i o n o f R u s s i a a b o o k f r o m 1 9 4 6 p u b l i s h e d b y t h e L e a g u e o f N a t i o n s : T h e P o p u l a t i o n o f t h e S o v i e t U n i o n [8 ] i s u s e d . W h e n l o o k i n g i n t o t o t h e o v e r a l l p i c t u r e o f t h e e t h n i c i t i e s i n t h e U S S R ( p a g e 5 1 [8] ) , t h r e e l a r g e e t h n i c g r o u p s a r e f o u n d , t h e h i s t o r i c a l l y E u r o p e a n R u s s i a n p e o p l e ( 8 7 % ) , h i s t o r i c a l l y a s s o c i a t e d w i t h t h e C a u c a s u s a n d t h e g r o u p s a s s o c i a t e d w i t h c e n t r a l A s i a , S t e p p e s a n d S i b e r i a . T a b l e 2 . 1 g i v e s a n o v e r v i e w o f t h e d i f f e r e n t e t h n i c i t i e s i n e a c h g r o u p . A n o t h e r i n t e r e s t i n g f a c t f r o m t h e b o o k i s t h a t m o s t s m a l l e r e t h n i c i t i e s a r e s t i l l s i t u a t e d i n t h e i r n a t i v e l a n d s , w h e r e a s R u s s i a n s h a v e s p r e a d t h r o u g h o u t t h e w h o l e o f t h e U S S R . F i n a l l y a n o t h e r i m p o r t a n t

(12)

F i g u r e 2 . 1 . : M a p o f t h e U S S R S o u r c e : W i k i p e d i a [7] E t h n i c g r o u p s E t h n i c i t i e s i n g r o u p E u r o p e a n R u s s i a n p e o p l e ( 8 7 % ) D o m i n a n t : R u s s i a n ( 5 3 % ) a n d U k r a i n i a n ( 2 1 % ) B e l o r u s s i a n ( 3 % ) , J e w i s h ( 2 % ) , T a t a r ( 2 % ) , C h u v a s h ( 0 . 8 % ) , B a s h k i r ( 0 . 5 % ) a n d B a l t i c s ( 0 . 4 % ) C a u c a s u s p e o p l e ( 5 % ) G e o r g i a n ( 1 . 2 % ) , A r m e n i a n ( 1 % ) , T u r k i c ( 1 % ) ( K u m y k , B a l k a r ) , I r a n i a n ( K u r d i s h ) a n d J a p h e t i c ( 0 . 5 % ) ( C h e c h e n a n d K a b a r d i a n ) C e n t r a l A s i a , S t e p p e s a n d S i b e r i a ( 8 % ) T u r k i c ( 6 % ) ( K a z a k h , U z b e k ) , I r a n i a n ( 1 % ) , M o n g o l i a n ( 0 . 2 5 % ) ( B u r y a t a n d K a l m y k ) a n d o t h e r A s i a n n a t i o n a l i t i e s ( 0 . 1 4 % ) ( K o r e a n a n d C h i n e s e ) T a b l e 2 . 1 . : S h o w i n g t h e e t h n i c i t y g r o u p s s t r u c t u r e o f t h e U S S R f r o m T h e P o p u l a t i o n o f t h e S o v i e t U n i o n [8] f a c t o r i s t h e r e l i g i o u s h e r i t a g e , w h e r e a s R u s s i a n s a n d U k r a i n i a n s a r e O r t h o d o x C a t h o l i c , p e o p l e w i t h T u r k i c , I r a n i a n o r J a p h e t i c h e r i t a g e a r e m o s t l y M u s l i m s , a n d t h e M o n g o l i a n h e r i t a g e s t i l l c o n t a i n s p e o p l e p r a c t i c i n g B u d d h i s t b e l i e v e s .

2.1.2. Naming schemes

T h e U S S R , a s s t i l l i n c u r r e n t d a y R u s s i a , u s e d a t h r e e n a m e s b a s e d n a m i n g s c h e m e . I t c o n s i s t e d o f a fi r s t n a m e o r g i v e n n a m e ( I m y a i n R u s s i a n ) , s u r n a m e ( F a m i l i y a ) a n d a p a t r o n y m ( O t c h e s t v o ) . W h e r e a s m o s t W e s t e r n E u r o p e a n n a m i n g s c h e m e s o n l y u s e t h e g i v e n n a m e a n d s u r n a m e . T h e r e s e a r c h l i s t e d l a t e r o n i n t h i s l i t e r a t u r e s t u d y d o e s n ’ t u s e t h e p a t r o n y m i n t h e i r a l g o r i t h m s , u n l e s s e x p l i c i t l y s t a t e d .

(13)

A n o t h e r t h i n g t h a t i s d o n e i s t h e u s e o f s u f fi x e s i n t h e s u r n a m e s a n d p a t r o n y m s . A n o v e r v i e w c a n b e f o u n d i n t h e n e x t p a r a g r a p s . I m y a o r fi r s t n a m e : n a m e g i v e n t o a p e r s o n , n o s u f fi x e s a r e a d d e d . F a m i l y a o r s u r n a m e : o f t e n d i f f e r e n t s u f fi x b e t w e e n m a s c u l i n e a n d f e m i n i n e f o r m e . g . - о в ( - o v ) a n d - о в а ( - o v a ) . O t c h e s t v o o r p a t r o n y m : c r e a t e d f r o m t h e f a t h e r s n a m e b y a d d i n g a s u f fi x , - о в и ч ( - o v i c h ) f o r a s o n a n d - о в н а ( - o v n a ) f o r a d a u g h t e r .

2.1.3. Russification

R u s s i fi c a t i o n i s t h e p r o c e s s w h e r e e t h n i c i t i e s g i v e u p t h e i r o w n t r a d i t i o n s , l a n g u a g e , b e l i e f s y s t e m s , n a m i n g s c h e m e s a n d i n s t i t u t i o n s t o b e c o m e m o r e R u s s i a n - l i k e . T h i s w a s a p r o c e s s w h i c h w a s a l r e a d y s t a r t e d d u r i n g t h e 1 8 6 0 s b y t h e f o r m e r R u s s i a n E m p i r e . [6] I t ’s p r i m a r y g o a l w a s t o c h a n g e t h e h e r i t a g e o f t h e p e o p l e l i v i n g i n t h e p e r i p h e r y t o b e m o r e R u s s i a n , a n d l e s s l i k e t h e c o u n t r i e s a c r o s s t h e b o r d e r . F o r e x a m p l e t h e B e l o r u s s i a n p e o p l e w h i c h d i d h a v e a s i g n i fi c a n t P o l i s h h e r i t a g e . T h e S o v j e t U n i o n d i d n ’ t s t o p t h i s p o l i c y a l t h o u g h o f fi c i a l l y i t w a s a m u l t i - l i n g u a l n a t i o n , R u s s i a n w a s t h e c o m m o n s e c o n d l a n g u a g e a n d u s e d a s t h e l i n g u a f r a n c a b y a d m i n i s t r a t i o n s , s c i e n c e a n d m i l i -t a r y . [1 0] A l s o t h e R u s s i a n n a m e s b e c a m e m o r e w i d e l y u s e d i n t h e S o v i e t U n i o n . [1 0,2 4] A f t e r t h e c o l l a p s e o f t h e S o v i e t U n i o n d i d c h a n g e a n d s o m e e t h n i c i t i e s o n c e a g a i n t u r n e d t o t h e i r o r i g i n s . T h i s h a s b e e n d e s c r i b e d i n t h e B a l t i c s t a t e s [1 0] a n d i n T a t a r s t a n [2 8] .

2.2. Classification of Names

T h e r e e x i s t n u m e r o u s s t r a t e g i e s t o c l a s s i f y n a m e s t o e t h n i c i t i e s , w h i c h w i l l b e s h o w n i n t h e f o l l o w -i n g s e c t -i o n s . T h e t w o m o s t g e n e r a l l y u s e d a n d p r o m -i s -i n g s t r a t e g -i e s a r e t h e o n e s t h a t u s e n a m -i n g n e t w o r k s o r u s e m a c h i n e l e a r n i n g . A s r e c e n t a s 2 0 0 7 , i n a r e v i e w o f N a m e b a s e d e t h n i c i t y C l a s s i fi -c a t i o n b y P . M a t e o s [1 7] , i t ’s f o u n d t h a t r e s e a r c h e r s p r i m a r i l y u s e m a n u a l m e t h o d t o c l a s s i f y n a m e s o r m e t h o d s b a s e d o n s e a r c h i n g t h r o u g h r e f e r e n c e l i s t s . S o m e a l s o u s e d c o m p u t e r b a s e d a p p r o a c h e s , b u t t h e s e w e r e l i m i t e d t o b i n a r y c l a s s i fi c a t i o n o f o n e o r t w o e t h n i c i t i e s .

2.2.1. Naming Networks

N a m i n g n e t w o r k s a r e a g r a p h - b a s e d m e t h o d , w h e r e n a m e p a i r s o f t h e fi r s t n a m e a n d s u r n a m e a r e u s e d t o c r e a t e a w e i g h t e d n e t w o r k b e t w e e n s u r n a m e s b a s e d o n t h e c o - o c c u r r e n c e s o f t h e fi r s t

(14)

n a m e s b e t w e e n s u r n a m e s . U s i n g t h i s s u r n a m e s u r n a m e n e t w o r k c o m m u n i t y d e t e c t i o n a l g o r i t h m s c a n b e u s e d t o fi n d e t h n i c i t y c l u s t e r s w i t h i n t h e s e n e t w o r k s . T h e s e e x t r a c t e d c o m m u n i t i e s a r e t h e d i f f e r e n t ( g r o u p s o f ) e t h n i c i t i e s t h e a l g o r i t h m f o u n d . L a t e r o n i n t h i s s e c t i o n , a c l o s e r l o o k t o c o m -m u n i t y d e t e c t i o n a l g o r i t h -m s c a n b e f o u n d . T h i s i s u s e d a s t h e fi r s t m e t h o d t o fi n d t h e e t h n i c i t y s t r u c t u r e i n a p o p u l a t i o n a n d i s w o r k i n p e r s o n a l n a m i n g n e t w o r k s [1 9] b y P . M a t e o s . T h e e x a c t a l g o r i t h m a n d m o d i fi c a t i o n s m a d e i n t h i s t h e s i s w i l l b e e x p l a i n e d i n S e c t i o n 4 . 1. T h i s m e t h o d w a s a l s o u s e d i n “ E t h n i c i t y E s t i m a t i o n u s i n g f a m i l y n a m i n g p r a c t i c e s ” [1 4] t o p r e d i c t t h e e t h n i c i t y o n p o p u l a t i o n l e v e l , a n d c o m p a r e i t w i t h s e l f - a s s i g n e d e t h n i c i t y f r o m t h e U K c e n s u s d a t a . I n t h i s p a p e r t h e y o n l y u s e 1 0 d i f f e r e n t e t h n i c i t i e s t o c o v e r a l l e t h n i c i t i e s i n t h a t o c c u r i n t h e p o p u l a t i o n o f t h e U K , w h i c h i s v e r y d i v e r s e .

Community detection in graphs

C o m m u n i t y d e t e c t i o n i s t h e fi n a l s t e p i n t h e N a m i n g n e t w o r k a l g o r i t h m w h e r e t h e y h a v e t o fi n d t h e b e s t p o s s i b l e w a y t o c l u s t e r a g r a p h i n a n u m b e r o f c o m m u n i t i e s , w h i c h a r e m o r e d e n s e l y c o n n e c t e d w i t h i n t h a n w i t h t h e o t h e r n o d e s . T h e M a t e o s , e t a l . 2 0 1 1 [1 9] p a p e r p r o p o s e s t h e u s e o f F a s t C o m -m u n i t y a n d c o m p a r e d i t t o W a l k t r a p a n d L a b e l p r o p a g a t i o n , w h e r e i t o u t p e r f o r m e d t h e m b o t h o n c l u s t e r i n g c a p a b i l i t i e s a n d s p e e d . R e a d i n g t h e F a s t C o m m u n i t y p a p e r [5 ] , i t w a s c l e a r t h a t t h i s c l a s s o f a l g o r i t h m s w e r e a c t i v e l y d e v e l o p e d , a n d u s i n g t h e f a c t t h a t t h e p a p e r w a s f r o m 2 0 0 4 , a s e a r c h w a s c o n d u c t e d t o fi n d a l g o r i t h m s t h a t c o u l d p e r f o r m b e t t e r . T h e L o u v a i n m e t h o d ( 2 0 0 8 ) [3] w a s f o u n d , w h i c h i m p r o v e d u p o n t h e F a s t C o m m u n i t y - a l g o r i t h m . T h i s i m p r o v e m e n t w a s c o n fi r m e d b y a r e v i e w p a p e r o f 2 0 0 9 [1 5] . A n i m p r o v e m e n t o f t h e L o u v a i n m e t h o d w a s p u b l i s h e d i n 2 0 1 9 a n d i s c a l l e d t h e L e i d e n a l g o r i t h m [2 6] . T h i s a l g o r i t h m i m p r o v e s u p o n t h e L o u v a i n m e t h o d b y g u a r a n t e e i n g t h a t e a c h c o m m u n i t y h a s t o b e w e l l - c o n n e c t e d .

2.2.2. Machine learning

A n o t h e r w a y t o c l a s s i f y i s t o u s e m a c h i n e l e a r n i n g a l g o r i t h m s , w h i c h r e q u i r e s a s e t o f n a m e s w i t h a k n o w n e t h n i c i t y i n o r d e r t o t r a i n a n d v e r i f y t h e m o d e l s . D i f f e r e n t a p p r o a c h e s f o r t h i s e x i s t . F i r s t a n o l d e r m e t h o d w h i c h u s e s d e c i s i o n t r e e s i s d e s c r i b e d , l a t e r o n t h e n e w e r m e t h o d s b a s e d o n r e c u r r e n t n e u r a l n e t w o r k s a r e s h o w n .

(15)

Decision trees

T h e c l a s s i c w a y m a c h i n e l e a r n i n g w a s u s e d t o s o l v e t h e s e k i n d o f p r o b l e m s w a s b y u s i n g d e c i s i o n t r e e s w h i c h c a n b e m o s t e a s i l y v i s u a l i z e d a s a u t o m a t i c a l l y g e n e r a t e d fl o w c h a r t s , w h e r e a n a m e f o l l o w s a p a t h i n t h e c h a r t . T h e a d v a n t a g e o f u s i n g a d e c i s i o n t r e e i s t h a t t h e g e n e r a t e d r u l e s c a n b e e a s i l y d i s c o v e r e d a n d v i s u a l i z e d , t h i s i s a l s o k n o w n a s a w h i t e b o x a l g o r i t h m . A n e a r l y e x a m p l e o f t h i s E . J a c k s o n e t a l . [1 3] f r o m 1 9 7 2 w h e r e t h e y u s e d a s i m p l e d e c i s i o n t r e e i n c o m b i n a t i o n w i t h s u r n a m e l i s t s t o b i n a r y c l a s s i f y H i s p a n i c p e o p l e i n t h e U n i t e d S t a t e s . A n i m p r o v e d v e r s i o n u s i n g t h i s m e t h o d w a s d e v e l o p e d b y A . A m b e k a r e t a l . [1] i n 2 0 0 9 w h e n t h e y u s e d d e c i s i o n t r e e s i n c o n j u n c t i o n w i t h h i d d e n M a r k o v m o d e l s t o c l a s s i f y p e o p l e f o u n d o n W i k i p e d i a i n 1 3 e t h n i c g r o u p s .

Neural networks

A n o t h e r w a y t o d i s c o v e r p a t t e r n s i n d a t a i s b y u s i n g d e e p l e a r n i n g w h i c h i s b a s e d o n n e u r a l n e t w o r k s . A n e u r a l n e t w o r k c a n b e v i s u a l i z e d a s a n e t w o r k o f l a y e r s . E a c h l a y e r c o n s i s t s o u t o f n o d e s w h i c h a r e c o n n e c t e d w i t h n o d e s i n t h e p r e v i o u s a n d n e x t l a y e r . T h e n o d e s h a v e a c t i v a t i o n f u n c t i o n w h i c h d e c i d e i f t h e y s e n d a s i g n a l , a n d t o w h i c h n o d e s i n t h e n e x t l a y e r t h e y s e n d a s i g n a l . T h e c o n n e c -t i o n s b e -t w e e n -t h e n o d e s d o c o n -t a i n w e i g h -t s s o -t h a -t i -t c a n d i v e r g e b e -t w e e n n o d e s . W h e n -t r a i n i n g a n e t w o r k , i t ’s t h e s e w e i g h t s t h a t g e t c h a n g e d . A s p e c i a l c a s e o f n e u r a l n e t w o r k i s t h e r e c u r r e n t n e u r a l n e t w o r k , w h i c h a l s o c o n t a i n s f e e d b a c k s o t h a t t h e n e t w o r k r e m e m b e r s t h e p r e v i o u s i n p u t s . J . L e e e t a l . [1 6] ( 2 0 1 7 ) u s e d a r e c u r r e n t n e u r a l n e t w o r k t o c l a s s i f y O l y m p i c r e c o r d h o l d e r s t o b o t h t h e i r h o m e c o u n t r i e s a n d t h e i r e t h n i c i t i e s , t h i s p a p e r i n s e r t e d t h e n a m e s w i t h t h r e e d i f f e r e n t m o d e s i n t h e n e t w o r k , i ) l e t t e r b y l e t t e r , i i ) b i g r a m s , s o t w o l e t t e r s a t a t i m e a n d i i i ) t r i g r a m s w h i c h c o n t a i n s t h r e e l e t t e r s a t a t i m e . T h i s p a p e r o n l y c o n t a i n e d 1 3 e t h n i c i t i e s t o c a t e g o r i z e t h e w h o l e w o r l d . T h i s s h o w e d p r o m i s i n g r e s u l t s , s o w h e n c l a s s i f y i n g t h e t o p 5 e t h n i c i t i e s c o n t a i n e d 9 8 % o f t h e t i m e t h e c o r r e c t e t h n i c i t y , a n d 8 4 % o f t h e t i m e t h e t o p c h o i c e o f t h e n e t w o r k w a s t h e c o r r e c t e t h n i c i t y . T h a t c h a n g e d w h e n l o o k i n g t o t h e n a t i o n a l i t i e s , o f w h i c h t h e d a t a s e t c o n t a i n e d 1 2 7 d i f f e r e n t o n e s , w h e r e o n l y 5 1 % o f t h e n a m e s w a s c o n t a i n e d w i t h i n t h e T o p 1 , a n d 8 1 % i n t h e T o p 5 .

2.2.3. Rule based and fuzzy matching

A n o t h e r s t r a t e g y t o t a c k l e t h i s p r o b l e m i s t o u s e a r u l e b a s e d s y s t e m w h i c h c l a s s i f y o n k n o w n f a c t s

s u c h a s t h a t a l o t o f A r a b i c n a m e s i n R u s s i a e n d w i t h - а л л а ( - a l l a ) , s u c h a s y s t e m i s i m p l e m e n t e d

f o r R u s s i a n n a m e s b y I . B e g t i n [2] a n d p u b l i s h e d o n G i t H u b , a s o f t w a r e s h a r i n g s i t e . T h i s r u l e - b a s e d

s y s t e m c l a s s i fi e s R u s s i a n p e o p l e i n 9 e t h n i c g r o u p s . O n l y f o r s i x e t h n i c g r o u p s r u l e s e x i s t , f o r n a m e s

(16)
(17)

3. DATA EXPLORATION

I n t h i s t h e s i s t w o d i f f e r e n t d a t a s e t s a r e u s e d . B o t h w e r e s c r a p e d a n d p r o v i d e d b y T o m E e c k h o u t . T h e fi r s t o n e i s a m e m o r i a l d a t a b a s e c o n t a i n i n g t h e v i c t i m s o f p o l i t i c a l t e r r o r i n t h e U S S R , t h e s e c -o n d d a t a s e t c o n t a i n s p r e d o m i n a n t l y t h e U S S R s o l d i e r s a n d v i c t i m s i n W o r l d W a r I I . T h i s c h a p t e r d e s c r i b e s w h a t t h a t d a t a s e t s c o n t a i n a n d h o w t h e y w i l l b e u s e d i n t h e l a t e r c h a p t e r s .

3.1. Memorial data

T h i s d a t a s e t c a n b e f o u n d o n

https://base.memo.ru

[3 0] , a n d c o n t a i n s o v e r 3 m i l l i o n p e o p l e a n d 1 4 1 d i f f e r e n t e t h n i c i t i e s . T h e 3 0 m o s t f r e q u e n t e t h n i c i t i e s a r e s h o w n i n T a b l e 3 . 1, a t a b l e w i t h a l l e t h n i c i t i e s c a n b e f o u n d i n T a b l e A . 1 o n p a g e A - 2. I n p r a c t i c e o n l y t h e e t h n i c i t i e s w i t h m o r e t h a n 4 0 0 0 p e o p l e a r e u s e d , w h i c h a r e s t i l l 2 6 d i f f e r e n t e t h n i c i t i e s . T h e e t h n i c i t i e s i n t h i s d a t a s e t a r e s e l f -d e c l a r e -d b y t h e p e r s o n i n t h i s -d a t a s e t . E t h n i c i t y c o u n t E t h n i c i t y c o u n t E t h n i c i t y c o u n t R u s s i a n 7 0 0 0 4 7 F i n n 1 5 1 3 0 M a r i 5 7 7 9 G e r m a n 1 1 8 8 8 7 E s t o n i a n 1 4 6 5 3 L i t h u a n i a n 5 5 4 8 P o l i s h 1 0 7 8 5 8 C h i n e s e 1 2 1 5 2 A r m e n i a n 5 2 2 3 B e l a r u s s i a n 7 8 6 4 5 C h u v a s h 1 1 8 8 9 K a r e l i a n 4 7 4 7 U k r a i n i a n 7 5 3 2 2 B a s h k i r 1 0 5 8 9 K a l m y k 4 4 4 9 B a l k a r 4 9 9 2 4 G r e e k 8 6 7 3 C h e c h e n 4 3 4 4 J e w i s h 4 8 7 4 7 B u r y a t 7 9 4 4 O s s e t i a n 3 6 7 1 T a t a r 4 0 0 1 2 M o r d v i n 6 8 0 8 G e o r g i a n 3 6 2 8 K a z a k h 3 6 0 5 7 K o r e a n 6 6 4 0 U d m u r t 3 3 5 1 L a t v i a n 1 8 0 2 3 K a b a r d i a n 5 9 3 3 K o m i 3 1 1 6 T a b l e 3 . 1 . : e t h n i c i t i e s i n M e m o r i a l D a t a b a s e ( t o p 3 0 )

3.1.1. Names

T h i s d a t a s e t h a s t h e f o l l o w i n g c o l u m n s f o r e a c h i n d i v i d u a l : fi r s t n a m e , s u r n a m e , p a r t r o n y m , e t h n i c i t y a n d s o m e c o l u m n s p r o v i d i n g m o r e i n f o t o t h e i r c o n v i c t i o n . O n l y t h e fi r s t f o u r c o l u m n s w e r e u s e d i n t h e a l g o r i t h m s t h a t f o l l o w , s o o n l y t h e s e w i l l b e d e s c r i b e d .

(18)

10

0

10

1

10

2

10

3

10

4

Frequency of surname (log)

10

1

10

2

10

3

10

4

10

5

# surname (log)

Histogram containing the frequency of surnames

( a ) H i s t o g r a m f r e q u e n c y o f s u r n a m e s

10

0

10

1

10

2

10

3

10

4

Frequency of first name (log)

10

2

10

3

10

4

10

5

# first name (log)

Histogram containing the frequency of first names

( b ) H i s t o g r a m f r e q u e n c y o f fi r s t n a m e s

10

0

10

1

10

2

10

3

10

4

Frequency of patronym (log)

10

2

10

3

10

4

10

5

# patronym (log)

Histogram containing the frequency of patronyms

( c ) H i s t o g r a m f r e q u e n c y o f p a t r o n y m F i g u r e 3 . 1 . : F i g u r e s s h o w i n g t h e f r e q u e n c y o f t h e n a m e s S u r n a m e : t h e d a t a s e t c o n t a i n s 3 7 6 . 3 9 2 u n i q u e s u r n a m e s , w i t h И в а н о в ( I v a n o v ) a s m o s t p o p u l a r w i t h 1 3 . 4 6 7 o c c u r r e n c e s . F i r s t n a m e : t h e d a t a s e t c o n t a i n s 1 6 9 . 1 4 7 u n i q u e fi r s t n a m e s , w i t h И в а н ( I v a n ) a s m o s t p o p u l a r w i t h 2 1 1 . 1 8 5 o c c u r r e n c e s . P a t r o n y m : t h e d a t a s e t c o n t a i n s 1 0 1 . 8 6 0 u n i q u e p a t r o n y m s , w i t h И в а н о в и ч ( I v a n o v i c h ) a s m o s t p o p u l a r w i t h 2 1 7 . 6 8 1 o c c u r r e n c e s . E t h n i c i t y : t h e d a t a s e t c o n t a i n s 1 4 1 d i f f e r e n t e t h n i c i t i e s , T a b l e 3 . 1 s h o w s t h e 3 0 m o s t c o m m o n e t h -n i c i t i e s . F i g u r e 3 . 1 o n p a g e 1 0 c o n t a i n s t h r e e h i s t o g r a m s f o r e a c h p a r t o f t h e n a m e , w h e r e t h e x - a x i s i s t h e n u m b e r o f t i m e s a n a m e i s u s e d , a n d t h e y - a x i s i s t h e t a l l y o f t h e n a m e s , b o t h a x e s a r e l o g a r i t h m i c a s a r e t h e s i z e s o f t h e b i n s . T h e s e g r a p h s s h o w t h a t p o p u l a t i o n i s a l m o s t e v e n l y d i v i d e d b e t w e e n u n i q u e n a m e s o r n a m e s t h a t a r e m o r e f r e q u e n t .

(19)

3.1.2. Relationship between name and ethnicity

T h e r e l a t i o n s h i p b e t w e e n n a m e a n d e t h n i c i t y c a n b e e x a m i n e d b y l o o k i n g i n t o t h e d i f f e r e n c e b e -t w e e n h o w n a m e s a r e u s e d i n e a c h e t h n i c i t y . T o e x a m i n e t h i s , t h e f o l l o w i n g c a l c u l a t i o n i s d o n e f o r e v e r y e t h n i c i t y , t h e f r a c t i o n o f i t s n a m e s t h a t a l s o o c c u r i n t h e o t h e r e t h n i c i t i e s . T h i s i s d o n e f o r t h e t h r e e n a m e p a r t s a n d t h e f u l l n a m e , a n d c a n b e f o u n d i n 3 . 2. T h e r o w s c o n t a i n f o r e a c h e t h n i c i t y h o w h a r d t h e o v e r l a p w i t h e t h n i c i t i e s i s . F o r e x a m p l e i f a n e t h n i c i t y c o n t a i n s a n “ I v a n ” , t h e n a l l “ I v a n ” w i l l s h o w u p . O n t h e d i a g o n a l a d i f f e r e n t c a l c u l a t i o n i s d o n e , w h i c h s h o w s t h e t o t a l f r a c t i o n t h a t t h e n a m e s o f t h a t e t h n i c i t y c o n t a i n .

Armenian Balkar Bashkir Belarussian Buryat Chechen Chinese Chuvash Estonian Finn German Greek Jewish Kabardian Kalmyk Karelian Kazakh Korean Latvian Lithuanian Mari Mordvin Polish Russian Tatar Ukrainian

Armenian

Balkar

Bashkir

Belarussian

Buryat

Chechen

Chinese

Chuvash

Estonian

Finn

German

Greek

Jewish

Kabardian

Kalmyk

Karelian

Kazakh

Korean

Latvian

Lithuanian

Mari

Mordvin

Polish

Russian

Tatar

Ukrainian

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

( a ) E t h n i c i t y m a t r i x f o r s u r n a m e s

Armenian Balkar Bashkir Belarussian Buryat Chechen Chinese Chuvash Estonian Finn German Greek Jewish Kabardian Kalmyk Karelian Kazakh Korean Latvian Lithuanian Mari Mordvin Polish Russian Tatar Ukrainian

Armenian

Balkar

Bashkir

Belarussian

Buryat

Chechen

Chinese

Chuvash

Estonian

Finn

German

Greek

Jewish

Kabardian

Kalmyk

Karelian

Kazakh

Korean

Latvian

Lithuanian

Mari

Mordvin

Polish

Russian

Tatar

Ukrainian

0.2

0.4

0.6

0.8

( b ) E t h n i c i t y m a t r i x f o r fi r s t n a m e s

Armenian Balkar Bashkir Belarussian Buryat Chechen Chinese Chuvash Estonian Finn German Greek Jewish Kabardian Kalmyk Karelian Kazakh Korean Latvian Lithuanian Mari Mordvin Polish Russian Tatar Ukrainian

Armenian

Balkar

Bashkir

Belarussian

Buryat

Chechen

Chinese

Chuvash

Estonian

Finn

German

Greek

Jewish

Kabardian

Kalmyk

Karelian

Kazakh

Korean

Latvian

Lithuanian

Mari

Mordvin

Polish

Russian

Tatar

Ukrainian

0.2

0.4

0.6

0.8

( c ) E t h n i c i t y m a t r i x f o r p a t r o n y m

Armenian Balkar Bashkir Belarussian Buryat Chechen Chinese Chuvash Estonian Finn German Greek Jewish Kabardian Kalmyk Karelian Kazakh Korean Latvian Lithuanian Mari Mordvin Polish Russian Tatar Ukrainian

Armenian

Balkar

Bashkir

Belarussian

Buryat

Chechen

Chinese

Chuvash

Estonian

Finn

German

Greek

Jewish

Kabardian

Kalmyk

Karelian

Kazakh

Korean

Latvian

Lithuanian

Mari

Mordvin

Polish

Russian

Tatar

Ukrainian

0.00

0.05

0.10

0.15

0.20

0.25

0.30

( d ) E t h n i c i t y m a t r i x f o r f u l l n a m e F i g u r e 3 . 2 . : S h o w i n g o v e r l a p b e t w e e n e t h n i c i t i e s f o r v a r i o u s p a r t s o f t h e n a m e U s i n g t h e m a t r i c e s f r o m F i g u r e 3 . 2 i t ’s c l e a r t h a t t h e s u r n a m e s ( F i g u r e 3 . 2 a) h a v e t h e m o s t p r o m i s -i n g p r o p e r t i e s t o s e p a r a t e t h e d i f f e r e n t c o m m u n i t i e s b a s e d o n n a m e s . T h e c l o s e l y r e l a t e d g r o u p s f r o m t h e p r e v i o u s c h a p t e r a r e a l s o v i s i b l e . F o r e x a m p l e t h e R u s s i a n c l u s t e r a n d t h e B a s h k i r a n d T a t a r . W h e n l o o k i n g t o t h e fi r s t n a m e s a n d p a t r o n y m s i t ’s c l e a r t h a t s o m e e t h n i c i t i e s w i l l b e m o r e e a s i l y s e p a r a t e d t h a n o t h e r s . W h e n l o o k i n g t o t h e f u l l n a m e , t h e r e i s a l m o s t n o o v e r l a p b e t w e e n t h e d i f f e r e n t e t h n i c i t i e s w h i c h m a k e s i t p o s s i b l e t o m a k e b e t t e r p r e d i c t i o n s b a s e d o n m u l t i p l e p a r t s a t o n c e , e x c e p t f o r t h e g r o u p ’ b r o a d ’ R u s s i a n s : C h u v a s h , K a r e l i a n , M a r i , M o r d v i n a n d R u s s i a n s .

(20)

S i z e F r a c t i o n < 4 . 0 0 0 0 % < 1 0 . 0 0 0 1 0 0 % < 5 0 . 0 0 0 1 5 % > = 5 0 . 0 0 0 9 % T a b l e 3 . 2 . : T a b l e c o n t a i n i n g t h e d i f f e r e n t f r a c t i o n s b a s e d o n e t h n i c i t y s i z e

3.1.3. Data cleaning

A s r e a d e a r l i e r t h e d a t a i s o b t a i n e d t h r o u g h s c r a p i n g o f w e b s i t e s w h e r e t h e r e c o r d s w e r e a d d e d m a n u a l l y , a n d n o t a l w a y s t h e s a m e k i n d o f s o u r c e m a t e r i a l c o u l d b e u s e d , s o n o t a l l c o l u m n s d o c o n t a i n u s e f u l i n f o r m a t i o n . S o t h e fi r s t s t e p w a s r e m o v i n g a l l t h e r o w s w h i c h d i d n ’ t c o n t a i n a n y o f t h e t h r e e n a m e p a r t s . T h e n e x t s t e p w a s t o c o n v e r t a l l t e x t t o l o w e r c a s e C y r i l l i c a n d r e m o v e a l l c h a r a c t e r s w h i c h a r e n o t p a r t o f t h e C y r i l l i c a l p h a b e t . T h e fi n a l s t e p w a s t o c h a n g e a l l n u l l v a l u e s t o e m p t y s t r i n g s t o m a k e s u r e t h a t a l l d a t a w a s a d d e d a s s t r i n g s t o t h e d a t a s e t .

3.1.4. Different samples of data

I n t h e n e x t c h a p t e r s , t h e a l g o r i t h m s p r e d o m i n a n t l y u s e s t h i s d a t a s e t , b u t a f t e r e x a m i n i n g i t i n t h e

p r e v i o u s s e c t i o n s , i t w a s c l e a r t h a t s o m e e t h n i c i t i e s w e r e a l o t m o r e p r e v a l e n t t h a n o t h e r s . D i f f e r e n t s a m p l e m e t h o d s w e r e u s e d t o c r e a t e d a t a s e t s c o n t a i n i n g a p p r o x i m a t e l y 1 5 0 . 0 0 0 n a m e s .

Default sample method

T h e d e f a u l t m e t h o d w a s t o t a k e a f r a c t i o n o f t h e d a t a b a s e d o n t h e s i z e o f t h e e t h n i c i t y , w i t h t h e f r a c t i o n s s h o w n i n T a b l e 3 . 2. T h e s e w e r e c h o s e n s o t h a t s m a l l e r o n e s h a d a b i g g e r s h a r e b u t t h a t s t i l l w h e r e b i g g e r t h a n t h e s m a l l e r o n e s , t h i s i s a l s o k n o w n a s d o w n s a m p l i n g .

Equal sizes

A n o t h e r s t r a t e g y w a s t o u s e e q u a l l y s i z e d s a m p l e s f r o m e v e r y e t h n i c i t y , t h i s w a s d o n e t o s e e t h e i m p a c t o f w h e n e v e r y e t h n i c i t y w e r e e q u a l l y r e p r e s e n t e d . I n p r a c t i c e 1 0 . 0 0 0 r a n d o m s a m p l e s w e r e t a k e n f r o m e a c h e t h n i c i t y , a n d i n s m a l l e r e t h n i c i t i e s t h e s a m e r o w w a s a l l o w e d t o o c c u r m u l t i p l e t i m e s , t h i s i s a l s o k n o w n a s u p s a m p l i n g .

(21)

Only smaller ethnicities

W h e n u s i n g t h e a l g o r i t h m s , w e s a w t h a t s o m e g r o u p s h a d a n o v e r l a p w i t h t h e l a r g e r g r o u p s , s o w e w a n t e d t o t a k e c l o s e r v i e w t o o n l y t h e s m a l l e r c o m m u n i t i e s , w h i c h w e r e a l s o m o r e i n t e r l i n k e d . T h i s s a m p l e r f o c u s e d o n t h e B a l k a r , K a b a r d i a n , C h e c h e n , T a t a r , B a s h k i r , K a z a k h , C h u v a s h a n d K a l m y k p e o p l e .

Combining Russian

A n o t h e r a p p r o a c h t h a t w a s a d d e d w a s t o g r o u p a l l R u s s o S l a v i c g r o u p s t o g e t h e r i n o n e R u s s i a n e t h -n i c i t y , i -n p r a c t i c e j o i -n i -n g t h e R u s s i a -n p e o p l e w i t h t h e p e o p l e o f C h u v a s h , K a r e l i a -n , M a r i a -n d M o r d v i -n a d d e d . A f t e r t h i s s t e p t h e d e f a u l t s a m p l e m e t h o d w a s u s e d .

Macro groups

T o t e s t h o w t h e a l g o r i t h m s w o u l d p e r f o r m w i t h b r o a d e r a n d m o r e d i v e r s e g r o u p s , e t h n i c i t i e s w e r e g r o u p e d o n a g r o u p - e t h n i c i t y l e v e l . S o t h e R u s s i a n s f r o m t h e p r e v i o u s m e t h o d w e r e k e p t , T a b l e 3 . 3 s h o w s h o w w h i c h e t h n i c i t i e s w e r e c o m b i n e d , t h e e t h n i c i t i e s n o t i n t h i s t a b l e s t a y e d a p a r t s u c h a s t h e A r m e n i a n s a n d C h e c h e n . S i z e F r a c t i o n R u s s i a n R u s s i a n , C h u v a s h , K a r e l i a n , M a r i , M o r d v i n a n d B e l a r u s s i a n T u r k i c B a l k a r , T a t a r , B a s h k i r , K a z a k h a n d K a b a r d i a n M o n g o l i a n K a l m y k a n d B u r y a t A s i a n C h i n e s e a n d K o r e a n B a l t i c L i t h u a n i a n , L a t v i a n , E s t o n i a n T a b l e 3 . 3 . : T a b l e c o n t a i n i n g h o w t h e d i f f e r e n t e t h n i c i t i e s w e r e g r o u p e d

3.2. World War II soldiers and victims

T h e s e c o n d d a t a s e t c o n t a i n s t h e W o r l d W a r I I s o l d i e r s a n d v i c t i m s f r o m t h e S o v i e t U n i o n , a l s o c a l l e d t h e g r e a t p a t r i o t i c w a r , a n d c o n t a i n s 2 1 . 7 3 3 . 1 2 8 p e o p l e . T h e d a t a s e t c o n t a i n s a l o t o f fi e l d s t h a t a r e n o t u s e d h e r e , b u t t h e u s e d fi e l d s a r e t h e s u r n a m e , fi r s t n a m e a n d p a t r o n y m . T h e d a t a s e t a l s o c o n t a i n s t h e b i r t h p l a c e o f t h e p e r s o n a s w e l l a s i n w h i c h c u r r e n t r e g i o n i t ’s l o c a t e d , b u t o n l y f o r 1 0 . 8 2 3 . 5 9 8 p e o p l e . S u r n a m e : t h e d a t a s e t c o n t a i n s 1 . 5 8 8 . 7 7 6 u n i q u e s u r n a m e s , w i t h И в а н о в ( I v a n o v ) a s m o s t p o p u l a r w i t h 1 4 5 . 9 4 3 o c c u r r e n c e s .

(22)

10

0

10

1

10

2

10

3

10

4

10

5

Frequency of surname (log)

10

1

10

2

10

3

10

4

10

5

10

6

# surname (log)

Histogram containing the frequency of surnames

( a ) H i s t o g r a m f r e q u e n c y o f s u r n a m e s

10

0

10

1

10

2

10

3

10

4

10

5

Frequency of first name (log)

10

1

10

2

10

3

10

4

10

5

# first name (log)

Histogram containing the frequency of first names

( b ) H i s t o g r a m f r e q u e n c y o f fi r s t n a m e s

10

0

10

1

10

2

10

3

10

4

10

5

10

6

Frequency of patronym (log)

10

0

10

1

10

2

10

3

10

4

10

5

# patronym (log)

Histogram containing the frequency of patronyms

( c ) H i s t o g r a m f r e q u e n c y o f p a t r o n y m F i g u r e 3 . 3 . : F i g u r e s s h o w i n g t h e f r e q u e n c y o f t h e n a m e s F i r s t n a m e : t h e d a t a s e t c o n t a i n s 5 6 9 . 1 7 7 u n i q u e fi r s t n a m e s , w i t h И в а н ( I v a n ) a s m o s t p o p u l a r w i t h 2 . 4 6 5 . 5 2 7 o c c u r r e n c e s . P a t r o n y m : t h e d a t a s e t c o n t a i n s 2 7 0 . 8 1 4 u n i q u e p a t r o n y m s , w i t h И в а н о в и ч ( I v a n o v i c h ) a s m o s t p o p u l a r w i t h 2 . 2 0 7 . 6 9 2 o c c u r r e n c e s .

(23)

4. NAMING & ETHNICITY: EXPLAINING THE METHODS

T h i s c h a p t e r e x p l a i n s h o w t h e t w o m e t h o d s w e r e d e v e l o p e d a n d t h e c o n c e p t s b e h i n d t h e s e . T h e

fi r s t m e t h o d u s e s a n u n s u p e r v i s e d t e c h n i q u e t h a t u s e g r a p h - b a s e d m e t h o d t o b u i l d a n d c l u s t e r i n t o

p e r s o n a l n a m i n g n e t w o r k s . T h e s e c o n d m e t h o d i s b a s e d o n n e u r a l n e t w o r k s . A n d g i v e s a p r i m e r

o n h o w n e u r a l n e t w o r k s w o r k a n d s h o w s t h e d i f f e r e n t s t e p s i n c r e a t i n g o n e .

4.1. Clustering personal naming networks

T h i s m e t h o d s i s h e a v i l y b a s e d o n “ E t h n i c i t y a n d P o p u l a t i o n S t r u c t u r e i n P e r s o n a l N a m i n g N e t w o r k s ” b y M a t e o s [1 9] . T h i s p a p e r u s e d t h e p e o p l e l i v i n g A u c k l a n d , N e w Z e a l a n d a s t h e i r d a t a s e t . I n t h i s t h e s i s t h e a l g o r i t h m g e t s a p p l i e d o n a d i f f e r e n t p o p u l a t i o n w h i c h u s e s C y r i l l i c s c r i p t . T h e b a s i s o f t h i s a l g o r i t h m i s a p a i r o f n a m e s a p e r s o n h a s , f o r e x a m p l e a fi r s t a n d s u r n a m e p a i r . T h e s u r n a m e i s u s u a l l y t h e f a t h e r ’s s u r n a m e . W h e r e a s t h e fi r s t n a m e i s c h o s e n b y t h e p a r e n t s , a n d a s s u c h t h e fi r s t n a m e i s a c o m p r o m i s e b e t w e e n t h e z e i t g e i s t a n d t r a d i t i o n a l l y c h o s e n n a m e s . [1 8] T h e g o a l o f t h i s a l g o r i t h m i s t o c r e a t e a n d u s e p e r s o n a l n a m i n g n e t w o r k s i n o r d e r t o fi n d a n u n d e r -l y i n g c o m m u n i t y s t r u c t u r e . T o m a k e d e s c r i b i n g t h e a l g o r i t h m s e a s i e r , t h e f o l l o w i n g g e n e r a l i z a t i o n s a r e m a d e . T h e fi r s t i s o n e i s t h a t t h e fi r s t n a m e s u r n a m e i s u s e d a s a n a m e p a i r . T h e s e c o n d g e n e r a l i z a t i o n i s t h a t a s u r n a m e -s u r n a m e n e t w o r k i -s b u i l d t o b e a b l e t o c l u -s t e r o n t h e -s u r n a m e -s . T h e -s e a l g o r i t h m -s c a n b e u -s e d o n o t h e r c o m b i n a t i o n s o f t w o n a m e p a r t s , w h i c h c a n b e c l u s t e r e d t o e a c h p a r t o f t h e n a m e p a i r . T h i s i s s e c t i o n i s s p l i t i n t o t w o p a r t s : t h e fi r s t d e s c r i b e s t h e a l g o r i t h m , w h e r e a s t h e s e c o n d p a r t d e s c r i b e s t h e t o o l s u s e d t o b u i l d t h i s m e t h o d .

4.1.1. Building a surname-surname graph and clustering it

T h e d i s c u s s i o n o f t h e a l g o r i t h m c o n s i s t s o f t h r e e p a r t s . T h e fi r s t i s p r e p a r i n g t h e s t e p s t a r t i n g f r o m

r a w fi r s t n a m e s u r n a m e p a i r d a t a a n d g o i n g t o a c l e a n e d n a m e p a i r s l i s t . T h i s c a n b e f o u n d i n t h e

(24)

s t e p i s t o c l u s t e r t h i s g r a p h i n t o s e p a r a t e c o m m u n i t i e s .

Calculating weights and building the graph

T h i s p a r t w i l l e x p l a i n t h e s t e p s n e e d e d t o c r e a t e a g r a p h , s t a r t i n g f r o m t h e c l e a n e d n a m e p a i r l i s t . T h e fi r s t s t e p i s t o fi l t e r t h e r e l e v a n t n a m e p a i r s a n d t o c a l c u l a t e t h e w e i g h t o f e v e r y u n i q u e n a m e p a i r . T h i s i s d o n e b y c o m b i n i n g t w o s t e p s f r o m t h e P . M a t e o s p a p e r [1 9] . T h e i r fi r s t a s s u m p t i o n w a s t h a t e v e r y n a m e p a i r c o m b i n a t i o n h a s t o o c c u r o n a h i g h e r r a t e t h a n o n e w o u l d e x p e c t i f a l l n a m e p a i r s w e r e c r e a t e d r a n d o m l y . T h e f o l l o w i n g F o r m u l a 4 . 1 i s u s e d , w i t h t h e c o n s t a n t K m a n a g i n g h o w m u c h m o r e t h a n e x p e c t e d i t n e e d s t o o c c u r . W h e n a n a m e p a i r i s m o r e c o m m o n t h a n e x p e c t e d b y c h a n c e , t h e n a m e p a i r g e t s w i t h h o l d , f o r t h e n e x t s t e p . T h i s e q u a t i o n s u s e

n

f

a s t h e n u m b e r o f fi r s t n a m e s , t h e

n

s

a s t h e n u m b e r o f s u r n a m e s a n d

n

f s

a s t h e f r e q u e n c y o f n a m e p a i r . T h i s s t e p i s t o c a l c u l a t e a w e i g h t u s i n g F o r m u l a 4 . 2. T h i s f o r m u l a t e s t s i f t h e f r e q u e n c y o f a n a m e p a i r i s K t i m e s h i g h e r t h a n w h e n t h e y w o u l d b e f o r m e d b y c h a n c e , w h e r e t h e c h a n c e i s d e fi n e d a s h o w l i k e l y t h a t p a i r w o u l d b e f o r m e d i f fi r s t n a m e a n d s u r n a m e s w e r e c o m b i n e d r a n d o m l y . T h e M a t e o s p a p e r [1 9] s t a t e s t h a t fi l t e r s t e p l e a d s t o c r e a t i o n o f m o r e s t r o n g l y c o n n e c t e d fi r s t n a m e s -s u r n a m e p a i r -s . W h i c h d e c r e a -s e -s t h e n o i -s e i n t h e fi n a l -s u r n a m e - -s u r n a m e n e t w o r k b y r e m o v i n g v e r y l o w w e i g h t n a m e p a i r s .

n

f s

>

 K · n

f

· n

s

N



( 4 . 1 )

w

f s

=

n

f s

q

n

f

·(n

f

−1)

2

( 4 . 2 ) U s i n g t h e s e f o r m u l a s , a m a t r i x

W

i s c r e a t e d w i t h s u r n a m e s a s r o w s a n d fi r s t n a m e s a s c o l u m n s . A p r o p e r t y o f t h i s m a t r i x i s t h a t m o s t n a m e p a i r s h a v e a z e r o w e i g h t , s o a s p a r s e m a t r i x c a n b e u s e d h e r e . A s p a r s e m a t r i x o n l y u s e s m e m o r y f o r t h e p a i r s t h a t h a v e a n o n - z e r o w e i g h t s o t h a t n o t a l l t h e e m p t y w e i g h t s h a v e t o b e h e l d i n m e m o r y , f . e . i f a d e n s e m a t r i x w a s u s e d i n t h i s c a s e , a p p r o x i m a t e l y 4 4 0 G B ( n u m b e r o f u n i q u e fi r s t n a m e * n u m b e r o f u n i q u e s u r n a m e s ) o f m e m o r y w o u l d b e n e e d e d , i n c o n t r a s t u s i n g s p a r s e m a t r i c e s o n l y r e q u i r e s 1 0 M B o f m e m o r y .

D

s

= W × W

T

( 4 . 3 ) T h e n e x t s t e p i s t o u s e m a t r i x

W

t o c r e a t e a s u r n a m e - s u r n a m e m a t r i x w h i c h c o n t a i n s t h e w e i g h t s b e t w e e n t w o s u r n a m e s . T h i s i s d o n e u s i n g F o r m u l a 4 . 3, w h i c h i s a m a t r i x m u l t i p l i c a t i o n . I t ’s i m p o r -t a n -t -t o n o t e t h a t d u r i n g t h i s p h a s e a l l m a t r i x o p e r a t i o n s s t i l l h a v e t o o c c u r o n s p a r s e m a t r i c e s . T o g e t a fi r s t n a m e fi r s t n a m e m a t r i x , o n e c a n j u s t c h a n g e t h e m u l t i p l i c a t i o n t o

W

T

× W

, a n d t h e fi r s t

(25)

n a m e fi r s t n a m e d i s t a n c e s a r e c r e a t e d .

T h e fi n a l s t e p i s t o c o n s t r u c t t h e a c t u a l g r a p h b y i n i t i a l i z i n g a l l s u r n a m e s a s n o d e s a n d c o n n e c t i n g

a l l s u r n a m e p a i r s w h i c h h a v e a n o n z e r o w e i g h t s . T h e s e w e i g h t s c o m e f r o m t h e

D

s

m a t r i x , u s i n g

t h e f a c t t h a t t h e e d g e s i n t h e g r a p h a r e b i d i r e c t i o n a l , o n l y t h e w e i g h t s b e l o w t h e d i a g o n a l h a v e t o b e

a d d e d .

Clustering a graph into communities

T h i s s e c t i o n u s e s t h e i n s i g h t s l e a r n e d f r o m S e c t i o n 2 . 2 . 1 o n p a g e 6, w h e r e a s t h a t M a t e o s p a p e r [1 9] u s e s t h e F a s t C o m m u n i t y - a l g o r i t h m , t h i s a l g o r i t h m u s e s t h e L e i d e n - a l g o r i t h m i n s t e a d . U s i n g s e v e r a l l i b r a r i e s , t h e c l u s t e r i n g a l g o r i t h m c a n b e i n v o k e d o n t h e g r a p h . W h e n e x e c u t e d , t h e s e a l g o r i t h m s r e t u r n a r e s u l t c o n t a i n i n g s u b g r a p h s w h i c h t h e n n e e d t o b e c o n v e r t e d b a c k t o c o m m u n i -t i e s -t h a -t c o n -t a i n -t h e s u r n a m e s . A f -t e r -t h i s s -t e p -t h e c o m m u n i -t i e s c o n -t a i n i n g n o -t e n o u g h n a m e s a r e r e m o v e d , t h e r e m a i n i n g c l u s t e r s a r e k e p t f o r f u r t h e r a n a l y s i s i n t h e n e x t c h a p t e r .

4.1.2. Choosing the software libraries

T h e fi r s t c h o i c e t h a t h a d t o b e m a d e w a s t h e p r o g r a m m i n g l a n g u a g e u s e d , w h i c h w e n t b e t w e e n P y t h o n a n d R . W h e r e a s R w a s c r e a t e d f o r s t a t i s t i c a l a n a l y s i s , P y t h o n w a s n o t b u t d o e s h a v e a l o t o f s p e c i a l i z e d l i b r a r i e s t h a t a r e c o m p a r a b l e i n f u n c t i o n a l i t y , b u t w i t h t h e a d d e d b o n u s o f b e i n g a m o r e c o m p l e t e p r o g r a m m i n g l a n g u a g e . P y t h o n w a s c h o s e n b e c a u s e i t w a s t h e l a n g u a g e t h e a u t h o r o f t h i s w a s t h e m o s t p r o fi c i e n t i n , a n d t h e d a t a u s e d i n t h e s i s w a s a l r e a d y p r o v i d e d i n fi l e s m a d e w i t h P y t h o n l i b r a r i e s . T h e n e x t s t e p w a s c h o o s i n g t h e l i b r a r i e s t h a t c o n t a i n t h e d a t a s e t , a n d f o r t h i s P a n d a s [2 2] w a s c h o s e n , w h i c h i s e a s y t o u s e b u t a l s o c o n t a i n s a l o t o f f u n c t i o n a l i t y . I n c o n j u n c t i o n w i t h P a n d a s , N u m p y [2 7] a n d S c i P y [2 0] w e r e u s e d w h e n a m a t h p r o b l e m n e e d e d t o b e s o l v e d . T h e l a s t p a c k a g e t o c h o o s e w a s t h e g r a p h i n g l i b r a r y t h a t w o u l d b e u s e d , i t ’s o n e m a k e o r b r e a k c r i t e r i a w a s t h a t i t h a d t o s u p p o r t fi n d i n g c o m m u n i t i e s i n g r a p h s . A c o u p l e o f p y t h o n g r a p h a n d n e t w o r k p a c k a g e s w e r e c o m p a r e d : N e t w o r k X , S N A P , G r a p h - T o o l a n d i G r a p h [1 2] . i G r a p h w a s c h o -s e n b e c a u s e i t i m p l e m e n t e d a l l t h e r e q u i r e d a l g o r i t h m s a n d m o r e , a n d w a s a l s o a l o t f a s t e r t h a n N e t w o r k X b e c a u s e i t u s e s l o w e r l e v e l c o m p u t e r c o d e t o s p e e d u p t h e p r o g r a m . A n o t h e r a d v a n t a g e i G r a p h h a d o v e r t h e o t h e r l i b r a r i e s w a s t h a t L e i d e n - a l g o r i t h m w a s a d d e d v e r y r e c e n t l y t o t h e l i b r a r y .

(26)

4.2. Neural network

T h i s i m p l e m e n t a t i o n u s e s t h e P y T o r c h [2 1] p y t h o n l i b r a r y t o i m p l e m e n t a n e u r a l n e t w o r k , a n d w i l l

b e e x p l a i n e d i n f o u r p a r t s . F i r s t t h e b u i l d i n g b l o c k s o f n e u r a l n e t w o r k s a r e e x p l a i n e d . S e c o n d t h e

m o d e l i t s e l f i s d e s c r i b e d . T h e t h i r d p a r t w i l l s h o w h o w t h e i n p u t d a t a i s c o n s t r u c t e d . T h e fi n a l p a r t

e x p l a i n s h o w i t a l l c o m e s t o g e t h e r a n d t h e n e t w o r k g e t s t r a i n e d a n d t e s t e d .

4.2.1. Building blocks of neural networks

P y T o r c h m a k e s i t p o s s i b l e t o b u i l d y o u r o w n N e u r a l N e t w o r k w i t h o u t t h e n e e d t o i m p l e m e n t a l g o -r i t h m s y o u -r s e l f . T h e s e a -r e i n c l u d e d a n d o p t i m i z e d , w h a t y o u h a v e t o d o i s d e s i g n t h e n e t w o -r k a n d f o r m a t t h e i n p u t . I n t h i s s e c t i o n , t h e b u i l d i n g b l o c k s u s e d w i l l b e e x p l a i n e d .

Tensors

T e n s o r s c a n b e i m a g i n e d a s a fl e x i b l e m u l t i d i m e n s i o n a l m a t r i x fi l l e d w i t h n u m b e r s , a n d o p t i m i z e d t o b e u s e d i n a l g o r i t h m s . A d i f f e r e n c e w i t h n o r m a l a r r a y s a n d m a t r i c e s i s t h a t t h e s e h a v e a m e m o r y o f t h e m a t h t h a t w a s u s e d o n t h e m s o t h a t t h e y c a n b e u s e d i n t h e b a c k w a r d p a s s w h e n t r a i n i n g .

Linear layer

T h e l i n e a r l a y e r i s t h e m o s t b a s i c n e u r a l n e t w o r k s t r u c t u r e f u l l y c o n n e c t i n g i i n p u t n o d e s w i t h o o u t p u t n o d e s . A n e x a m p l e i s g i v e n i n F i g u r e 4 . 1, w h i c h h a s 4 i n p u t n o d e s a n d 3 o u t p u t n o d e s , a l l o f w h i c h a r e f u l l y c o n n e c t e d . E v e r y e d g e ( c o n n e c t i o n b e t w e e n t w o n o d e s ) h a s a c e r t a i n w e i g h t , w h i c h d u r i n g t r a i n i n g g e t s m o d i fi e d i n t h e b a c k w a r d p a s s . B o t h t h e i n p u t a n d o u t p u t a r e t e n s o r s w i t h t h e s a m e s i z e a s t h e n u m b e r o f n o d e s i n t h e i r r e s p e c t i v e l a y e r . T h e s e l a y e r s d o n o t r e m e m b e r p r e v i o u s i n p u t s , a n d a s s u c h d e l i v e r t h e s a m e o u t p u t f o r a g i v e n i n p u t n o m a t t e r w h a t t h e p r e v i o u s i n p u t w a s .

LSTM and GRU

L S T M s [1 1] ( L o n g S h o r t t e r m M e m o r y ) a n d G R U s ( G a t e d R e c u r r e n t U n i t s ) [4] a r e l a y e r s w h i c h a p a r t f r o m t h e i n p u t a l s o k e e p a h i d d e n s t a t e . T h e s e h i d d e n s t a t e s a r e t h e n u s e d i n c o n j u n c t i o n w i t h t h e i n p u t s t o d e l i v e r a n e w o u t p u t a n d a n e w h i d d e n s t a t e . T h e s e l a y e r s a l s o h a v e t o o l s o n b o a r d t o r e s e t t h e h i d d e n s t a t e w h e n e v e r a n e w s e q u e n c e s t a r t s . I n t h e l a t e r m o d e l s t h e h i d d e n s t a t e i s r e s e t a f t e r e v e r y n a m e s .

Referenties

GERELATEERDE DOCUMENTEN

In this article we apply the concepts of linkage and leverage to Russia ’s involvement with Abkha- zia and South Ossetia, especially after it recognised the regions ’ independence

Business in Dandong utilizing North Korean labour continues; according to South Korean scholar Kim Byong-yon, approximately 30 percent of all China-North Korea trade is

Wat betekenen het einde van de Koude Oorlog en de mondiale veranderingen sindsdien voor de academische regiostudies, en voor de Ruslandkunde in het bijzonder. De crisis waarin

Tönnies Fenne's Low German Manual of Spoken Russian, Pskov 1607: An electronic text edition, Hendriks, Pepijn;Schaeken, Jos, 2008, Leiden University Centre for Linguistics

A well-known feature of the Old Novgorod dialect is the NOM.SG.M. This ending contrasts with the zero ending -Ø elsewhere in Slavic.. ending -Ց can be found in the phrasebooks

Het gebruik van het gespreksboek van Tönnies Fonne voor historisch taalkundig onderzoek moet hand in hand gaan met dat van het gespreksboek van Thomas Schroue.. Het taalgebruik

The structural exclusion of black people in the past has necessitated an over-arching policy framework that deals not only with ownership and management control of business

Atomic force microscopy results of the fresh and aged greases showed that the variation in thickener microstructure provides a good explanation for the lithium grease