File size: 7,482 Bytes
52c9875
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
# Djupgående Analys av P1 Sommar Database

## Sammanfattning
Denna rapport presenterar en omfattande analys av alla databasfiler i P1 Sommar Space-projektet, med fokus på datakvalitet, temporala luckor, innehållsluckor och strukturella problem som påverkar användarupplevelsen.

## 1. Övergripande Datastruktur

### Huvudfiler
- **data.json**: 89,516 rader, 900 episoder, 11,929 låtar
- **report.json**: Processingrapport med kvalitetsmetriker
- **images/**: 2,000+ bilder av sommarpratare (1960-2022)

### Dataformat
```json
{
  "episode_id": 2578746,
  "episode_title": "Petra Mede",
  "episode_date": "2025-06-21",
  "songs": [
    {
      "title": "Ob-La-Di Ob-La-Da",
      "artist": "The Beatles",
      "spotify_track_url": "https://open.spotify.com/track/...",
      "youtube_url": "https://www.youtube.com/results?search_query=...",
      "raw_data": "..."
    }
  ],
  "quality_issues": []
}
```

## 2. Kritiska Tidsperiod-Luckor

### Historiska Luckor (1958-2009)
- **52 års komplett avsaknad**: Hela perioden 1958-2009 saknas
- **Påverkan**: Programmet startade 1958 - 52 år av historia förlorad
- **Konsekvens**: Endast 23% av programmets totala historia finns tillgänglig

### Moderna Luckor (2010-2025)
- **2010**: 48 episoder (2 episoder under normal säsong)
- **2025**: 19 episoder (pågående säsong, väntat)
- **Övriga år**: 50-61 episoder per år (acceptabel täckning)

### Säsongstäckning
```
År    Episoder  Period         Status
2010  48        26/6 - 15/8    Något låg
2011  50        25/6 - 15/8    Normal
2012  54        23/6 - 15/8    Normal
2013  54        22/6 - 15/8    Normal
2014  57        21/6 - 15/8    Normal
2015  58        20/6 - 15/8    Normal
2016  52        25/6 - 15/8    Normal
2017  53        24/6 - 15/8    Normal
2018  55        23/6 - 15/8    Normal
2019  57        15/6 - 15/8    Normal
2020  59        20/6 - 15/8    Normal
2021  51        26/6 - 15/8    Normal
2022  52        25/6 - 15/8    Normal
2023  53        24/6 - 15/8    Normal
2024  55        22/6 - 15/8    Normal
2025  19        21/6 - 5/7     Pågående
```

## 3. Innehållsluckor och Datakvalitet

### Spotify-Integration
- **Täckning**: 10,642/11,929 låtar (89.2%) har Spotify-länkar
- **Saknade**: 1,287 låtar (10.8%) saknar Spotify-länkar
- **Problem**: Report.json felaktigt rapporterar 0 Spotify-länkar

### YouTube-Integration
- **Problematik**: 11,899/11,929 låtar (99.7%) har "search query" URLs
- **Ej direktlänkar**: YouTube-länkar är sökfrågor, inte direkta videolänkar
- **Användarupplevelse**: Sämre - användare måste välja från sökresultat

### Exempel på Spotify-saknade låtar
```
- "The Only Way Is Up" by "Yazz & The Plastic People"
- "Tomorrow" by "Aileen Quinn, Albert Finney, DeBanzie..."
- "HANDCLAPPING SONG" by "THE METERS"
```

## 4. Metadata-Kvalitetsproblem

### Kritiska Kvalitetsproblem

#### 4.1 Inkonsistent Formatering
- **ALL CAPS-titlar**: 1,465 låtar (12.3%)
- **ALL CAPS-artister**: 1,470 låtar (12.3%)
- **Exempel**: "L-O-V-E" by "NAT KING COLE"

#### 4.2 Extremt Långa Artistnamn
- **Påverkade låtar**: 272 låtar (2.3%)
- **Längsta**: 200+ tecken med alla medverkande
- **Exempel**: "Giuseppe Sinopoli, Orkester, Ghena Dimitrova, Lucia Popp, Lucia Valentini Terrani, Placido Domingo, Volker Horn, Piero Cappuccilli, Jevgenij Nesterenko, Kurt Rydl, Kör"

#### 4.3 Suspekt Korta Namn
- **Titel för kort**: 17 låtar (ex: "Ye", "Og", "As")
- **Artist för kort**: 6 låtar (ex: "Lp", "Cl")

#### 4.4 Duplicerade Låtar
- **Duplicerade signaturer**: 1,336 unika låt-artist kombinationer
- **Totalt**: >2,000 faktiska duplicat
- **Orsak**: Samma låt spelade i olika episoder

## 5. Detaljerade Kvalitetsproblem (18 episoder)

### Registrerade Kvalitetsproblem
```
Episode: Sanne Salomonsen (2023-08-11)
Issues: ["Misstänkt titel pattern: '1999'"]

Episode: Agneta Sjödin (2021-07-13)
Issues: ["Titel för kort: 'O'"]

Episode: Lisen Bratt Fredricson (2021-08-04)
Issues: ["Misstänkt artist pattern: '1987'"]

Episode: Anders Hansen (2019-06-25)
Issues: ["Misstänkt titel pattern: '1984'"]

Episode: Baker Karim 2014 (2014-07-23)
Issues: ["Artist för kort: '?'", "Misstänkt artist pattern: '?'"]
```

### Mönster i Kvalitetsproblem
- **Numeriska mönster**: År som titlar/artister (1999, 1987, 1984)
- **Enkla tecken**: "?", "O", "N" som artister/titlar
- **Frekvent**: 18 episoder med registrerade problem

## 6. Statistisk Analys

### Fördelning av Episoder
```
Genomsnittligt antal låtar per episod: 13.3
Episoder med <5 låtar: 6 (0.7%)
Episoder med >20 låtar: 26 (2.9%)
```

### Årtionde-Fördelning
```
2010-2019: 549 episoder (61.0%)
2020-2025: 351 episoder (39.0%)
1958-2009: 0 episoder (0.0%)
```

### Månadsfördelning
```
Juni: ~200 episoder
Juli: ~400 episoder  
Augusti: ~300 episoder
```

## 7. Påverkan på Användarupplevelsen

### Kritiska Problem
1. **Historisk Lucka**: 52 års avsaknad av programhistoria
2. **Spotify-Rapportering**: Felaktig rapportering av Spotify-täckning
3. **YouTube-Integration**: Ej direktlänkar, sämre användarupplevelse
4. **Metadata-Kvalitet**: Inkonsistent formatering försvårar sökning

### Användarupplevelse-Konsekvenser
- **Sök-funktionalitet**: ALL CAPS och inkonsistent formatering
- **Musikuppspelning**: 10.8% av låtar saknar Spotify-länkar
- **Historisk kontext**: Ingen tillgång till programmets första 52 år
- **Video-integration**: YouTube-länkar kräver extra steg

## 8. Rekommendationer för Förbättringar

### Prioritet 1: Kritiska Förbättringar
1. **Korrigera Spotify-rapportering**: Uppdatera report.json med korrekta siffror
2. **Standardisera formatering**: Konvertera ALL CAPS till normal kapitalisering
3. **Förkorta artistnamn**: Begränsa artistnamn till huvudartister
4. **Förbättra YouTube-länkar**: Implementera direktlänkar där möjligt

### Prioritet 2: Innehållsförbättringar
1. **Historisk data**: Sourca och inkludera 1958-2009 episoder
2. **Spotify-komplettering**: Hitta Spotify-länkar för saknade 1,287 låtar
3. **Duplicat-hantering**: Implementera duplicat-detection och -hantering
4. **Kvalitetskontroll**: Automatiserad validering av nya data

### Prioritet 3: Strukturella Förbättringar
1. **Data-validering**: Implementera schema-validering
2. **Metadata-standarder**: Skapa och implementera standards för data-kvalitet
3. **Kontinuerlig monitoring**: Automatiska kvalitetskontroller
4. **Backup-strategier**: Säkerhetskopiera och versionera data

## 9. Tekniska Detaljer

### Databasstruktur
```
Totalt: 89,516 rader JSON
Storlek: ~15MB
Episoder: 900
Låtar: 11,929
Bilder: 2,000+
```

### Kvalitetsmetriker
```
Fullständighet: 89.2% (Spotify-länkar)
Konsistens: 87.7% (formatering)
Unikhet: 88.8% (duplicat-hantering)
Historisk täckning: 23.0% (52 av 67 år)
```

## 10. Slutsatser

P1 Sommar Space-databasen innehåller värdefull data för de senaste 16 åren, men lider av betydande kvalitetsproblem som påverkar användarupplevelsen:

- **Största problemet**: 52 års historisk data saknas helt
- **Mest akut**: Inkonsistent metadata-formatering
- **Mest irriterande**: YouTube-länkar som inte är direktlänkar
- **Mest kritiskt**: Felaktig rapportering av Spotify-täckning

Genom att adressera dessa problem systematiskt kan användarupplevelsen förbättras dramatiskt och databasen kan bli en mer komplett resurs för Sveriges radiohistoria.

---

*Rapport genererad: 2025-07-05*
*Dataanalys av 900 episoder och 11,929 låtar*