Spaces:
Runtime error
Runtime error
File size: 7,482 Bytes
52c9875 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 | # Djupgående Analys av P1 Sommar Database
## Sammanfattning
Denna rapport presenterar en omfattande analys av alla databasfiler i P1 Sommar Space-projektet, med fokus på datakvalitet, temporala luckor, innehållsluckor och strukturella problem som påverkar användarupplevelsen.
## 1. Övergripande Datastruktur
### Huvudfiler
- **data.json**: 89,516 rader, 900 episoder, 11,929 låtar
- **report.json**: Processingrapport med kvalitetsmetriker
- **images/**: 2,000+ bilder av sommarpratare (1960-2022)
### Dataformat
```json
{
"episode_id": 2578746,
"episode_title": "Petra Mede",
"episode_date": "2025-06-21",
"songs": [
{
"title": "Ob-La-Di Ob-La-Da",
"artist": "The Beatles",
"spotify_track_url": "https://open.spotify.com/track/...",
"youtube_url": "https://www.youtube.com/results?search_query=...",
"raw_data": "..."
}
],
"quality_issues": []
}
```
## 2. Kritiska Tidsperiod-Luckor
### Historiska Luckor (1958-2009)
- **52 års komplett avsaknad**: Hela perioden 1958-2009 saknas
- **Påverkan**: Programmet startade 1958 - 52 år av historia förlorad
- **Konsekvens**: Endast 23% av programmets totala historia finns tillgänglig
### Moderna Luckor (2010-2025)
- **2010**: 48 episoder (2 episoder under normal säsong)
- **2025**: 19 episoder (pågående säsong, väntat)
- **Övriga år**: 50-61 episoder per år (acceptabel täckning)
### Säsongstäckning
```
År Episoder Period Status
2010 48 26/6 - 15/8 Något låg
2011 50 25/6 - 15/8 Normal
2012 54 23/6 - 15/8 Normal
2013 54 22/6 - 15/8 Normal
2014 57 21/6 - 15/8 Normal
2015 58 20/6 - 15/8 Normal
2016 52 25/6 - 15/8 Normal
2017 53 24/6 - 15/8 Normal
2018 55 23/6 - 15/8 Normal
2019 57 15/6 - 15/8 Normal
2020 59 20/6 - 15/8 Normal
2021 51 26/6 - 15/8 Normal
2022 52 25/6 - 15/8 Normal
2023 53 24/6 - 15/8 Normal
2024 55 22/6 - 15/8 Normal
2025 19 21/6 - 5/7 Pågående
```
## 3. Innehållsluckor och Datakvalitet
### Spotify-Integration
- **Täckning**: 10,642/11,929 låtar (89.2%) har Spotify-länkar
- **Saknade**: 1,287 låtar (10.8%) saknar Spotify-länkar
- **Problem**: Report.json felaktigt rapporterar 0 Spotify-länkar
### YouTube-Integration
- **Problematik**: 11,899/11,929 låtar (99.7%) har "search query" URLs
- **Ej direktlänkar**: YouTube-länkar är sökfrågor, inte direkta videolänkar
- **Användarupplevelse**: Sämre - användare måste välja från sökresultat
### Exempel på Spotify-saknade låtar
```
- "The Only Way Is Up" by "Yazz & The Plastic People"
- "Tomorrow" by "Aileen Quinn, Albert Finney, DeBanzie..."
- "HANDCLAPPING SONG" by "THE METERS"
```
## 4. Metadata-Kvalitetsproblem
### Kritiska Kvalitetsproblem
#### 4.1 Inkonsistent Formatering
- **ALL CAPS-titlar**: 1,465 låtar (12.3%)
- **ALL CAPS-artister**: 1,470 låtar (12.3%)
- **Exempel**: "L-O-V-E" by "NAT KING COLE"
#### 4.2 Extremt Långa Artistnamn
- **Påverkade låtar**: 272 låtar (2.3%)
- **Längsta**: 200+ tecken med alla medverkande
- **Exempel**: "Giuseppe Sinopoli, Orkester, Ghena Dimitrova, Lucia Popp, Lucia Valentini Terrani, Placido Domingo, Volker Horn, Piero Cappuccilli, Jevgenij Nesterenko, Kurt Rydl, Kör"
#### 4.3 Suspekt Korta Namn
- **Titel för kort**: 17 låtar (ex: "Ye", "Og", "As")
- **Artist för kort**: 6 låtar (ex: "Lp", "Cl")
#### 4.4 Duplicerade Låtar
- **Duplicerade signaturer**: 1,336 unika låt-artist kombinationer
- **Totalt**: >2,000 faktiska duplicat
- **Orsak**: Samma låt spelade i olika episoder
## 5. Detaljerade Kvalitetsproblem (18 episoder)
### Registrerade Kvalitetsproblem
```
Episode: Sanne Salomonsen (2023-08-11)
Issues: ["Misstänkt titel pattern: '1999'"]
Episode: Agneta Sjödin (2021-07-13)
Issues: ["Titel för kort: 'O'"]
Episode: Lisen Bratt Fredricson (2021-08-04)
Issues: ["Misstänkt artist pattern: '1987'"]
Episode: Anders Hansen (2019-06-25)
Issues: ["Misstänkt titel pattern: '1984'"]
Episode: Baker Karim 2014 (2014-07-23)
Issues: ["Artist för kort: '?'", "Misstänkt artist pattern: '?'"]
```
### Mönster i Kvalitetsproblem
- **Numeriska mönster**: År som titlar/artister (1999, 1987, 1984)
- **Enkla tecken**: "?", "O", "N" som artister/titlar
- **Frekvent**: 18 episoder med registrerade problem
## 6. Statistisk Analys
### Fördelning av Episoder
```
Genomsnittligt antal låtar per episod: 13.3
Episoder med <5 låtar: 6 (0.7%)
Episoder med >20 låtar: 26 (2.9%)
```
### Årtionde-Fördelning
```
2010-2019: 549 episoder (61.0%)
2020-2025: 351 episoder (39.0%)
1958-2009: 0 episoder (0.0%)
```
### Månadsfördelning
```
Juni: ~200 episoder
Juli: ~400 episoder
Augusti: ~300 episoder
```
## 7. Påverkan på Användarupplevelsen
### Kritiska Problem
1. **Historisk Lucka**: 52 års avsaknad av programhistoria
2. **Spotify-Rapportering**: Felaktig rapportering av Spotify-täckning
3. **YouTube-Integration**: Ej direktlänkar, sämre användarupplevelse
4. **Metadata-Kvalitet**: Inkonsistent formatering försvårar sökning
### Användarupplevelse-Konsekvenser
- **Sök-funktionalitet**: ALL CAPS och inkonsistent formatering
- **Musikuppspelning**: 10.8% av låtar saknar Spotify-länkar
- **Historisk kontext**: Ingen tillgång till programmets första 52 år
- **Video-integration**: YouTube-länkar kräver extra steg
## 8. Rekommendationer för Förbättringar
### Prioritet 1: Kritiska Förbättringar
1. **Korrigera Spotify-rapportering**: Uppdatera report.json med korrekta siffror
2. **Standardisera formatering**: Konvertera ALL CAPS till normal kapitalisering
3. **Förkorta artistnamn**: Begränsa artistnamn till huvudartister
4. **Förbättra YouTube-länkar**: Implementera direktlänkar där möjligt
### Prioritet 2: Innehållsförbättringar
1. **Historisk data**: Sourca och inkludera 1958-2009 episoder
2. **Spotify-komplettering**: Hitta Spotify-länkar för saknade 1,287 låtar
3. **Duplicat-hantering**: Implementera duplicat-detection och -hantering
4. **Kvalitetskontroll**: Automatiserad validering av nya data
### Prioritet 3: Strukturella Förbättringar
1. **Data-validering**: Implementera schema-validering
2. **Metadata-standarder**: Skapa och implementera standards för data-kvalitet
3. **Kontinuerlig monitoring**: Automatiska kvalitetskontroller
4. **Backup-strategier**: Säkerhetskopiera och versionera data
## 9. Tekniska Detaljer
### Databasstruktur
```
Totalt: 89,516 rader JSON
Storlek: ~15MB
Episoder: 900
Låtar: 11,929
Bilder: 2,000+
```
### Kvalitetsmetriker
```
Fullständighet: 89.2% (Spotify-länkar)
Konsistens: 87.7% (formatering)
Unikhet: 88.8% (duplicat-hantering)
Historisk täckning: 23.0% (52 av 67 år)
```
## 10. Slutsatser
P1 Sommar Space-databasen innehåller värdefull data för de senaste 16 åren, men lider av betydande kvalitetsproblem som påverkar användarupplevelsen:
- **Största problemet**: 52 års historisk data saknas helt
- **Mest akut**: Inkonsistent metadata-formatering
- **Mest irriterande**: YouTube-länkar som inte är direktlänkar
- **Mest kritiskt**: Felaktig rapportering av Spotify-täckning
Genom att adressera dessa problem systematiskt kan användarupplevelsen förbättras dramatiskt och databasen kan bli en mer komplett resurs för Sveriges radiohistoria.
---
*Rapport genererad: 2025-07-05*
*Dataanalys av 900 episoder och 11,929 låtar* |