# Djupgående Analys av P1 Sommar Database ## Sammanfattning Denna rapport presenterar en omfattande analys av alla databasfiler i P1 Sommar Space-projektet, med fokus på datakvalitet, temporala luckor, innehållsluckor och strukturella problem som påverkar användarupplevelsen. ## 1. Övergripande Datastruktur ### Huvudfiler - **data.json**: 89,516 rader, 900 episoder, 11,929 låtar - **report.json**: Processingrapport med kvalitetsmetriker - **images/**: 2,000+ bilder av sommarpratare (1960-2022) ### Dataformat ```json { "episode_id": 2578746, "episode_title": "Petra Mede", "episode_date": "2025-06-21", "songs": [ { "title": "Ob-La-Di Ob-La-Da", "artist": "The Beatles", "spotify_track_url": "https://open.spotify.com/track/...", "youtube_url": "https://www.youtube.com/results?search_query=...", "raw_data": "..." } ], "quality_issues": [] } ``` ## 2. Kritiska Tidsperiod-Luckor ### Historiska Luckor (1958-2009) - **52 års komplett avsaknad**: Hela perioden 1958-2009 saknas - **Påverkan**: Programmet startade 1958 - 52 år av historia förlorad - **Konsekvens**: Endast 23% av programmets totala historia finns tillgänglig ### Moderna Luckor (2010-2025) - **2010**: 48 episoder (2 episoder under normal säsong) - **2025**: 19 episoder (pågående säsong, väntat) - **Övriga år**: 50-61 episoder per år (acceptabel täckning) ### Säsongstäckning ``` År Episoder Period Status 2010 48 26/6 - 15/8 Något låg 2011 50 25/6 - 15/8 Normal 2012 54 23/6 - 15/8 Normal 2013 54 22/6 - 15/8 Normal 2014 57 21/6 - 15/8 Normal 2015 58 20/6 - 15/8 Normal 2016 52 25/6 - 15/8 Normal 2017 53 24/6 - 15/8 Normal 2018 55 23/6 - 15/8 Normal 2019 57 15/6 - 15/8 Normal 2020 59 20/6 - 15/8 Normal 2021 51 26/6 - 15/8 Normal 2022 52 25/6 - 15/8 Normal 2023 53 24/6 - 15/8 Normal 2024 55 22/6 - 15/8 Normal 2025 19 21/6 - 5/7 Pågående ``` ## 3. Innehållsluckor och Datakvalitet ### Spotify-Integration - **Täckning**: 10,642/11,929 låtar (89.2%) har Spotify-länkar - **Saknade**: 1,287 låtar (10.8%) saknar Spotify-länkar - **Problem**: Report.json felaktigt rapporterar 0 Spotify-länkar ### YouTube-Integration - **Problematik**: 11,899/11,929 låtar (99.7%) har "search query" URLs - **Ej direktlänkar**: YouTube-länkar är sökfrågor, inte direkta videolänkar - **Användarupplevelse**: Sämre - användare måste välja från sökresultat ### Exempel på Spotify-saknade låtar ``` - "The Only Way Is Up" by "Yazz & The Plastic People" - "Tomorrow" by "Aileen Quinn, Albert Finney, DeBanzie..." - "HANDCLAPPING SONG" by "THE METERS" ``` ## 4. Metadata-Kvalitetsproblem ### Kritiska Kvalitetsproblem #### 4.1 Inkonsistent Formatering - **ALL CAPS-titlar**: 1,465 låtar (12.3%) - **ALL CAPS-artister**: 1,470 låtar (12.3%) - **Exempel**: "L-O-V-E" by "NAT KING COLE" #### 4.2 Extremt Långa Artistnamn - **Påverkade låtar**: 272 låtar (2.3%) - **Längsta**: 200+ tecken med alla medverkande - **Exempel**: "Giuseppe Sinopoli, Orkester, Ghena Dimitrova, Lucia Popp, Lucia Valentini Terrani, Placido Domingo, Volker Horn, Piero Cappuccilli, Jevgenij Nesterenko, Kurt Rydl, Kör" #### 4.3 Suspekt Korta Namn - **Titel för kort**: 17 låtar (ex: "Ye", "Og", "As") - **Artist för kort**: 6 låtar (ex: "Lp", "Cl") #### 4.4 Duplicerade Låtar - **Duplicerade signaturer**: 1,336 unika låt-artist kombinationer - **Totalt**: >2,000 faktiska duplicat - **Orsak**: Samma låt spelade i olika episoder ## 5. Detaljerade Kvalitetsproblem (18 episoder) ### Registrerade Kvalitetsproblem ``` Episode: Sanne Salomonsen (2023-08-11) Issues: ["Misstänkt titel pattern: '1999'"] Episode: Agneta Sjödin (2021-07-13) Issues: ["Titel för kort: 'O'"] Episode: Lisen Bratt Fredricson (2021-08-04) Issues: ["Misstänkt artist pattern: '1987'"] Episode: Anders Hansen (2019-06-25) Issues: ["Misstänkt titel pattern: '1984'"] Episode: Baker Karim 2014 (2014-07-23) Issues: ["Artist för kort: '?'", "Misstänkt artist pattern: '?'"] ``` ### Mönster i Kvalitetsproblem - **Numeriska mönster**: År som titlar/artister (1999, 1987, 1984) - **Enkla tecken**: "?", "O", "N" som artister/titlar - **Frekvent**: 18 episoder med registrerade problem ## 6. Statistisk Analys ### Fördelning av Episoder ``` Genomsnittligt antal låtar per episod: 13.3 Episoder med <5 låtar: 6 (0.7%) Episoder med >20 låtar: 26 (2.9%) ``` ### Årtionde-Fördelning ``` 2010-2019: 549 episoder (61.0%) 2020-2025: 351 episoder (39.0%) 1958-2009: 0 episoder (0.0%) ``` ### Månadsfördelning ``` Juni: ~200 episoder Juli: ~400 episoder Augusti: ~300 episoder ``` ## 7. Påverkan på Användarupplevelsen ### Kritiska Problem 1. **Historisk Lucka**: 52 års avsaknad av programhistoria 2. **Spotify-Rapportering**: Felaktig rapportering av Spotify-täckning 3. **YouTube-Integration**: Ej direktlänkar, sämre användarupplevelse 4. **Metadata-Kvalitet**: Inkonsistent formatering försvårar sökning ### Användarupplevelse-Konsekvenser - **Sök-funktionalitet**: ALL CAPS och inkonsistent formatering - **Musikuppspelning**: 10.8% av låtar saknar Spotify-länkar - **Historisk kontext**: Ingen tillgång till programmets första 52 år - **Video-integration**: YouTube-länkar kräver extra steg ## 8. Rekommendationer för Förbättringar ### Prioritet 1: Kritiska Förbättringar 1. **Korrigera Spotify-rapportering**: Uppdatera report.json med korrekta siffror 2. **Standardisera formatering**: Konvertera ALL CAPS till normal kapitalisering 3. **Förkorta artistnamn**: Begränsa artistnamn till huvudartister 4. **Förbättra YouTube-länkar**: Implementera direktlänkar där möjligt ### Prioritet 2: Innehållsförbättringar 1. **Historisk data**: Sourca och inkludera 1958-2009 episoder 2. **Spotify-komplettering**: Hitta Spotify-länkar för saknade 1,287 låtar 3. **Duplicat-hantering**: Implementera duplicat-detection och -hantering 4. **Kvalitetskontroll**: Automatiserad validering av nya data ### Prioritet 3: Strukturella Förbättringar 1. **Data-validering**: Implementera schema-validering 2. **Metadata-standarder**: Skapa och implementera standards för data-kvalitet 3. **Kontinuerlig monitoring**: Automatiska kvalitetskontroller 4. **Backup-strategier**: Säkerhetskopiera och versionera data ## 9. Tekniska Detaljer ### Databasstruktur ``` Totalt: 89,516 rader JSON Storlek: ~15MB Episoder: 900 Låtar: 11,929 Bilder: 2,000+ ``` ### Kvalitetsmetriker ``` Fullständighet: 89.2% (Spotify-länkar) Konsistens: 87.7% (formatering) Unikhet: 88.8% (duplicat-hantering) Historisk täckning: 23.0% (52 av 67 år) ``` ## 10. Slutsatser P1 Sommar Space-databasen innehåller värdefull data för de senaste 16 åren, men lider av betydande kvalitetsproblem som påverkar användarupplevelsen: - **Största problemet**: 52 års historisk data saknas helt - **Mest akut**: Inkonsistent metadata-formatering - **Mest irriterande**: YouTube-länkar som inte är direktlänkar - **Mest kritiskt**: Felaktig rapportering av Spotify-täckning Genom att adressera dessa problem systematiskt kan användarupplevelsen förbättras dramatiskt och databasen kan bli en mer komplett resurs för Sveriges radiohistoria. --- *Rapport genererad: 2025-07-05* *Dataanalys av 900 episoder och 11,929 låtar*