Spaces:
Runtime error
Runtime error
| # Djupgående Analys av P1 Sommar Database | |
| ## Sammanfattning | |
| Denna rapport presenterar en omfattande analys av alla databasfiler i P1 Sommar Space-projektet, med fokus på datakvalitet, temporala luckor, innehållsluckor och strukturella problem som påverkar användarupplevelsen. | |
| ## 1. Övergripande Datastruktur | |
| ### Huvudfiler | |
| - **data.json**: 89,516 rader, 900 episoder, 11,929 låtar | |
| - **report.json**: Processingrapport med kvalitetsmetriker | |
| - **images/**: 2,000+ bilder av sommarpratare (1960-2022) | |
| ### Dataformat | |
| ```json | |
| { | |
| "episode_id": 2578746, | |
| "episode_title": "Petra Mede", | |
| "episode_date": "2025-06-21", | |
| "songs": [ | |
| { | |
| "title": "Ob-La-Di Ob-La-Da", | |
| "artist": "The Beatles", | |
| "spotify_track_url": "https://open.spotify.com/track/...", | |
| "youtube_url": "https://www.youtube.com/results?search_query=...", | |
| "raw_data": "..." | |
| } | |
| ], | |
| "quality_issues": [] | |
| } | |
| ``` | |
| ## 2. Kritiska Tidsperiod-Luckor | |
| ### Historiska Luckor (1958-2009) | |
| - **52 års komplett avsaknad**: Hela perioden 1958-2009 saknas | |
| - **Påverkan**: Programmet startade 1958 - 52 år av historia förlorad | |
| - **Konsekvens**: Endast 23% av programmets totala historia finns tillgänglig | |
| ### Moderna Luckor (2010-2025) | |
| - **2010**: 48 episoder (2 episoder under normal säsong) | |
| - **2025**: 19 episoder (pågående säsong, väntat) | |
| - **Övriga år**: 50-61 episoder per år (acceptabel täckning) | |
| ### Säsongstäckning | |
| ``` | |
| År Episoder Period Status | |
| 2010 48 26/6 - 15/8 Något låg | |
| 2011 50 25/6 - 15/8 Normal | |
| 2012 54 23/6 - 15/8 Normal | |
| 2013 54 22/6 - 15/8 Normal | |
| 2014 57 21/6 - 15/8 Normal | |
| 2015 58 20/6 - 15/8 Normal | |
| 2016 52 25/6 - 15/8 Normal | |
| 2017 53 24/6 - 15/8 Normal | |
| 2018 55 23/6 - 15/8 Normal | |
| 2019 57 15/6 - 15/8 Normal | |
| 2020 59 20/6 - 15/8 Normal | |
| 2021 51 26/6 - 15/8 Normal | |
| 2022 52 25/6 - 15/8 Normal | |
| 2023 53 24/6 - 15/8 Normal | |
| 2024 55 22/6 - 15/8 Normal | |
| 2025 19 21/6 - 5/7 Pågående | |
| ``` | |
| ## 3. Innehållsluckor och Datakvalitet | |
| ### Spotify-Integration | |
| - **Täckning**: 10,642/11,929 låtar (89.2%) har Spotify-länkar | |
| - **Saknade**: 1,287 låtar (10.8%) saknar Spotify-länkar | |
| - **Problem**: Report.json felaktigt rapporterar 0 Spotify-länkar | |
| ### YouTube-Integration | |
| - **Problematik**: 11,899/11,929 låtar (99.7%) har "search query" URLs | |
| - **Ej direktlänkar**: YouTube-länkar är sökfrågor, inte direkta videolänkar | |
| - **Användarupplevelse**: Sämre - användare måste välja från sökresultat | |
| ### Exempel på Spotify-saknade låtar | |
| ``` | |
| - "The Only Way Is Up" by "Yazz & The Plastic People" | |
| - "Tomorrow" by "Aileen Quinn, Albert Finney, DeBanzie..." | |
| - "HANDCLAPPING SONG" by "THE METERS" | |
| ``` | |
| ## 4. Metadata-Kvalitetsproblem | |
| ### Kritiska Kvalitetsproblem | |
| #### 4.1 Inkonsistent Formatering | |
| - **ALL CAPS-titlar**: 1,465 låtar (12.3%) | |
| - **ALL CAPS-artister**: 1,470 låtar (12.3%) | |
| - **Exempel**: "L-O-V-E" by "NAT KING COLE" | |
| #### 4.2 Extremt Långa Artistnamn | |
| - **Påverkade låtar**: 272 låtar (2.3%) | |
| - **Längsta**: 200+ tecken med alla medverkande | |
| - **Exempel**: "Giuseppe Sinopoli, Orkester, Ghena Dimitrova, Lucia Popp, Lucia Valentini Terrani, Placido Domingo, Volker Horn, Piero Cappuccilli, Jevgenij Nesterenko, Kurt Rydl, Kör" | |
| #### 4.3 Suspekt Korta Namn | |
| - **Titel för kort**: 17 låtar (ex: "Ye", "Og", "As") | |
| - **Artist för kort**: 6 låtar (ex: "Lp", "Cl") | |
| #### 4.4 Duplicerade Låtar | |
| - **Duplicerade signaturer**: 1,336 unika låt-artist kombinationer | |
| - **Totalt**: >2,000 faktiska duplicat | |
| - **Orsak**: Samma låt spelade i olika episoder | |
| ## 5. Detaljerade Kvalitetsproblem (18 episoder) | |
| ### Registrerade Kvalitetsproblem | |
| ``` | |
| Episode: Sanne Salomonsen (2023-08-11) | |
| Issues: ["Misstänkt titel pattern: '1999'"] | |
| Episode: Agneta Sjödin (2021-07-13) | |
| Issues: ["Titel för kort: 'O'"] | |
| Episode: Lisen Bratt Fredricson (2021-08-04) | |
| Issues: ["Misstänkt artist pattern: '1987'"] | |
| Episode: Anders Hansen (2019-06-25) | |
| Issues: ["Misstänkt titel pattern: '1984'"] | |
| Episode: Baker Karim 2014 (2014-07-23) | |
| Issues: ["Artist för kort: '?'", "Misstänkt artist pattern: '?'"] | |
| ``` | |
| ### Mönster i Kvalitetsproblem | |
| - **Numeriska mönster**: År som titlar/artister (1999, 1987, 1984) | |
| - **Enkla tecken**: "?", "O", "N" som artister/titlar | |
| - **Frekvent**: 18 episoder med registrerade problem | |
| ## 6. Statistisk Analys | |
| ### Fördelning av Episoder | |
| ``` | |
| Genomsnittligt antal låtar per episod: 13.3 | |
| Episoder med <5 låtar: 6 (0.7%) | |
| Episoder med >20 låtar: 26 (2.9%) | |
| ``` | |
| ### Årtionde-Fördelning | |
| ``` | |
| 2010-2019: 549 episoder (61.0%) | |
| 2020-2025: 351 episoder (39.0%) | |
| 1958-2009: 0 episoder (0.0%) | |
| ``` | |
| ### Månadsfördelning | |
| ``` | |
| Juni: ~200 episoder | |
| Juli: ~400 episoder | |
| Augusti: ~300 episoder | |
| ``` | |
| ## 7. Påverkan på Användarupplevelsen | |
| ### Kritiska Problem | |
| 1. **Historisk Lucka**: 52 års avsaknad av programhistoria | |
| 2. **Spotify-Rapportering**: Felaktig rapportering av Spotify-täckning | |
| 3. **YouTube-Integration**: Ej direktlänkar, sämre användarupplevelse | |
| 4. **Metadata-Kvalitet**: Inkonsistent formatering försvårar sökning | |
| ### Användarupplevelse-Konsekvenser | |
| - **Sök-funktionalitet**: ALL CAPS och inkonsistent formatering | |
| - **Musikuppspelning**: 10.8% av låtar saknar Spotify-länkar | |
| - **Historisk kontext**: Ingen tillgång till programmets första 52 år | |
| - **Video-integration**: YouTube-länkar kräver extra steg | |
| ## 8. Rekommendationer för Förbättringar | |
| ### Prioritet 1: Kritiska Förbättringar | |
| 1. **Korrigera Spotify-rapportering**: Uppdatera report.json med korrekta siffror | |
| 2. **Standardisera formatering**: Konvertera ALL CAPS till normal kapitalisering | |
| 3. **Förkorta artistnamn**: Begränsa artistnamn till huvudartister | |
| 4. **Förbättra YouTube-länkar**: Implementera direktlänkar där möjligt | |
| ### Prioritet 2: Innehållsförbättringar | |
| 1. **Historisk data**: Sourca och inkludera 1958-2009 episoder | |
| 2. **Spotify-komplettering**: Hitta Spotify-länkar för saknade 1,287 låtar | |
| 3. **Duplicat-hantering**: Implementera duplicat-detection och -hantering | |
| 4. **Kvalitetskontroll**: Automatiserad validering av nya data | |
| ### Prioritet 3: Strukturella Förbättringar | |
| 1. **Data-validering**: Implementera schema-validering | |
| 2. **Metadata-standarder**: Skapa och implementera standards för data-kvalitet | |
| 3. **Kontinuerlig monitoring**: Automatiska kvalitetskontroller | |
| 4. **Backup-strategier**: Säkerhetskopiera och versionera data | |
| ## 9. Tekniska Detaljer | |
| ### Databasstruktur | |
| ``` | |
| Totalt: 89,516 rader JSON | |
| Storlek: ~15MB | |
| Episoder: 900 | |
| Låtar: 11,929 | |
| Bilder: 2,000+ | |
| ``` | |
| ### Kvalitetsmetriker | |
| ``` | |
| Fullständighet: 89.2% (Spotify-länkar) | |
| Konsistens: 87.7% (formatering) | |
| Unikhet: 88.8% (duplicat-hantering) | |
| Historisk täckning: 23.0% (52 av 67 år) | |
| ``` | |
| ## 10. Slutsatser | |
| P1 Sommar Space-databasen innehåller värdefull data för de senaste 16 åren, men lider av betydande kvalitetsproblem som påverkar användarupplevelsen: | |
| - **Största problemet**: 52 års historisk data saknas helt | |
| - **Mest akut**: Inkonsistent metadata-formatering | |
| - **Mest irriterande**: YouTube-länkar som inte är direktlänkar | |
| - **Mest kritiskt**: Felaktig rapportering av Spotify-täckning | |
| Genom att adressera dessa problem systematiskt kan användarupplevelsen förbättras dramatiskt och databasen kan bli en mer komplett resurs för Sveriges radiohistoria. | |
| --- | |
| *Rapport genererad: 2025-07-05* | |
| *Dataanalys av 900 episoder och 11,929 låtar* |