Plan för Intelligenta Filter, hösten 1994. Fredrik Kilander Ann Lantz 6 sep -94: första utkastet 6 sep -94: revision 1, Anns text 13 sep -94: revision 2, ombrytning Ann Lantz Vi har en mängd olika val att göra innan vi kan gå vidare och utföra experiment eller fältstudier. De redan utförda pilotstudierna har gett uppslag och viss förståelse för hur Usenet News används och uppfattas av 7 akademiker. Dessa studier samt de artiklar vi läst har varit grunden för de arbetshypoteser vi har. För att få en mer stabil grund att stå på innan vi gör våra viktiga val vill vi gå ut med en enkät till en större grupp användare. På detta sätt kan vi få våra arbetshypoteser falsifierade eller verifierade. Ni som är aktiva inom IntFilter-projektet kommer att få besvara enkäten och ge kommentarer innan vi sänder ut den. Det vore bra om vi kan föra en diskussion om vilka vi ska vända oss till med enkäten och för/nackdelar med det som vi väljer. Man kan t ex tänka sig att gå ut till användare av Usenet News inom ett enskilt företag, inom flera företag, eller att distribuera enkäten via datornätet och nå hur många som helst. Exempel på de frågor som kan besvaras genom enkäten är: - Upplever användare av Usenet News att de är överbelastade av information? - Upplever användare att de har behov av filtrering? - På vilket sätt utför man filtreringen idag? Manuellt eller genom någon form av stöd i nyhetsläsaren? - Vilka behov har man? - Har olika människor olika filtreringsbehov beroende på vilken arbetsuppgift de har att utföra? - I vilka situationer och för vilka möten gäller det som man frågat ovan? Det är lätt att vilja ställa alltför många frågor. För att få in så många svar som möjligt bör vi vara vaksamma och noga avväga vilka frågor som bör tas upp. Tidsplanering: v. 37-41 Utformning och prövning av enkäten v. 42 Distribution av enkäten v. 42-43 Svaren planeras komma in v. 44-49 Analys av de inkomna svaren v. 50-51 Redovisning och dokumentation av resultat Fredrik Kilander Under höstterminen 1994 inriktas arbetet på att förbereda, specificera och implementera programkomponenter avsedda att klassificera meddelanden från Usenet News. Förberedande analys Utvärdering av maskinellt mätbara egenskaper hos en text, med avseende på: - relevans för användaren - brukskostnad - implementationskostnad. Relevansen för användaren utgår från egenskapens menings- fullhet vid mänsklig (manuell) filtrering. Brukskostnaden är de maskinresurser (främst i form av CPU-tid) som krävs för att bedöma egenskapen hos ett visst meddelande. Implementationskostnaden är den (uppskattade) programmerings- insats som krävs för att göra egenskapen tillgänglig för programvara inom projektet. Detta innefattar inte bara nyut- veckling av programvara, utan kan också innebära installation och adaption av externa produkter. De egenskaper som för närvarande står under bedömning är: - Antal rader, ord och tecken - Nyckelsträngar i headern - Nyckelsträngar i citerad text - Nyckelsträngar i ociterad text - Meddelandets plats i kommentarsträdet - Citerad text : andel Hur stor del av meddelandet som utgörs av citerad text. - Citerad text : inkapslingsdjup Antal nivåer av citerad text. - Layout - Förekomst av datorrelaterade syntaxer och konstruktioner T ex programmeringsspråk, WWW-URL:er, email- adresser, FTP-adresser, shell-arkiv eller uu-arkiv. - Språk : nationalitet (t ex Franska, Tyska, Finska) - Textklassifikation av genre - Exakt matchning av större textstycken T ex för identifikation av återkommande citat eller signatursvansar. Specifikation Denna del av arbetet syftar till att välja ut ett antal egenskaper och välja en implementationsplattform för dessa. En representationsform för hur egenskaper knyts till ett meddelande skall också formuleras, t ex som speciella fält i meddelandehuvudet. Implementation Detta arbetssteg implementerar programvara som påför ett meddelande de utvalda egenskaperna i den formulerade representationsformen. Tidsplanering: v. 38-40 Förberedande analys v. 41-43 Specifikation v. 44-48 Implementation