Vad är automatisk textsammanfattning?

Automatisk textsammanfattning är tekniken där en dator sammanfattar en text. En text matas in i datorn och ut kommer en sammanfattad text, ett icke-redundant extrakt av orginaltexten

Tekniken har utvecklats under 30 år, men först idag med Internet och Webben har den fått större användning. Microsoft Word har sedan 1997 en sammanfattare av dokument. (se under menyn Verktyg , där finns Sammanfattning ).

Automatisk textsammanfattning kan användas:

SweSum är den första automatiska textsammanfattaren för svenska.
Den sammanfattar svensk tidningstext i HTML/text format på webben.
Under sammanfattningen produceras 5-10 nyckelord - en minisammanfattning.
Träffsäkerhet 84% vid 40% sammanfattning av korta nyhetstexter (orginaltexterna har en längd i medelvärde på 181 ord).

Automatisk textsammanfattning bygger på lingvistiska, statistiska och heuristiska metoder.
SweSum beräknar hur ofta vissa nyckelord förekommer i texten, (systemet har ett svenskt lexikon med 40 000 svenska nyckelord och deras 700 000 böjningsformer- nyckelorden tillhör den sk. öppna ordklassen) i vilka meningar, och var meningarna befinner sig i texten. Vidare tittar SweSum efter meningar med fetstil och numeriska värden.

Textsammanfattaren finns även för danska, norska, engelska, spanska, franska, grekiska, italienska, tyska och farsi (persiska) texter.

Läs mera

2007. Hassel, M. Resource Lean and Portable Automatic Text Summarization, PhD-Thesis, School of Computer Science and Communication, KTH, ISBN-978-91 7178-704-0, pdf.

2005. Müürisep, Kaili and Pilleriin Mutso. ESTSUM - Estonian newspaper texts summarizer. Proceedings of The Second Baltic Conference on Human Language Technologies. April 4-5, 2005. Tallinn, pages 311-316. pdf.

2005. Hassel, M and H. Dalianis. Generation of Reference Summaries. In the proceedings of the 2nd Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, April 21-23 2005, Poznan, Poland, pdf.

2005, de Smedt, K., A. Liseth, M. Hassel, H. Dalianis 2005. How short is good? An evaluation of automatic summarization. In Holmboe, H. (ed.) Nordisk Sprogteknologi 2004. Årbog for Nordisk Språkteknologisk Forskningsprogram 2000-2004, pp 267-287, Museum Tusculanums Forlag, pdf

2005. Pachantouris, George. GreekSum - A Greek Text Summarizer, Master Thesis, Department of Computer and Systems Sciences, KTH-Stockholm university, pdf.

2004. Liseth, Anja. Hvor kort er godt? : En evaluering av NorSum: en automatisk tekstsammenfatter for norsk. Hovedoppgave.  Seksjon for lingvistiske fag. Universitetet i Bergen, (på norska), html.

2004 Hassel, Martin: Evaluation of automatic text summarization - a practical implementation. Licentiate thesis, Stockholm, NADA-KTH, pdf.

2004. Dalianis, H., M. Hassel, K. de Smedt, A. Liseth, T.C. Lech and J. Wedekind. Porting and evaluation of automatic summarization. In Holmboe, H. (ed.) Nordisk Sprogteknologi 2003. Årbog for Nordisk Språkteknologisk Forskningsprogram 2000-2004, pp. 107-121. Museum Tusculanums Forlag, pdf.

2004 Hassel, M and N. Mazdak, FarsiSum - a Persian text summarizer, In the proceedings of Computational Approaches to Arabic Script-based Languages, Workshop at Coling 2004, the 20th International Conference on Computational Linguistics, August 28 2004, Geneva, Switzerland. pdf.

2004 Mazdak, Nima. FarsiSum - a Persian text summarizer, Master thesis, Department of Linguistics, Stockholm University, pdf.

2003. Dalianis, H., M. Hassel, J. Wedekind, D. Haltrup, K. de Smedt and T.C. Lech. Automatic text summarization for the Scandinavian languages. In Holmboe, H. (ed.) Nordisk Sprogteknologi 2002: Årbog for Nordisk Språkteknologisk Forskningsprogram 2000-2004, pp. 153-163. Museum Tusculanums Forlag, pdf.

2003 Hassel, M. Exploitation of Named Entities in Automatic Text Summarization for Swedish. In the proceedings of NODALIDA 2003, the 14th Nordic Conference of Computational Linguistics, Reykjavik, May
30-31, 2003. (pdf)

2003. Fallahi, Sasan: Computer aided text summarization. Using SweSum in a real newspaper environment. OH bilder tillgängliga här. (pdf).

2003. Wedekind, J. Brugervenligt værktøj til automatisk resummering af videnskabelige dokumenter. Danmarks Elektroniske Forskningsbibliotek. (html)

2002 Hassel, M. Development of a Swedish Corpus for Evaluating Summarizers and other IR-tools pdf

2001 Evaluation of the French text summarizer (på franska) pdf

2001 Hassel, M. Pronominal Resolution in Automatic Text Summarisation pdf

2000 Dalianis, H. SweSum - A Text Summarizer for Swedish, Technical report TRITA-NA-P0015, IPLab-174, NADA, KTH, October 2000, html


Ansvarig för sida: Hercules Dalianis <hercules@kth.se>
Senast ändring 24 nov 2008