Automatisk textsammanfattning är tekniken där en dator sammanfattar en text. En text matas in i datorn och ut kommer en sammanfattad text, ett icke-redundant extrakt av orginaltexten
Tekniken har utvecklats under 30 år, men först idag med Internet och Webben har den fått större användning. Microsoft Word har sedan 1997 en sammanfattare av dokument. (se under menyn Verktyg , där finns Sammanfattning ).
Automatisk textsammanfattning kan användas:
SweSum är den
första automatiska textsammanfattaren
för svenska.
Den sammanfattar svensk tidningstext i HTML/text format på
webben.
Under sammanfattningen produceras 5-10 nyckelord - en
minisammanfattning.
Träffsäkerhet 84% vid 40% sammanfattning av korta
nyhetstexter (orginaltexterna
har en längd i medelvärde på 181 ord).
Automatisk textsammanfattning bygger på
lingvistiska, statistiska
och heuristiska metoder.
SweSum beräknar hur ofta vissa nyckelord förekommer i texten,
(systemet
har ett svenskt lexikon med 40 000 svenska nyckelord och deras 700 000
böjningsformer-
nyckelorden tillhör den sk. öppna ordklassen) i vilka
meningar, och var
meningarna befinner sig i texten. Vidare tittar SweSum efter meningar
med fetstil
och numeriska värden.
Textsammanfattaren finns även för danska, norska, engelska, spanska, franska, grekiska, italienska, tyska och farsi (persiska) texter.
2007. Hassel, M. Resource Lean and Portable Automatic Text Summarization, PhD-Thesis, School of Computer Science and Communication, KTH, ISBN-978-91 7178-704-0, pdf.
2005. Müürisep, Kaili and Pilleriin Mutso. ESTSUM - Estonian newspaper texts summarizer. Proceedings of The Second Baltic Conference on Human Language Technologies. April 4-5, 2005. Tallinn, pages 311-316. pdf.
2005. Hassel, M and H. Dalianis. Generation of Reference Summaries. In the proceedings of the 2nd Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, April 21-23 2005, Poznan, Poland, pdf.
2005, de Smedt, K., A. Liseth, M. Hassel, H. Dalianis 2005. How short is good? An evaluation of automatic summarization. In Holmboe, H. (ed.) Nordisk Sprogteknologi 2004. Årbog for Nordisk Språkteknologisk Forskningsprogram 2000-2004, pp 267-287, Museum Tusculanums Forlag, pdf
Ansvarig för sida: Hercules Dalianis
<hercules@kth.se>
2005. Pachantouris, George. GreekSum - A Greek Text Summarizer, Master Thesis, Department of Computer and Systems Sciences, KTH-Stockholm university,
pdf.
2004. Liseth, Anja. Hvor kort er godt? : En evaluering av NorSum: en
automatisk tekstsammenfatter for norsk. Hovedoppgave. Seksjon for
lingvistiske fag. Universitetet i Bergen, (på norska), html.
2004 Hassel, Martin: Evaluation of automatic text summarization -
a
practical implementation. Licentiate thesis, Stockholm, NADA-KTH, pdf.
2004. Dalianis, H., M. Hassel, K. de Smedt, A. Liseth, T.C. Lech and J.
Wedekind. Porting and evaluation of automatic summarization. In
Holmboe, H. (ed.) Nordisk Sprogteknologi 2003. Årbog for Nordisk
Språkteknologisk Forskningsprogram 2000-2004, pp. 107-121. Museum
Tusculanums Forlag, pdf.
2004 Hassel, M and N. Mazdak, FarsiSum - a Persian text summarizer, In the proceedings of Computational Approaches to Arabic Script-based Languages, Workshop at Coling 2004, the 20th International Conference on Computational Linguistics, August 28 2004, Geneva, Switzerland. pdf.
2004 Mazdak, Nima. FarsiSum - a Persian text summarizer, Master thesis,
Department of Linguistics, Stockholm University, pdf.
2003. Dalianis, H., M. Hassel, J. Wedekind, D. Haltrup, K. de Smedt and
T.C. Lech. Automatic text summarization for the Scandinavian languages.
In Holmboe, H. (ed.) Nordisk Sprogteknologi 2002: Årbog for
Nordisk
Språkteknologisk Forskningsprogram 2000-2004, pp. 153-163. Museum
Tusculanums Forlag, pdf.
2003
Hassel, M. Exploitation of Named Entities in Automatic Text Summarization for Swedish.
In the proceedings of NODALIDA 2003, the 14th Nordic Conference of Computational
Linguistics, Reykjavik, May
30-31, 2003. (pdf)
2003. Fallahi, Sasan: Computer aided text summarization. Using SweSum in a real newspaper environment. OH bilder tillgängliga här. (pdf).
2003. Wedekind, J. Brugervenligt værktøj til automatisk resummering af videnskabelige dokumenter. Danmarks Elektroniske Forskningsbibliotek. (html)
2002 Hassel, M. Development of a Swedish Corpus for Evaluating Summarizers and other IR-tools
pdf
2001 Evaluation of the French text summarizer (på franska) pdf
2001 Hassel, M. Pronominal Resolution in Automatic Text Summarisation pdf
2000 Dalianis, H. SweSum - A Text Summarizer for Swedish, Technical report TRITA-NA-P0015, IPLab-174, NADA, KTH, October 2000, html
Senast ändring 24 nov
2008