İnsanoğlunun varoluşundan itibaren ürettiği anlamlı sesler dizisi ve bu dizilerin yazılı olarak ifade edildiği kurallar bütününe doğal dil denir. Dil insan zekasının göstergesi olan en önemli iletişim protokolüdür. Bu protokolü işletebilmek için beynimizin neocortex kısmında oldukça karmaşık işlemler gerçekleşir. Neocortex elde ettiği veriyi işlemede oldukça başarılı olsa da günden güne artan veri yoğunluğu veri içinden anlamlı kısmı bulup çıkarmasını güçleştiriyor. Veri yığınları arasından önemli kısımları bulmak oldukça zaman alıyor. Bize lazım olan anlamlı bilgiye kısa zamanda nasıl ulaşabiliriz sorusunun cevabı metin özetlemedir. Basitçe verilen uzun bir metinden doğal dil işleme (NLP) tekniklerini kullanarak metni temsil eden anlamlı bir özet çıkarma işlemine metin özetleme denir.
Günümüzde teknolojinin insan hayatının her alanına girmesiyle beraber etrafımızda ki veri miktarı da bu gelişime doğru orantılı olarak hızla artmakta. Bir araştırma yaptığımızı düşünelim aradığımız konuyla ilgili birçok metin tabanlı materyal ile karşılaşırız. Veri yoğunluğu içinde aradığımız konuya odaklanmamız zor olacaktır. Zamanla verimliliğimiz düşecektir. Belki de bir metinde ki önemli bir kısmı gözümüzden kaçırmış olacağız. Bu gibi durumlarla her gün karşılaşıyoruz. Benzer problemler metin içinden anlamlı bir özet çıkarma işlemini bir gereklilik haline getirmekte.
Automatic text summarization uzun bir metnin anlamlı akıcı kısa bir versiyonunu oluşturmaktır.
Özetleme deyince, bir haberle veya bir makale ile ilgili olan bir başlık, filmlerde ki fragman görüntüleri, kitap özetleri, televizyon yayın akışı özetleri, hava durumuyla ilgili özet bilgiler, finansal bilgilerin özet olarak verilmesi, tarihte ki önemli olayların listelenmesi gibi birçok örnek verilebilir.
Verilen bir metnin özetini nasıl oluşturabiliriz? Literatürde bu sorunun cevabı olarak iki farklı yaklaşım bulunmakta. Çıkarım(Extractive) yöntemleri ve Soyut Eğilimli (Abstractive) yöntemler. Text summarization işlemi giriş tipine göre single veya multi document, amacına göre generic, domain specific veya query based, çıktısına göre extractive veya abstractive olarak sınıflandırılabilir.
Extractive Summarization
Extractive özetlemelerde metin içerisinden önemli görülen kelimeler veya cümleler seçilir. Seçilen cümlelerden ise bir metin oluşturulur. Bir sınava çalışırken okuduğumuz kitap veya defterde ki cümleleri tekrar üzerinden geçmek üzere highlight ettiğimizi düşünelim.
Geçmişte birçok özetleme uygulaması çıkarım yöntemleri kullanılarak yapılmaktaydı. Çıkarım metin özetleme teknikleri, metin içinden var olan cümlelerin seçilmesine dayanıyor. Çıkarım yöntemleri kullanılarak başarılı çözümler uygulanabiliyor.
Abstractive Summarization
İnsanlar özetleme konusunda çıkarım özetleme tekniklerinden çok daha fazlasını yapabiliyor. Bir metni özetlemeye çalıştığımızda beynimiz metnin semantik gösterimini oluşturuyor. Bu gösterimden ise özet çıkartıyoruz. Buna soyut eğilimli yöntem diyoruz.
Abstractive özetlemeler verilen ana konuyla alakalı yeni bir metin üretmeye dayalı tekniklerdir. Bir konunun özetini çıkarmaya çalıştığımızı düşünelim, bunun için metin içerisinden uzunca bir kısmı okuruz. Ardından aklımızda kalan kelimelerden bir metin oluştururuz. Abstractive summarization insan yaklaşımıyla özet üretir. Abstractive summarization yöntemleriyle özetleme yapabilmek için yapay sinir ağları kullanılabilinir.
Sonraki yazılarımda Extractive Summarization için 4 farklı algoritma anlatacağım.
Umarım faydalı olmuştur.Diğer yazılarda görüşmek üzere.
Murat.