NLP’de Kullanılan Rnn Mimarileri Nelerdir?

GRU (Gated Recurrent Units)

GRU rnn’de karşılaştığımız Vanishing ve Exploding Gradient problemlerin çözümü için geliştirilen RNN mimarilerinden birisidir.(Cho,2014) GRU vanishing gradient problemini update ve reset gate adı verilen yapılarla çözüyor. Update gate z_t uygulanan sigmoid sonucu 0 ise bir önceki hafızayı koruyor, eğer 1 ise o an ki hafızayı yeni değerle güncelliyor.

z_t = σ(W_z [h_t-1,x_t])

Bu sayede vanishing gradient probleminin önüne geçilmiş oluyor. Bunun dışında geçmişte kalan sözcüklerin çoğul veya tekil olma durumu, lokasyon veya kişi bilgileri de aktarılmış oluyor. Reset gate r_t hafızaya eklenecek aday bilgiyi hesaplarken kullanıyor. Hafıza adayının önceki hafıza ile ne kadar alakalı olduğunu tahmin ediyor. Geçmiş bilgilerin ne kadarının unutulacağına karar veriyor.

r_t = σ(W_r [h_t-1,x_t])

Reset ve update gate’in çıkışa nasıl etki ettiğini incelersek, geçmişteki ilgili bilgileri saklamak için reset gate’i kullanacak yeni bir bellek içeriği sunuluyor. Bu işlem aşağıdaki şekilde hesaplanıyor.

ĥ = tanh(W [r_t ∗ h_t-1,x_t])

Bu durum önceki zaman adımlarından neyin silineceği belirler. Son adım olarak mevcut rnn ünitesi için bilgileri tutan ve tuttuğu bilgiyi tüm networke ileten h_tdeğerinin hesaplanması gerekiyor. Bu işlemi yapabilmek için güncelleme kapısına ihtiyaç duyuluyor.

h_t= (1 – z_t) ∗ h_t-1+ z_t ∗ ĥ

**GRU- Chung, Junyoung, “Empirical evaluation of gated recurrent neural networks on sequence modeling.” (2014)**

LSTM (Long Short Term Memory)

LSTM RNN in uzun dönem hafızası olan bir türüdür.(Hochreiter, 1997) GRU’unda genelleştirilmiş bir versiyonudur diyebiliriz. LSTM’in temel RNN’e göre avantajı hem uzun hem de kısa dönem hafızası olması.

“the clouds are in the sky,” cümlesinde son kelimeyi tahmin etmeye çalışırsak. Bu zaman akışına ters düşmediği ve cümle kısa olduğu için tahmin edilmesi oldukça kolaydır.

RNN geçmişteki kelimeleri kullanarak öğrenebiliyor. Eğer cümlemiz “I grew up in France… I speak fluent French.” şeklinde olsaydı. (Source : https://colah.github.io/posts/2015-08-Understanding-LSTMs/)

Yani cümlenin başında Fransa’da büyüdüğünü söylüyor aradan birçok cümle geçiyor ve metnin sonunda Fransızcayı akıcı olarak konuşabildiğini söylüyor.. RNN bu konuda yetersiz kalıyor. Teoride RNN France ve French ilişkisini kurabilmesi gerekiyor fakat cümle uzadıkça RNN bu bağlantıyı öğrenemiyor.

LSTM kısa ve uzun dönemli hafızasıyla bu sorunun üstesinden geliyor. LSTM de de GRU da olduğu gibi çıkışa etki eden geçitler bulunmakta, GRU da ki reset geçitinin yerine forget ve çıkış geçitleri kullanılıyor.

f_t= σ(W_f [h_t-1,x_t] + b_f)

Forget gate de f_t LSTM kendisine gelen bilgilerden hangisinin unutulması gerektiğine karar veriyor. Karar verme işlemini sigmoid fonksiyonu sayesinde yapıyor. Denklemi incelersek t-1 zamanındaki hidden state ve t anındaki input alınıyor. Simoid sonucu 0 yakın olan bilgilerin çoğu geçitten geçemezken, bire yakın olan hesaplanan bilgi aktarılmış oluyor.

i_t= σ(W_i[h_t-1, x_t] + b_i)

Ĉ_t = tanh(W_c[h_t-1] + b_c)

Input gate i_thangi bilgilerin güncelleneceğine karar veriyor. Tanh katmanı ise cell state’e eklenmeye aday değerlerden bir vektör oluşturuluyor. Sonrasında iki denklem birleştirilerek cell state ekleniyor. Böylelikle cellstate hangi yeni bilginin hafızaya eklenmesi gerektiği belirlenmiş oluyor. Yukarıdaki 3 sinir ağında işlemler tamamlandıktan sonra eski cell statein C_t güncellenmesi gerekiyor.

C_t = f_t ∗ C _t-1 + i_t ∗ Ĉ_t

t-1 zamanında aldığımız cell state (C _t-1) üzerinde forget gate işlemi yapılıyor. Bu sayede unutulması gereken bilgiler cell state’den çıkarılıyor.input gate i_tve cell state aday değerleri Ĉ_tüzerinde işlem yapılarak cell state’e eklenmesi gereken bilgiler belirlenmişti. Toplama işlemi yapılarak yeni C_t oluşturuluyor. Son olarak output’un ne olması gerektiğine output gate o_tsayesinde karar veriliyor.

o_t= σ(W_o [h_t-1,x_t] + b₀)

h_t= o_t∗ tanh(C_t)

Output gate’inde o_toutput olarak hangi bilgilerin verileceği belirleniyor. Sonrasında cell state tanh fonksiyonundan geçiriliyor. Tanh -1 ve 1 aralığında değerler üreten bir aktivasyon fonksiyonudur. Çıkan değeri output gate değeriyle işleme soktuğumuzda cell state’in istediğimiz kısımlarını output olarak vermiş oluyoruz.

**LSTM – Chung, Junyoung, “Empirical evaluation of gated recurrent neural networks on sequence modeling.” (2014)**

Bidirectional RNN

Cümle içerisinde geçen kelimeleri türüne göre sınıflandırdığımızı düşünelim. Cümlede geçen kelimeleri insan, yer ismi,şirket ismi,tarih gibi etiketlerle etiketleyebiliriz. Örneğin;

“General relativity is an exciting theory about the physics of space and time.”

Buradaki General kelimesini herhangi bir şekilde etiketleyemiyoruz. Eğer cümlemiz aşağıdaki şekilde olsaydı.

“General Lee and the Confederate Army lost the great battle.”

General kelimesini insan olarak etiketleyebiliriz. Benzer şekilde cümle,

General Motors araba üreten bir şirkettir.” Olursa burda General Motors’u şirket ismi olarak etiketleyebiliriz.

LSTM ve GRU cümledeki kelimeleri tahmin ederken General kelimesine tek bir kelime gibi davranacak ve cümle bütünündeki anlamına göre bu kelimenin bir insan ismi mi, bir şirket adımı olduğunu bulamayacak. Bu cümleler bir insana gösterilmiş olsaydı bunu kolaylıkla anlayabilirdi. Çünkü aynı anda tüm cümleyi birlikte görebiliyoruz. RNN geçmişteki bilgileri görebilirken gelecekteki bilgileri göremiyor.

Bu problemin çözümü için bidirectional RNN yapısı kullanılıyor. Öncelikle RNN mimarisinde yapılan hesaplamaların aynısını bidirectional RNN yapısında da benzer şekilde uyguluyoruz. Bu RNN mimarisi GRU veya LSTM de olabilir.

**Bidirectional RNN – Schuster, Paliwal, “Bidirectional Recurrent Neural Networks” (1997)**

BRNN gelecekteki bilgileri görebilmek ve y çıkışlarını tahmin edilebilmesi için ileri ve geri yönlü işlemlerin tamamlanıp tüm hidden state değerlerinin hesaplanmış olması gerekiyor. Bu aşamada gerçekleşen işlem ileri ve geri yayılım sürecinden bağımsız olarak gerçekleşiyor.

İleri yönde hesaplanan forward states değerleri kendinden önceki forward state değerlerine bağlı, geri yönde hesaplanan backward state değeri ise yine kendinden önce gelen backward state değerine bağlı.Yani bir çıkış hesaplanırken hem geçmişteki hem de gelecekteki verilerden yararlanmış oluyoruz.

BRNN elimizde belli bir metnin olduğu durumlarda oldukça başarılı olurken anlık gerçekleşen serilerde gelecekteki bilgiye sahip olmadığımız için başarılı olamayacaktır. Bunu modeli geliştirirken göz önünde bulundurmalıyız.

Bu makalede en çok kullanılan rnn mimarilerini tanımış olduk. Sonraki yazımlarımda bütün bu mimarilerin gerçek bir uygulamada nasıl bir arada kullanılabileceğini göstermiş olacağım.

Murat.

NLP’de Kullanılan Rnn Mimarileri Nelerdir?

Bymgm

By mgm

Related Post

Windows 11 Performans Rehberi

Windows 10’dan Windows 11’e Geçilir Mi? (Performans, Oyun ve Yazılım)

Windows 11 ve Windows 10’da %100 CPU Kullanımı Sorunu Nasıl Çözülür? Bilgisayar Kasma ve Donma Problemi Kesin Çözümler

One thought on “NLP’de Kullanılan Rnn Mimarileri Nelerdir?”

Bir yanıt yazın Yanıtı iptal et

You missed

Windows 11 Performans Rehberi

Windows 10’dan Windows 11’e Geçilir Mi? (Performans, Oyun ve Yazılım)

Windows 11 ve Windows 10’da %100 CPU Kullanımı Sorunu Nasıl Çözülür? Bilgisayar Kasma ve Donma Problemi Kesin Çözümler

C# 12 ile Gelen Yenilikler: Geliştiricilerin Bilmesi Gereken Özellikler