truecase — Python Paketleri #0

Ahmet Ataşoğlu
1 min readMar 19, 2023

truecase, alfabetik karakterleri büyük-küçük harfe dönüştürmenin üçüncü bir alternatifi sunuyor: İmla kurallarına uygun, otomatik büyük küçük harf dönüşümü.

Örneğin:

kurtuluş savaşı, atatürk’ün samsun’a çıkışıyla başladı.

Cümlesini, truecase ile düzenlersek:

Kurtuluş Savaşı, Atatürk’ün Samsun’ a çıkışıyla başladı.

Çıktısını elde edebiliriz.

Neden gerekli?

Metinlerden bilgi çıkarımı yapılırken, dil modellerinin büyük-küçük harf durumuna duyarlı olması, performansı düşürebilir. Sözgelimi modeller, imla kurallarına uygun şekilde öğrendikleri varlık isimlerini (konum, kişi, kurum vb), imla kurallarına uygun yazılmamış girdi metinlerinde gözden kaçırabilirler. Bu nedenle, girdi metinleri ön işlem sırasında uygun şekilde büyük-küçük harf durumuna getirmek yararlı bir işlem olabilir.

Buradaki repoda, Türkçe Wikipedia makaleleri üzerinde (260 binden fazla benzersiz kelime içeriyor) eğitilmiş bir truecase modeline erişebilirsiniz.

Kullanım:

>>> from truecase import TrueCaser
>>> tc = TrueCaser('turkish.dist')
>>> tc.get_true_case("önemli iki nato üyesi ülke abd ve türkiye")
'Önemli iki NATO üyesi ülke ABD ve Türkiye'
>>> tc.get_true_case("ayşe, ahmet ve zeynep hep birlikte antalyaya tatile gitti")
'Ayşe, Ahmet ve Zeynep hep birlikte Antalyaya tatile gitti'
>>> tc.get_true_case("kurtuluş savaşı, atatürk'ün samsun'a çıkışıyla başladı.")
"Kurtuluş Savaşı, Atatürk'ün Samsun' a çıkışıyla başladı."

--

--