METİN VERİLERDE DİZGİ EŞLEME VE SIKIŞTIRILMIŞ DİZGİ EŞLEME İŞLEMLERİ ARASINDAKİ PERFORMANS FARKLARININ İNCELENMESİ
Abstract
Bu çalışmada metinveriler üzerinde yapılmakta olan dizgi eşleme işlemi istatistikleri ile aynıveriler üzerinde gerçekleştirilen sıkıştırılmış dizgi eşleme işlemiistatistikleri karşılaştırılmıştır. Bu kıyaslamayı yapmak için daha öncegeliştirdiğimiz bir uygulama* iyileştirilmiştir ve test sonuçları bu uygulamasayesinde elde edilmiştir. Çalışmanın amacına uygun olarak literatürde mevcutdizgi eşleme algoritmalarının üzerinde herhangi bir değişiklik yapılmadan,sıkıştırılmış dizgi eşlemede de kullanılabilmesini sağlayan bir sıkıştırmayöntemi de sunulmuştur.Yapılan testlerde ikilive üçlü kodlamaya dayanan sıkıştırma algoritması %30-%35 arası bir sıkıştırmafaktörü sunarken, elde edilen sıkıştırılmış dizgi eşleme süresi,sıkıştırılmamış metin üzerinde yapılan dizgi eşleme süresinden daha düşükolarak bulunmuştur. Ayrıca, dizgi eşleme yaparken gerçekleştirilen karakterkarşılaştırma sayılarının sıkıştırılmış metinde, sıkıştırılmamış metne göredaha az olduğu saptanmıştır. Dolayısıyla geliştirilen algoritmanın amacı yükseksıkıştırma oranı sağlamak yerine, sıkıştırılmış dosya ile sıkıştırılmamış dosyaarasındaki metin işleme süreleri farklarına dikkat çekmek ve başka uygulamalariçin bir fikir oluşturmaktır.Ayrıca, üretilenalgoritma üzerinde bazı değişiklikler yapılarak sıkıştırma oranlarının %5 gibiiyileşmesi sağlanmış ve algoritmanın yeni hali çalışmada verilmiştir. In this study, statistics of the pattern matching on anun/compressed form of the same text data are compared. In order to achieve this goal, a previously developed* application wasimproved. This modified application provided the test results of this study. The purpose of the study ispresenting a compression method that can be used in compressed pattern matchingwithout any changes on pattern matching algorithms which are previously studiedin the literature.During thetests, the digram and trigram encoding based compression algorithm has provided a compression factor between 30-35%, and theas-obtained compressed pattern matching duration on the compressed text iscalculated less than the one on the uncompressed text. In addition, it is confirmed that the total number ofcharacter comparisons on the compressed text matching is less than the one on theuncompressed texts. Therefore, the purpose of the as-developed algorithm is todraw attention to the pattern matching process time difference between thecompressed and uncompressed text, instead of providing a high compressionratio. Besides, the aim of the study is to lead prospective pattern matchingapplications based on the points captured in this work. In addition, the changesmade to the algorithm have increased the compression ratio by 5% and the newversion of the algorithm is also explained in this study.
Source
Ejovoc (Electronic Journal of Vocational Colleges)Volume
6Issue
3URI
https://dergipark.org.tr/tr/pub/ejovoc/issue/36634/417043https://dergipark.org.tr/tr/download/article-file/460611
https://hdl.handle.net/20.500.11857/3955
Collections
- Makale Koleksiyonu [335]