Başlık: Genetik dizilerdeki hataları düzeltmek için yeni bir yaklaşım
Diğer Başlıklar: A new approach to correct errors in the genetic sequence
Yazarlar: Aras, Elif
Anahtar kelimeler: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol;Computer Engineering and Computer Science and Control
Yayın Tarihi: 2018
Yayıncı: Karadeniz Teknik Üniversitesi
Özet: Genetik, genom bilgisini öğrenip canlıların tüm yapı ve aktivitelerini incelemeyi hedefleyen bir bilimdir. Bu amaçla 20.yy başından günümüze kadar canlıların genom dizilerinin elde edilmesine çalışılmaktadır. DNA dizilimi; adli tıp, mikrobiyoloji, tıbbı tanı koyma, genetik hastalıkların tespiti ve biyokimyasal alanındaki problemlere çözüm bulmak için kullanılmaktadır. DNA dizileme çalışmalarına, geleneksel dizileme yöntemleriyle başlanmış olup, bu yöntemler düşük hatalı dizilim elde etse de uzun sürede ve yüksek maliyette kısa parçaları dizilemeye daha uygundur. Bu yöntemlerin dezavantajlarını gidermek amacıyla kısa sürede ve düşük maliyette tüm genom bilgisini elde edebilecek yeni nesil dizileme yöntemleri geliştirilmiştir. Ancak yeni nesil dizileme yöntemlerinin hata oranları geleneksel yöntemlere göre fazladır. Bu problemi çözmek amacıyla, bu çalışmada yeni nesil dizileme yöntemleriyle elde edilen genom bilgisindeki okuma hatalarını tespit edip düzeltecek yeni bir algoritma önerilmiştir. Önerilen algoritmada k-mer yaklaşımı kullanılarak okunan sekanslar gruplandırılmıştır. Aynı bölgeyi temsil eden sekanslarda çoğunluk oylaması yapılarak, hatalı nükleotidler doğru nükleotidlerle değiştirilerek sekanslar güncellenmektedir. Önerilen hata düzeltme algoritması farklı veri setleri üzerinde test edilmiş olup mevcut hata düzeltme algoritmalarına çok yakın veya daha iyi sonuçlar elde ettiği gözlemlenmiştir. Önerilen algoritmanın duyarlılık değeri [97,00-98,18] özgüllük değeri ise [99,62-99,88] aralığında bulunmaktadır. Literatürdeki mevcut algoritmalarda duyarlılık değeri [96,60-99,99], özgüllük değeri ise [48,81-100,00] aralığında değişmektedir. Genetics is a science that aims to learn the genome knowledge and study all structures and activities of living things. For this purpose, genome sequences of living beings have been studied from the beginning of the 20th century to the present. DNA sequencing; forensic medicine, microbiology, medical diagnosis, detection of genetic diseases and biochemical problems are used to find solutions. DNA sequencing studies have begun with traditional sequencing methods, and these methods are more suitable for sequencing short fragments in a long time and at high cost, even if they are misregulated. In order to eliminate the disadvantages of these methods, next generation sequencing methods have been developed which can obtain whole genome information in a short time and at low cost. However, the error rates of the next generation sequencing methods are higher than the traditional methods. In order to solve this problem, a new algorithm has been proposed to detect and correct the reading errors in genome information obtained by next generation sequencing methods in this study. In the proposed algorithm, the sequences read using the k-mer approach are grouped. In the sequences representing the same region, the majority of the sequences are performed and the sequences are updated by replacing the faulty nucleotides with the correct nucleotides. The proposed error correction algorithm has been tested on different datasets and it has been observed that it provides very close or better results to existing error correction algorithms. The sensitivity value of the proposed algorithm is [97,00-98,18] and the specificity is in the range of [99,62-99,88]. In the current algorithms in the literature, the sensitivity value is [96,60-99,99] and the specificity is in the range [48,81-100,00].
