GDSC VERİLERİNİ KULLANARAK YAPAY ÖĞRENME YÖNTEMLERİ İLE AKCİĞER KANSERİ İÇİN HEDEF İLAÇ VE YOLAK TAHMİNİ


Tercan A., Özcan G.

Eskişehir Osmangazi Üniversitesi mühendislik ve mimarlık fakültesi dergisi (online), cilt.31, sa.2, ss.729-736, 2023 (Hakemli Dergi) identifier

Özet

Bu çalışmada literatürde yer alan ve uluslararası alanda öneme sahip olan GDSC veri kümesinde yer alan akciğer kanseri verileri toplanmış, ve bu veriler üzerinde yapay öğrenme yöntemleri kullanarak tahmin yapmak hedeflenmiştir. Bu amaçla ilaç dozunun yarılanma süresine bağlı hedef ilaç ve hedef yolak tahminleri yapılmıştır. Elde edilen bu iki tahminin yine literatürde yer alan CTDBase isimli bir veri kümesinden hastalık tahmini için kullanılması amaçlanmıştır. Böylece ilaçların doz kullanım bilgilerinin hangi hastalıkla ilişkili olabileceği sayısal verilerden tahmin edilmeye çalışılmıştır. Yapılan tahmin işlemi makine öğrenmesi algoritmaları kullanılarak yapılmıştır. Bu süreçte Python programlama dili ile kodlama yapılmış ve bu dilin makine öğrenmesi araçlarından faydalanılmıştır. Elde edilen sonuçlara göre Neighborhood Components Analysis temelini kullanan kNN algoritmasının GDSC veri kümesinde verimli tahmin performansına ulaştığı sonucuna varılmıştır. Bu nedenle kNN algoritması farklı k değerleri ile daha detaylı analiz edilmiştir. Elde edilen tahmin sonuçları % 70 - % 90 aralığında bulunmuştur. Bu sonuçlar makine öğrenmesi algoritmalarının kanser ilaç verilerine ait bilinmeyen anlamlı örüntüleri ortaya çıkarma potansiyeli olduğunu göstermektedir.
In this study, lung cancer data is collected from literally cited GDSC dataset, and it was aimed to make predictions on the data using machine learning methods. For this purpose, target drug and target pathway estimates were made depending on the half-life of the drug dose. These two predictions are aimed to be used for disease prediction from a dataset called CTDBase, which is also cited in literature. Thus, it can be possible to predict relation between disease and the dose usage information of drugs. The estimation process was made using machine learning algorithms. In this process, coding was done with the Python programming language and machine learning tools of this language were used. According to the results obtained, it was concluded that the kNN algorithm with Neighborhood Components Analysis achieved efficient prediction performance in the GDSC dataset. For this reason, the kNN algorithm was analyzed in more detail with different k values. The estimation results obtained were in the range of 70% - 90%. These results show that machine learning algorithms have the potential to reveal unknown significant patterns in cancer drug data.