Zıplanacak içerik
  • Üye Ol

Önerilen İletiler

Gönderi tarihi:

1. Giriş

 

Çocukların denetimsiz internet kullanımı önemli tehlike ve riskleri de beraberinde getiriyor.

 

İnternet kullanımının çığ gibi yayıldığı günümüzde çocuklar da neredeyse sonsuz bir bilgi ve iletişim olanağına sahip oldular. Çocuklar internet sayesinde ansiklopediler, güncel olaylar, kütüphaneler ve diğer birçok değerli malzemeye kolayca erişiyorlar.

 

Ayrıca sadece "tık"layarak birçok alanda "gezinebilme" olanağı çocuklarda doğal olarak var olan dürtüsel davranış, merak ve çabuk haz veya yanıt alma ihtiyacına da yanıt veriyor.

 

Buna karşın çocukların denetimsiz bir şekilde internet kullanmalarının ciddi risk ve tehlikeleri de mevcut.

 

İnternet kullanımını deneteme ve sağlıklı hale getirmede web içerik tarama ve ebeveyn kontrolü çözümü devreye girmektedir. Bu çalışmada hem sosyo-psikolojik hem de teknolojik alanlarda vurguları birlikte ve birbirini tamamlayıcı bir biçimde yapılacaktır.

 

İnternet nesillerin eğitimi yada dejenerasyonu için de kullanılabileceği için özellikle teknolojisi ile birlikte içeriğinin daha önemli olduğu bir kavramı tartışacağız. İçeriğin önemi ortaya çıkınca içeriğin lokalizasyonu ve içeriğin lokalizasyonundan ahlaki ve sosyal değerlerin yerel manalarına da atıfta bulunacağız.

 

Teknolojisi bakımından URL filtreleme, içerik filtreleme ve resim analizi kullanılan metotlardır. Bu çalışma hem içerik sağlama hem de metin içerik taramada yani yöntemler öne sürülecek hem de bu sistemlerin sosyal niteliklerinden dolayı yerelliklerine vurgu yapacaktır.

 

2. İÇERİK FİLTRELEME

 

İçerik filtrelemek için kullanılan teknikler:

· URL bloklama

· İçerik Tarama

· Resim Tanıma

URL yasaklama önceden hazırlanmış domain ve URL listelerine bakarak karar verme mekanizmasına sahiptir.

 

İçerik taramada birkaç metot kullanılır.

· Kelime Analizi

· Cümle Analizi

· Profil analizi

 

Kelime Analizi: Sayfa metninde kelime arama

Cümle analizi: Sayfa içerisinde cümle tarama

Profil Analizi: Sayfadaki resim metin oranları ve sayfa içerisinden yasak listedeki sayfalara ulaşım var mı yok mu ya bakan bir karar mekanizması. Mesela yasak siteler

 

· Özel kelimeler

· Resim oranının fazlalığı

· Koyu arka plan

· Büyük fontlar

 

Bununla birlikte cinsel eğitim siteleri

· Metin oranı çok fazla

· Dil bilgisi kurallarına uygun

· Açık arka planlar

· Basit fontlar

· Ve az resim bulundurur.

 

Resim tanıma: Sayfanın içindeki resmi algılama yöntemiyle karar verme mekanizmasına sahiptir.

Yukarıda bahsedilen metotların bazılarının sisteme getirdiği handikaplar pek çoktur. Mesela profil analizi sistemi yavaşlatır. Cümle analizi de. Gerçek zamanda resim tanıma yapabilen ticari ebeveyn kontrol yazılımı yoktur çünkü bu sistem kaynaklarını yorması bakımından çok kaynak isteyen ve kullanıcının beklemesine dayanan ve dolayısı ile hizmet kalitesini düşüren bir yöntemdir. Sadece bazı durumlarda yardımcı yöntem olarak önerilmektedir [8,9,10].Özellikle resim tanımada kullanılan yöntemlerden biri yapay zeka kullanmaktır [11]. Yapay zeka ayrıca sayfadaki elemanların analiz edilmesi için de kullanılan tekniklerden biridir..

 

Kolaylıkla tahmin edilebileceği gibi yukarıdaki yöntemlerden içerik tarama yöntemi büyük ölçekte yerelleştirme gerektiren bir yöntemdir. Mesela “PKK” yabancı bir yazılım dolayısı ile yabancı bir içerik için zararlı bir içerik değilken Türkiye ve Türkler yani bizim için zararlı bir içeriktir. Ayrıca yukarıda bahsedilen yöntemlerden URL yasaklama ve içerik tarama güncellenen ve güncellenebilir içeriği destekleyen mekanizmalara sahip olmalıdırlar. Bu yöntemleri kullanırken kullanıcı memnuniyeti de hiçbir zaman gözden kaçırılmamalıdır. Sizin karar verme mekanizmanın doğruluk oranı çok yüksek olabilir ama kullanıcı internette gezmek için çok beklerse memnuniyetsizliği artar.

 

Dolayısı ile içerik taramada başarı ve performans birbirinin tamamlayıcısıdır. Biri için diğerinden vazgeçilemez.

 

3. TEMİZ İÇERİK ALGILAMA

 

Bazı kelimeler kullanım yerine göre çok uygunsuz bir site veya içeriği uygun olabilecek bir siteye işaret ediyor olabilirler. Örneğin; Virgin kelimesi bir sitede geçiyorsa o site engelleniyor. Bunun gibi hem iyi sitelerde hem de kötü sitelerde geçebilen bir sürü kelime var ve bu kelimeleri kullanan milyonlarca iyi site olabilir. Virgin bakire anlamının yanında el değmemiş anlamına da geliyor. Bu kelimenin geçtiği site sanat içerikli bir site de olabilir.

 

Kelime filtrelerken kullanılan üstün teknolojisi ile Webjini, sitelerin uygun olup olmadığına karar vermede hem kısa sürede hem de amaca yönelik hareket edilmesini sağlar. Bu teknolojiyi kısaca aşağıdaki örnekle açıklayabiliriz;

Göğüs kelimesi ile kanser kelimesi bir sitede birlikte geçiyorsa -50 puan, eğitim geçiyorsa -10 puana sahip. Eğer bu kelimeler bir sitede aynı anda bulunuyorsa bu site toplam -60 puana sahip oluyor. Yani olumlu bir site. Dolayısı ile bunun medikal içerikli bir site olabileceği fikri uyanıyor. Sadece göğüs kelimesi geçiyorsa +20 puan eğitim geçiyorsa -10, toplamda +10 oluyor ve site zararlı içerik diye algılanır. Yani kelime kombinasyonuna bağlı bir puanlama sistemi oluşturuluyor.

 

Bunun gibi belli kelimelere puanlar verilerek sitenin olumlu olup olmadığı konusunda daha kesin bir kanıya varılabilir.

 

Bu çalışmada Dr. Ertuğrul Akbaş ve ekibi tarafından geliştirilen Webjini [3] motoru kullanıldı. Temiz içerik algılamada en önemli tekniklerden biri HTML sayfasını hafızada oluşturmak ve HTML tag larını sıyırmaktır. Webjini motoru bu yeteneğe sahip olduğu için bu motorda birkaç yenilik ile bu sağlanmıştır.

 

Diğer bir yenilik de gelen isteğin dilinin tespit edilmesi bunu için kelime frekans analizleri-smoothed frequency probability distribution, compared using cross-entropy, simple frequency rank- kullanıldı

 

Dil tespiti dinamik içerik tarama ve temiz içerik algoritmasında kullanılır.

 

Linguistik analiz yeteneği yine bir filtreleme motorunun gücünü gösteren bir yetenektir. Webjini motoru bu yeteneğe sahip olduğu için bu motorda birkaç yenilik ile bu sağlanmıştır.

 

4. CRAWLER ANALİZİ

 

Bu çalışmada kullanılan webjini motoru URL ve dinamik içerik taramayı birlikte yapabilme yeteneğine sahip bir motor barındırmaktadır. URL tarama kesinliği %100 olan teknik için offline sayfa analizi, bunun merkezi bir veritabanında toplanması ve daha sonra bunun güncellemeler ile kullanıcılara dağıtılması adımlarını içeren bir algoritmadır.

 

Bu analiz merkezi yada yük dağılımı yapılmış arka serverlarda metin, resim ve editörler aracılığı ile toplanan URL lerin merkezi sistemden dağıtılması –Push Method- için offline olarak geliştirilen metin tarama, resim tarama ve obje analizi yapılarak daha sonra istenirse editörel bir onaydan sonra URL veritabanına kaydedilmesinin sağlanmasına bu çalışmada crawler analizi denmiştir.

 

5. TEKNOLOJİK VE SOSYO-KÜLTÜREL GEREKSİNİMLER

 

Bir çözümün kullanılabilmesi için teknolojik altyapı ve gereksinimlerin karşılanması olmazsa olmaz şarttır. Bu özellikler:

 

Tarama Yeteneği: adres satırı ve başlık haricinde sayfanın tamamında içerik tarayabilmesidir. Ve bu konuda kararlı (stable ) bir motora (engine) sahip olması ve kişiye ve kültüre göre özelleştirilebilmelidir. Bunu sağalmak için kelime ve cümleler gibi tarama verileri kullanıcılar tarafından eklenebilmeli.

 

Linguistik Analiz: Analiz yaparken şu temel hatayı yapmamalı. ‘kale’ kelimesini yasaklayınca ‘makale’ kelimesini yasaklamamalı. Türkçe konusunda da duyarlı olmalı

 

HTML Encoding: Sağlıklı birşekilde içerik tarama ve dinamik içerik tarama yöntemlerinin uygulanabilmesi için sistemin <, >, " and &, gibi HTML, XML, ve SGML formatlarında tanımlanmış yada

SEX yerine SEX

**** yerine *********** gibi.[5]

 

Temiz İçerik Algılama: Zararsız içerik tanıma teknolojisine sahip olmalı.

 

Veritabanı Genişliği ve Yerel Veritabanı Desteği: Türkçe bir yasaklı URL listesine sahip olmalı ve bu işe atanmış editörler vasıtasıyla özellikle Türkçe siteleri devamlı tarayıp veritabanını güncellemelidir.

 

Reverse DNS Teknolojisini Desteklemelidir: İsim ya da ip temelli arama yapabilmeli.

Örnek:

Listede verilen www.kudurukforum.com yasaklı listesine ebeveyn tarafından eklensin. Kullanıcı ping –a www.kudurukforum.com www.kudurukforum.com un ip sini bulur 194.27.186.39 ve sayfaya girmeyi dener. Bu tür teknolojik ataklara dayanıklı olmalı..

 

Güvenli bölge tanımlama özelliği:

 

İçerik Tarama Yaparken Kelime Derecelendirme Yapabilme Özelliği:

 

İşletim Sistemi Desteği:

 

Tarama Yaparken Bütün Trafiği Dondurmamalı

 

URL veritabanı kullanma dinamik içerik ve resin tanıma ise dinamik tarama olarak da kullanılır. Bu çalışmada hem statik hem dinamik yöntemler bir arada kullanılmıştır.

 

6. TEKNOLOJİ

 

İçerik filtrelemede kullanılan iki yöntem paket filtreleme ve proxy temelli filtrelemedir. Proxy özellikle yüksek trafik durumunda tercih edilen yöntemdir. Proxy temelli filtrelemenin paket analizi (sniffer) temelli filtrelemeye göre avantajı daha hızlı olmasıdır. Paket analizi temelli sistemlerde özellikle network web yoğun kullanıldığında yavaşlama problemleri olduğu raporlanmıştır. Bu problem özellikle temiz içerikli sayfaları yoğun kullanırken hissedilebilir.

 

Bu çalışmada Proxy temelli webjini motorunda iyileştirmeler yapılarak temiz içerik tarama ve profil analizine aşağıdaki parametreler eklenerek yenilik ve farklılık sağlanmıştır:

 

İncelenen Parametreler:

· Arka plan rengi

· Fontlar

· Fontların renkleri

· Fontların boyutu

· Sayfadaki linklerin sayısı

· Sayfadaki resim sayısı

· Resimlerin boyutları

· Frame sayısı

· Ortalama kelime boyutu

· Kelime sayısı

· Özel karekterler

· Meta taglar

· Meta tag metinleri

 

7. YERELLEŞTİRME

 

Bu tür çözümlerin yerelleştirilmesi ihtiyacından makalenin başında da bahsetmiştik. Özellikle yerel ahlaki ve kültürel farklılıklar ve duyarlıklılar hem çözümün tasarımında hem de içeriğin tasarım ve güncellenmesinde yerel destek şart. Bu bağlamda bir çözümde olması gereken yerel özellikler

· Türkçe Arayüz

· Türkçe URL Veritabanı

· Türkçe Kelime Tarama Başarısı

 

Yerelleştirme ihtiyacı halihazırda zaten dünyada uygulanmaktadır. Bu konuda devletler ISP leri kullanmaktadır [4]. ISP çözümü verimli ve kabul gören bir çözüm değildir [1]

 

8. SONUÇLAR

 

Ebeveyn kontrolü ve içerik filtrelemede kullanılan yöntemleri özetlersek:

 

· Özel amaçlarla geliştirilmiş browserlar:

· Güvenli arama motorları ve portallar:

· Proxy temelli uygulamalar

· Aktivite gözetleme: Loglama temeline dayanır

· Üyelik temelli içerik sunma ve içerik şifreleme

· FTP,Chat vs.. filtreleme

· Transparan Bridgeler

 

Yukarıdaki teknikleri ve teknolojileri birlikte uygulanabileceği ve özellikle çok kullanıcılı ve profesyonel ortamlarda ortaya çıkan

 

· Kullanıcı bazlı filtreleme

· Grup bazlı filtreleme

· Kullanıcıların internet kullanımlarının zaman a göre kısıtlama

· Filtrelemenin gruplara göre zaman kısıtlamasına tabii olması

· Politikaların ip,isim, Active Directory kullanıcı bazlı vs.. atanması

 

gibi ihtiyaçları da karşılayabilen en uygun yöntem olarak proxy seçilmiştir [3,6].

 

Proxy ile ilgili rapor edilen tek handikap sistemde biraz yavaşlama olmasıdır. Bu pratikte önbellekleme (caching)kullanılarak çözülür.

 

Yukarıdaki teknikleri uygularken performans da göz ardı edilmemsi gerekir. Kullanıcı memnuniyeti bu tür çözümlerin olmazsa olmazıdır[7]

 

KAYNAKLAR

 

[1] Effectiveness of Internet Filtering Software Products, Mathematical and Information Sciences, 2001

[1] Content Filtering Technologies and Internet Service Providers, Michael Shepherd and Carolyn Watters, 2000

[2] www.webjini.com.tr

[3] Documentation of Internet Filtering in Saudi Arabia, Jonathan Zittrain, Benjamin Edelman,

Berkman Center for Internet & Society

Harvard Law School,2006

[4] http://en.wikipedia.org/wiki/Character_encodings_in_HTML

[5] Internet Filter Effectiveness: Testing Over and Underinclusive Blocking Decisions of Four Popular Filters, Christopher D. Hunter. Research paper submitted to the COPA Commission. April 2000.

[6] Internet Filters: A Public Policy Report, Free Expression Policy Project (a project of the Brennan Center for Justice at NYU School of Law), October 2001.

 

[7] Automatic Online **** Detection and Tracking, Johnson I Agbinya, Bernard Lok, Yeuk Sze Wong and Sandro Da Silva

[8] S. da Silva and J I Agbinya, “Human face segmentation algorithms for mobile phones,” Proc. South African Telecommunications Networks and Applications Conference (SATNAC) 2004, Vol 2, Sept. 6 – 8 , Cape Town, South Africa, pp. 373 – 374.

 

[9] Characterizing Objectionable Image Content (*********** and Nude Images) of Specific Web Segments: Chile as a Case Study

 

[10] http://www.ics.uci.edu/~mlearn/MLOther.html

 

 

 

Not: Bu makale Ağ ve Bilgi Güvenliği Ulusal Sempozyumu nda yayınlanmıştır.

 

 

 

__________________________

Dr. Ertuğrul Akbaş

Katılın Görüşlerinizi Paylaşın

Şu anda misafir olarak gönderiyorsunuz. Eğer ÜYE iseniz, ileti gönderebilmek için HEMEN GİRİŞ YAPIN.
Eğer üye değilseniz hemen KAYIT OLUN.
Not: İletiniz gönderilmeden önce bir Moderatör kontrolünden geçirilecektir.

Misafir
Maalesef göndermek istediğiniz içerik izin vermediğimiz terimler içeriyor. Aşağıda belirginleştirdiğimiz terimleri lütfen tekrar düzenleyerek gönderiniz.
Bu başlığa cevap yaz

×   Zengin metin olarak yapıştırıldı..   Onun yerine sade metin olarak yapıştır

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Önceki içeriğiniz geri getirildi..   Editörü temizle

×   You cannot paste images directly. Upload or insert images from URL.

×
×
  • Yeni Oluştur...

Önemli Bilgiler

Bu siteyi kullanmaya başladığınız anda kuralları kabul ediyorsunuz Kullanım Koşulu.