Twitter’ın Gelişmiş Arama Motoru İle Tüm Tweetlere Erişin

twitter arama

Twitter’ın gelişmiş arama motoru ile bugünden itibaren 2006 yılından bu yana atılmış tüm public / herkese açık tweetler aranarak listenebilecek.

Bundan tam 8 yıl önce Twitter’ın kurucusu Jack Dorsey’in attığı “just setting up my twttr” tweetinden bugüne yaklaşık 500 milyar tweet atıldı. Sadece birkaç kişinin oluşturduğu Twitter Arama Motoru ekibi ise bu tweetlere erişimi kolaylaştırmak adında 2012’den beri yürüttüğü projeyi bitirerek bugün halka duyurdu. Twitter Arama Motoru ekibinin çalışmaları sonucunda 2006 yılından bu yana atılan tüm tweetler indekslenerek aramaya açık hale getirildi.

Twitter'ın Pek Bilinmeyen 8 Özelliği ve İpuçları

Orjinal şekliyle Twitter’ın arama motoru insanların en son attığı tweetlere hızlı bir şekilde ulaşabilmeyi sağlarken, geliştirdiği yeni arama servisi ile bugüne dek atılmış tüm tweetleri aramayı bir kaç gün içerisinde tüm kullanıcıların kullanımına sunacak. Her ne kadar Topsy (Apple tarafından satın alınmıştı) ve bir diğer uygulama Twime Machine bugüne dek benzer amaçlarla -ki silinmiş tweetleri bile bulmamızı sağlıyordu- hizmet verse de, Twitter’ın bu yeni arama motorunun diğer uygulamaları gölgede bırakacağı öngörülüyor.

Twitter Gelişmiş Arama
Twitter Gelişmiş Arama

Gelişmiş arama servisi (twitter.com/search-advanced) ile platformdaki belirgin bir boşluğu doldurmayı amaçlayan Twitter, yeni servisini aynı zamanda internetteki online bilgi külliyatına daha hızlı ulaşabilmenin evrimsel bir kanıtı olarak belirtiyor. Twitter Arama ekibinin baş mühendisi  Gilad Mishne de bu yeni uygulama hakkında sadece aramada değil; aynı zamanda diğer alanlarda da çok daha fazla şey yapılabileceğinin sinyallerini verdi.

Yeni Twitter Arama Motoru’nun dikkat çeken bazı özellikleri ise şöyle:

  • Modülerlik: Hali hazırda gerçek zamanlı indeksleme sistemi olan Twitter, bu yeni arama motoru ile daha kısa zamanda daha fazla veriye ulaşma imkanı sağlayacak.
  • Ölçeklenebilirlik: Gerçek zamanlı görüntülenen tüm tweetlerin 100 kat daha fazlasına bu yeni uygulama ile erişilebilecek.
  • Verimlilik: RAM teknolojisinde depolanan gerçek zamanlı indeksler, düşük gecikme süresi ve yüksek hızlı güncellemelere sahip olacak.
  • Sade arayüz: Periyodik olarak yapılan aramalar ile tek bir konuya ait olan tüm veriler, kullanıcıya bir bütün halinde sunulabilecek.

Twitter’ın gelişmiş arama motoru nasıl çalışıyor?

1. Günlük verilerin toplanması ve önişlem süreci: Twitter’daki tüm tweetler, kullanıcı ve URL verileri; retweetler, favoriler, yanıtlar ve diğer işlemler ile birleştirilerek tek bir çatı altında Hadoop üzerinde toplanarak arama motorunun ayrıştırılmış ön işlem günlük tweet verisi sürecine dahil ediliyor. Bu aşama ile bir günlük tüm tweet verileri toplanmış oluyor.

Günlük verilerin toplanması ve önişlem süreci
Günlük verilerin toplanması ve önişlem süreci

2. Ayrıştırılmış İndeksin Geliştirilmesi: Ayrıştırılmış günlük tweet verileri birleştirilerek, tek yollu kanal ile Mesos üzerinden indekslenip veritabanında HDFS ile birleştiriliyor. Böylece ilk aşamada sadece bir günlük toplanan tweet verileri bugüne dek atılan tüm tweetlere uygulanıyor.

Ayrıştırılmış indeksin geliştirilmesi
Ayrıştırılmış indeksin geliştirilmesi

3. Earlybirds’te parçaların birleştirilmesi: Earlybirds programı ile zamansal düzlemde tüm veriler işlenerek verilerin kapasitesi arttırılıyor ve kopyası alınıyor. Dökümanların değerleri toplanıp gerçek zamanlı indeksin tutulduğu RAM’den SSD’lere aktarılarak, kaynakların kernel parametreleri ile en yüksek performansı elde etmesi sağlanıyor.

Earlybirds'te parçaların birleştirilmesi
Earlybirds’te parçaların birleştirilmesi

4. Earlybirds verilerinin işlenmesi: Earlybirds programı ile maksimum performansın sağlanması için oluşturulan kaynak verilerinin, üç aşamada eş zamanlı yanıt oluşturmaları sağlandıktan sonra, aracıda birleştirilerek veriler arama motoruna dahil ediliyor. Böylelikle tüm tweetlerin aranması ve bulunması sağlanıyor.

Earlybird verilerinin işlenmesi
Earlybird verilerinin işlenmesi

Yazan: Dilek Erdensoy