Senin, 29 September 2014

Refleksi NLP Pertemuan 3

1. Latar belakang pemrosesan teks
  • Jumlah kata/dokumen teks yang sangat besar sehingga membutuhkan kemudahan dalam mendapatkan informasi teks tersebut

2. Definisi
  • Teks merupakan ungkapan bahasa yang menurut isi dan paragmatik merupakan satu kesatuan
  • Korups adalah badan dari teks yang muncul secara alami, biasanya dipilih dengan cara tertentu.
  • Pemrosesan teks adalah proses menghitung dan mengurutkan kata pada teks
  • Tokenisasi adalah proses pemotongan kumpulan karakter menjadi sebuah kata tunggal/toke

3. Contoh dokumen teks
  • Teks media social, teks halaman web, status pada media social, teks pada jurnal.
  • Korpus pada sebuah teks yang terdapat pada sebuah file. Misalnya yang berformat XML.

4. Karakterristik Dokumen

  • A corpus of documents: Setiap sistem harus memutuskan dokumen yang ada akan diperlakukan sebagai apa. Bisa sebagai sebuah paragraf, halaman, atau teks multipage.
  • Queries posed in a query language. Sebuah query menjelaskan tentang apa yang user ingin peroleh. Query language dapat berupa list dari kata-kata, atau bisa juga menspesifikasikan sebuah frase dari kata-kata yang harus berdekatan
  • A result set. Ini adalah bagian dari dokumen yang dinilai oleh sistem IR sebagai yang relevan dengan query.
  • A presentation of the result set. Maksud dari bagian ini adalah tampilan list judul dokumen yang sudah di ranking.

5. Contoh Proses dari Pemrosesan Teks


6. Pengolahan teks mencakup:
  • Information Extraction : mengekstrak informasi yang dianggap penting dari suatu dokumen lowongan, walaupum memiliki format beragam dapat di ekstrak secara otomatis job title, tingkat pendidikan, penguasaan bahasa dsb.
  • Text Summarization : menghasilkan ringkasan suatu dokumen secara otomatis.
  • Data Mining : proses identifikasi valid, yang berpotensu berguna, dan pada akhirnya dapat dipahami pola data yang tersimpan dlam database yang terstruktur, dimana data diorganisir dalam catatan terstruktur dengan kategoru, ordinal, atau variable yang terus menerus.
  • Text Mining (biasa dikenal juga dengan text data mining atau penemuan pengetahuan) dalam database tekstual adalah semi-otomatis proses ekstrksi pola (informasi yang berguna dan pengetahuan) dari sumber data yang tidak terstruktur dalam jumlah yang besar.
  • Informatuon Retrival : pencarian dokumen (contoh google : search Engine)
  • Document Clustering : mirip dengan klasifikasi document, hanya saja kelas dokumen tidak ditentukann sebelumnya. Misalnya berita tentang lalulintas dapat menjadi satu kelas dengan kelas berita criminal karena didalamnya banyak memuat tentang orang yang tewas, cedera,rumah sakit dsb.

Refleksi NLP Pertemuan 2

Definisi Natural Language Processing (NLP)

  • Bahasa Alami adalah bahasa yang digunakan sehari-hari 
  • Bahasa adalah alat atau cara untuk berkomunikasi, menyampaikan informasi berupa lisan maupun tulisan
  • Pemrosesan adalah kegiatan untuk mengolah
  • Pemrosesan bahasa alami atau Natural Language Processing adalah cabang ilmu komputer dan linguistik yang mengkaji interaksi antara komputer dengan bahasa (alami) manusia.
  • NLP merupakan cabang ilmu Artficial Intelegence (kecerdasan buatan) yang digunakan untuk pembuatan program yang memiliki kemampuan untuk memahami bahasa manusia


Komponen NLP

Input memasukkan text atau string, selanjutnya pada proses Parser yaitu memecahkan kalimat menjadi potongan-potongan kata. Kemudian pada Dictionary menterjemahkan kata yang telah diproses oleh parser. Berlanjut pada Knowlegde Representation System yang menggabungkan kata atau kalimat dengan benar sesuai pengetahuan yang telah dibuat. Selanjutnya Output Translator menampilkan hasil dari proses, terakhir Natural Language code text menampilkan hasil berupa text kembali yang sudah melalui proses.


Knowledge Base adalah salah satu dari bagian utama dalam aplikasi kecerdasan buatan yang berisi fakta-fakta, pemikiran dan hubungan.

Basis pengetahuan (knowledge base) adalah suatu jenis basis data yang dipergunakan untuk manajemen pengetahuan. Basis data ini menyediakan fasilitas untuk koleksi, organisasi, dan pengambilan pengetahuan terkomputerisasi. Hal terpenting dari suatu basis pengetahuan adalah kualitas informasi yang dikandungnya. Basis pengetahuan yang terbaik memiliki artikel-artikel yang ditulis dengan baik dan dijaga untuk selalu mutakhir, memiliki sistem pengambilan (mesin pencari) yang baik, serta format isi dan struktur klasifikasi yang dirancang dengan seksama.


Analisis NLP
  1. Leksikal = Kamus yang mendaftar kata - kata bahasa berdasaarkan abjad.
  2. Sintak = Metode penempatan kata di dalam urutan tertentu sehingga suatu kalimat merupakan sesuatu bentuk bahasa yang benar (berkaitan dengan grammar).
  3. Semantik = Makna dari suatu kata, pengkajian hubungan antara kata dan cara penggabungan sehingga menjadi wujud pikiran.
  4. Pragmatik = Pengkajian makna dari suatu paragraf tulisan.
  5. Grammar = Tata Bahasa digunakan untuk membangkitkan kalimat dari suatu bahasa, memeriksa apakah suatu kalima termasuk di dalam bahasa tersebut.


Senin, 07 April 2014

Program c++ "Test Bilangan Prima"

#include <cstdlib>
#include <iostream>
#include<math.h>

using namespace std;
bool prima (int x){
     int k,y;
     bool test;
   
     if(x<2){
             return false;
             }else if (x==2){
                   return true;
                   }else {
                   y = ceil(sqrt(x));
                         test= true;
                   }
                   while (test && (y>=2)){
                         if (x % y ==0){
                               test=false;
                               }else {
                         

       y=y-1;
                               }
                               }
return test;
}
                 

int main(int argc, char *argv[])
{
    int x;
    cout<<"masukkan nilai:"<<endl;
    cin>>x;
    cout<<"prima:"<<prima(x)<<endl;
   
    system("PAUSE");
    return EXIT_SUCCESS;
}

Program c++ "Menentukan Faktor Prima"

#include <cstdlib>
#include <iostream>

using namespace std;
void faktor_prima(int n){
int i;
for(i=2; i<=n; i++){

if(n%i==0) {
  if(i>2){
 cout << " * ";
  }
 
          cout << i;
          n/=i;
          i--;
       }
    }
    cout<<endl;
}
int main(int argc, char *argv[])
{
int x;
 
    cout<<"Masukkan nilai : ";
    cin>>x;
    cout<<"Hasil faktor prima : ";
faktor_prima(x); //pemanggilan fungsi
    cout<<endl;
    cout<<endl;

system("pause");
return 0;
}

Selasa, 04 Desember 2012

Tugas 2 Dasar-Dasar Pemrograman

Faktorial menggunakan for

#include <cstdlib>
#include <iostream>

using namespace std;

int main(int argc, char *argv[])
{
    int n;
    int hasil = 1;
    cout<<"masukan nilai faktorial= ";
    cin>>n;
    for(int i=1; i<=n; i++){
            hasil *=i;
            if(i>1) cout<<"x";
            cout<<i;
            }
            cout<<"= "<<hasil;
            cout<<endl;
    system("PAUSE");
    return EXIT_SUCCESS;
}