Peluang Usaha

clicksor

sitti

Anda Pengunjung ke

Sabtu, 08 Januari 2011

POINT ESTIMATION

POINT ESTIMATION

1.1 Sampling and Sampling Distributions
Salah satu tujuan statistik adalah memberikan informasi karakter sebuah populasi berdasarkan karakter sebagian porsi dari populsi yang disebut sample.
Contoh kasus sampling:
Perusahaan ban memproduksi ban jenis baru untuk memperpanjang usia pakai dibandingkan dengan ban produksi mereka saat ini. Sebelum dilempar ke pasaran, perusahaan memilih 120 dari ban baru ini dan ditest. Hasil test usia pakai sample ban baru ini, yang rata-rata memiliki usia 36,500 mil, digunakan untuk mewakili usia pakai populasi ban baru yang akan dilempar ke pasaran.
Contoh di atas menunjukkan bahwa hasil dari sample hanya memberikan estimasi terhadap karakteristik dari populasi. Ini berarti bahwa kita tidak nilai rata-rata usia pakai sample tidak persis sama dengan nilai rata-rata usia pakai populasi. Namun demikian, dengan metode sampling yang benar maka hasil pengujian sample akan memberikan estimasi yang ”baik” terhadap karakter dari populasi. Akan tetapi, seberapa bagus hasil uji sample ini bisa diharapkan dapat mewakili karakter populasi? Metode - metode statistik dipergunakan untuk menjawab pertanyaan tersebut.
1.2 Pengertian umum
Point estimation adalah proses dimana sampel secara acak dipilih dari populasi dan parameter-parameter statistik dari sampel tersebut (sample mean: , sample proportion: ) digunakan untuk meng-estimasi parameter populasi ( ; population mean, p ; population proportion).
Nilai-nilai dari parameter statistik tersebut disebut ”point estimate”

Sample : , ,s2, s, ......  Populasi; , , 2, , p

Kasus:  = average bulb life
Sampel n = 10  x1, x2, x3,..., x10
Sample mean  digunakan unt menarik kesimpulan tentang populasi mean 
Sample variance s2 unt menarik kesimpulan tentang populasi variance 2
Sample std. Dev s  unt menarik kesimpulan tentang populasi std. Dev 
Sample proporsi   unt menarik kesimpulan tentang populasi std. Dev p

Populasi   

Random var sets of value setelah
Rand. Var dihutung
Population parameter  Point estimator

Mean 

Variance 2 s2
Proportion  p
Correlation coeficient  r
Dif. Between 2 means 2-1 2 - 1

Dif. Between 2 proportion 2 - 1 p2 – p1
1.3 Sampling distribution
Sebuah perusahaan elektronik ingin memetakan manajer mereka yang berjumlah 2500 diseluruh Amerika. Jika diasumsikan bahwa pendataan telah dilakukan terhadap seluruh manajer berupa gaji tahunan, dan training yang pernah diterima. Diasumsikan bahwa berdasarkan data yang ada didapat hasil:
Population mean:
Population standard deviation:
Jika dari 2500 manajer ada 1500 yang sudah mengambil training, maka proporsi manajer yang sudah mengambil training adalah p = 1500/2500 = 0.6
,  dan p kita sebut sebagai parameter populasi.
Untuk mengefisiensikan proses pendataan, pendataan bisa dilakukan hanya pada 30 manager saja, dan diperoleh data sebagai berikut:
x1, x2, x3, x4,....,x30
annual salary training
x1 29,094.30 yes
x2 33,263.90 yes
x3 29,643.50 yes
x4 29,894.90 no
x5 27,621.60 yes
x6 35,924.00 yes
x7 29,092.30 yes
x8 31,404.40 yes
x9 30,957.70 no
. . .
. . .
. . .
x30 37,309.10 no

Sample mean:
Sample standard deviation:
Sample proportion =
Prosedur diatas kita sebut dengan point estimation. Dengan demikian (sample mean) adalah point estimator untuk population mean , s adalah point estimator untuk population standard deviation , adalah point estimator untuk population proportion p. Nilai aktual dari , s dan disebut dengan point estimate. Dengan demikian maka USD 31,814 adalah point estimate untuk , USD 3,347.72 adalah point estimate untuk  dan 0.63 adalah point estimate untuk p.
Jika diambil 30 sample lainnya secara acak dan didapatkan hasil sebagai berikut:
Sample mean: = $ 32,669.70
Sample standard deviation:
Sample proportion =
Ini menunjukkan bahwa sekalipun jumlah sample tetap sama, namun nilai parameter statistik sample akan berbeda karena komposisi sample yang terpilih secara acak pada pemilihan yang pertama mungkin akan berbeda dengan pemilihan yang kedua.
Jika dilakukan 500 kali pemilihan terhadap 30 manajer, maka diperoleh hasil sebagai berikut:



sample number sample mean sample std dev sample proportion
1 $31,814.00 $3,347.72 0.63
2 $32,669.70 $4,239.07 0.7
3 $31,780.30 $4,433.43 0.67
4 $31,587.90 $3,985.32 0.53
. . . .
. . . .
. . . .
500 $31,752.00 $3,857.82 0.5

Mean annual freq Rel
salary ($) Freq
29,500.00 - 29,999.99 2 0.004
30,000.00 - 30,499.99 16 0.032
30,500.00 - 30,999.99 52 0.104
31,000.00 - 31,499.99 101 0.202
31,500.00 - 31,999.99 133 0.266
32,000.00 - 32,499.99 110 0.22
32,500.00 - 32,999.99 54 0.108
33,000.00 - 33,499.99 26 0.052
33,500.00 - 33,999.99 6 0.012
TOTAL 500 1
Random variabel adalah diskripsi numerik dari sebuah eksperimen. Jika proses random sampling pengambilan 30 manager adalah sebuah ekperimaen, maka sample mean dari masing-masing eksperimen tersebut adalah juga sebuah random variable. Dengan demikian, sample mean , akan sama dengan random variabel lainnya, juga akan memiliki nilai expected value, variance serta probability distribution. Karena nilai sample mean yang bervariasi merupakan hasil dari random sample yang berbeda, maka probability distribution untuk disebut dengan sampling distribution of . Dengan mengetahui sampling distribution dan properti/parameter nya maka kita akan dapat mengetahui seberapa dekat nilai sample mean terhadap nilai population mean .
Gambar 7.1 merupakan histogram dari 500 sample dari 30 manager yang dipilih secara acak. Histogram ini mewakili distribusi sample (sampling distribution). Dari gambar tersebut terlihat bahwa nilai rata-rata 500 sample dari 30 manajer adalah berkisar antara nilai USD 31,800. distribusi standar deviasi dan proporsi dari 500 sample terlihat pada gambar 7.2 dan 7.3.




1.4 Sampling distribution of
Seperti yang telah diuraikan sebelumnya, random sample yang berbeda akan memberikan hasil nilai rata-rata sample yang berbeda pula ($31,814 ; $32,669.7 ; 31,780.30 ; dst..). Jika nilai rata-rata masing-masing sample bervariasi, maka kita harus menghitung berpa nilai rata-rata dari sample mean yang ada. Nilai rata-rata dari sample mean tidak lain adalah nilai harapan (expected value) dari nilai sample mean.
Jika E(x) adalah nilai expected value dari sample mean , atau nilai rata-rata dari semua sample mean yang mungkin serta  adalah nilai rata-rata populasi, maka:

Formula ini sangat tepat mewakili nilai rata-rata populasi manajer yang besarnya adalah $31,800, sebab gambar 7.1 yang merupakan sampling distribution dari juga memberikan nilai yang sama yakni $31,800.
Jika
= standar deviasi semua nilai sample mean yang mungkin
 = standard deviasi dari populasi
n = sample size
N = population size
Maka nilai strandar deviasi dapat dihitung dengan formula berikut:
Finite population ;
Infinite population :
Persamaan yang kedua digunakan jika
1. jumlah populasi infinite, atau
2. populasi adalah finite, DAN sample size lebih kecil dari atau sama dengan 5% dari population size, sehingga n/N  0.05
jika jumlah sample mean adalah 30, maka n/N adalah 30/500 = 0.012. dengan demikian

1.5 Central Limit Theorem
Central limit theorem digunakan untuk menentukan bentuk dari probability distribution dari .
”in selecting simple random samples of size n from a population with mean  and standard deviation , the sampling distribution of the sample mean approaches a normalprobability distribution with mean  and standard deviation /n1/2 as the sample size becomes large.”
Gambar 7.4 menunjukkan bahwa central limit theorem bekerja pada 3 jumlah sample size yang berbeda. Saat sample size = 2, sampling distributionnya sangat berbeda dengan saat sample size = 5, dan kedua-duanya tidak menunjukkan normal distribution. Namun saat sample size = 30, distribusi mendekati normal.
Statistik pada umumnya menentapkan jumlah sample 30 atau lebih adalah syarat agar sampling distribution dapat didekati dengan distribusi normal.
Jika populasi terdistribusi normal, maka sample distribution adalah juga normal untuk semua jumlah sample size.


1.6 Contoh sampling distribution
Jika population mean adalah 31,800 dan standar deviasinya adalah 4,000, maka dari central limit theorm terlihat bahwa distribusi probabilitas dari populasi dan random sample dengan 30 manajer yang dipilih secara acak memberikan hasil yang sangat mirip.




Selanjutnya, berapakah peluang bahwa point estimate yang kita dapat dari sample, akan memiliki selisih $500 dengan nilai rata-rata populasi?
Z = (31,300 – 31,800)/730.30 = -0.68
Nilai diatas berkorespondensi dengan luasan dibawah setengah kurva z yaitu 0.2518, sehingga peluang nilai rata-rata sample berada pada selisih $500 dengan nilai rata-rata populasi adalah 0.5036.


Dengan cara yang sama, peluang nilai rata-rata sample berada pada selisih $1000 terhadap nilai rata-rata populasi adalah;


1.7 Sampling distribution of

Dimana
adalah expected value dari random variable
P adalah proporsi dari populsi
Jika proporsi dari 2500 populasi manager yang sudah mengambil training adalah 0.60, maka expected value dari random variable adalah 0.60
Karena adalah juga merupakan random variable, maka akan memiliki nilai standard deviasi dari .
Finite population ; untuk n/N > 0.05
Infinite population : untuk n/N  0.05
Dengan demikian besarnya standar deviasi pada contoh kasus manajer perusahaan seperti dibahas sebelumnya adalah;

Selanjutnya;
”the sampling distribution of can be approximated by a normal probability distribution whenever the sample is large.”
Sample bisa disebut besar jika memenuhi 2 syarat; np5 dan n(1-p)5
Dengan menggunakan kasus sebelumnya, maka p = 0.6. sehingga nilai
np = 30 x 0.6 = 18, dan
n(1-p) = 30 x 0.4 = 12.
Sehingga bisa disimpulan bahwa sampling distribution dapat diwakili oleh distribusi normal.


Jika kita ingin mencari probabilitas nilai proporsi sample berada pada selisih 0.05 dengan nilai proporsi populasi, maka peluangnya adala 0.4246.

1.8 Sampling method
Simple random sampling
Jika jumlah sample finite
A simple random sample of size n from a finite population of size N is a sample selected such that each possible sample of size n has the same probability of being selected.
Contoh: 5 sales, A, B, C, D, E. Ada terdapat banyak cara untuk memilih sample yang terdiri dari 2 sales (10 cara). 10 cara tersebut memiliki peluang yang sama untuk terpilih.  buat 10 undian dengan kertas, dikocok, diambil satu. Masing-masing memiliki peluang 1/10 untuk terpilih.
Jika melakukan seperti cara diatas untuk jumlag sample yang besar, maka akan sangat tidak praktis. Sebagai contoh memilih sample berjumlah 30 dari 2500 manajer yang ada. (2.745e+69)
Ada cara untuk mengidentifikasi simple random sample dari populasi yang finite tanpa harus melist semua sample yang mungkin. Dalam kasus pemilihan sample sejumlah 30 dari 2500 manajer, Ini dilakukan dengan membuat potngan kertas yang berisi nomor urut 1 – 2500, kemudian menocok dan mengambil satu nomor tanpa replacement. Ini dilakukan sebanyak 30 kali.
Proses ini bisa dilakukan dengan menggunakan randon number table.

Baris pertama berisi randon number sebagai berikut (bisa gunakan kumpulan angka yang mana saja)
63271 59986 71744 51102 15141 80714
Angka yang muncul diatas adalah angka yang dipilih secara acak dari 0 – 9 dimana masing-masing agka yang muncul memiliki peluang yang sama untuk dipilih. (jumlahnya tidak harus 5).
Karena jumlah populasi adalah 2500, maka kita akan menggunakan random number dengan 4 digit.
6327 1599 8671 7445 1102 1514 1807
Angka I 6327 > 2500, jadi diabaikan. Angka II 1588 adalah dalam rentang 1 – 2500. Proses ini terus dilakukan hingga 30 sample bisa di hasilkan.
Jika jumlah sample infinite
Pada kasus jumlah populasi infinite atau terlalu besar, maka kita tidak bisa memberikan nomor bagi masing-masing pilihan yang ada di populasi. Sebagai contoh kita menentukan waktu rata-rata yang dibutuhkan antara memesan makanan hingga menerima pesanan dari sebuah restoran saat jam makan siang. Jika sample adalah semua pelanggan yang mungkin, kita tidak mungkin menentukan finite jumlah pelanggan yang mungkin.
A simple random sample from a infinite population is a sample selected such that the following condition is satisfied;
1. each item selected comes from the same population
2. each item is selected independently

stratified random sampling
dengan metode ini, populasi dibagi menjadi beberapa grup elemen yang disebut strata sehingga setiap item di dalam populasi menjadi bagian dari SATU DAN HANYA SATU strata yang ada. Dasar penyusunan strata sepenuhnya tergantung pada pelaksana survey. Hasil terbaik diperoleh jika elemen di masing-maisng strata sedapat mungkin mirip satu sama lain.

Setelah populasi dikelompokkan menjadi strata, maka proses simple random sampling dilakukan di masing-masing strata. Penggunaan stratified random sampling ini akan sangat tergantung dengan ke-homogenan masing-masing stratum. Jika stratum homogen, maka variance akan menjadi kecil.

Cluster sampling
dengan metode ini, populasi dibagi menjadi beberapa grup elemen yang disebut cluster sehingga setiap item di dalam populasi menjadi bagian dari SATU DAN HANYA SATU kluster yang ada. Dasar penyusunan strata sepenuhnya tergantung pada pelaksana survey. Hasil terbaik diperoleh jika elemen di masing-maisng strata sedapat mungkin TIDAK mirip satu sama lain.

Setelah populasi dikelompokkan menjadi kluster, maka proses simple random sampling dilakukan di masing-masing kluster. Penggunaan cluster sampling ini akan sangat tergantung dengan ke-heterogenan masing-masing kluster.

Systematic sampling
Contoh; dicari sample sejumlah n = 50 dari 5000 populasi. Maka dibuat 5000/50 =100 kelompok yang terdiri dari 50 item. Kemudian sample dipilih secara random dari setiap kelomok.

1 komentar:

  1. bisa mnta yg lbih akurat tdk??? tentang materi data mining, atau tentang metode algoritma(dm)

    BalasHapus