الخطوة الأولى في تطوير نموذج مربع جينكينز هو تحديد ما إذا كانت السلسلة ثابتة وإذا كان هناك أي موسمية كبيرة تحتاج إلى أن تكون على غرار. القضية يمكن تقييمها من مؤامرة تسلسل تشغيل يجب أن تظهر مؤامرة تسلسل المدى ثابتة الموقع وحجم ويمكن أيضا أن يتم الكشف عن مؤامرة الارتباط الذاتي على وجه التحديد، وغالبا ما يشار إلى عدم الاستقامة من قبل مؤامرة الارتباط الذاتي مع تسوس بطيء جدا. التمييز لتحقيق ستاريتياري. بوكس وجينكينز يوصي نهج الاختلاف لتحقيق ستراتاريتي ومع ذلك، تركيب منحنى وطرح المجهزة القيم من البيانات الأصلية يمكن أن تستخدم أيضا في سياق نماذج بوكس جينكينز. في مرحلة تحديد النموذج، وهدفنا هو الكشف عن الموسمية، إذا كان موجودا، وتحديد الترتيب لمعدلات الانحدار الذاتي الموسمية والمتوسط المتحرك المتوسط المصطلحات ل سلسلة كثيرة، وهذه الفترة معروفة ومدة واحدة موسمية كافية على سبيل المثال، بالنسبة للبيانات الشهرية ونحن عادة ما تشمل إما أ الموسمية الموسمية أر 12 أو الموسمية ما 12 مصطلح لنماذج مربع جينكينز، ونحن لا إزالة صريحة الموسمية قبل تركيب النموذج بدلا من ذلك، ونحن إدراج ترتيب المصطلحات الموسمية في مواصفات نموذج لبرامج تقدير أريما ومع ذلك، قد يكون من المفيد تطبيق فرق موسمي على البيانات وتجديد الارتباط الذاتي وعلامات الترابط الذاتي الجزئي قد يساعد ذلك في تعريف نموذج المكون غير الموسمية للنموذج في بعض الحالات، قد يؤدي الاختلاف الموسمي إلى إزالة معظم أو كل التأثير الموسمية. تحديد p و Q. بمجرد معالجة الاستبانة والموسمية، فإن الخطوة التالية هي تحديد الترتيب أي p و q من الانحدار الذاتي والمتوسط المتحرك. الارتباطات و قطع الارتباط الذاتي الجزئي. الأدوات الأساسية للقيام بذلك هي مؤامرة الارتباط الذاتي ومؤامرة الارتباط الذاتي الجزئي تتم مقارنة مؤامرة الارتباط الذاتي للعينة ومؤامرة الترابط الذاتي الجزئي للعينة مع السلوك النظري من هذه المؤامرات عندما يكون الأمر معروفا. ترتيب عملية الانحدار الذاتي p. على وجه التحديد، لعملية أر 1، يجب أن تكون الدالة الارتباط الذاتي عينة يكون لها انخفاض أضعافا مضاعفة ومع ذلك، عمليات أر أعلى ترتيب وغالبا ما يكون خليط من أضعافا مضاعفة تناقص وجيب جيبي من أجل عمليات الانحدار الذاتي ذات الترتيب الأعلى، يحتاج الارتباط الذاتي للعينة إلى أن يستكمل بمؤامرة ارتباط ذاتي جزئي يصبح الترابط الذاتي الجزئي لعملية أر p صفرا عند تخالف p 1 وأكبر، لذلك فإننا ننظر إلى وظيفة الترابط الذاتي الجزئي للعينة لمعرفة ما إذا كان هناك هو دليل على انحراف عن الصفر وعادة ما يتم تحديد ذلك عن طريق وضع فاصل الثقة 95 على عينة مؤامرة الارتباط الذاتي الجزئي معظم البرامج التي تولد عينة مؤامرات الارتباط الذاتي سوف أيضا رسم هذه الفترة الثقة إذا كان البرنامج لا يولد الفرقة الثقة، فمن حوالي 2 م 2 سرت، مع N تدل على حجم العينة العملية becomes تصبح وظيفة الترابط الذاتي للعملية q q صفرا عند الفارق q 1 وأكبر، لذلك ندرس دالة الترابط الذاتي للعينة لمعرفة المكان الذي تصبح فيه الصفر أساسا نفعل ذلك بوضع فاصل الثقة 95 لدالة الترابط الذاتي للعينة على مؤامرة الارتباط الذاتي عينة يمكن أن معظم البرامج التي يمكن أن تولد مؤامرة الارتباط الذاتي أيضا توليد هذه الفترة الثقة. الدالة الارتباط الذاتي الجزئي عينة عموما ليست مفيدة لتحديد ترتيب عملية المتوسط المتحرك. شكل وظيفة الارتباط الذاتي. لخص الجدول التالي كيفية استخدام الدالة الترابط الذاتي لتحديد النموذج. المتوسطات المتحركة - بسيطة و الأسية. المتوسطات المتحركة - بسيطة و الأسية. المتوسطات المتحركة على نحو سلس بيانات الأسعار لتشكيل مؤشر الاتجاه التالي أنها لا تتنبأ اتجاه الأسعار، وإنما تحديد الاتجاه الحالي مع تأخر نقل المتوسطات متأخرة لأنها تستند إلى الأسعار الماضية على الرغم من هذا التأخير، تتحرك الشوائب تساعد على العمل على نحو سلس الأسعار وتصفية الضوضاء كما أنها تشكل لبنات بناء للعديد من المؤشرات الفنية الأخرى وتراكب، مثل بولينجر باندز ماسد ومذبذب مكليلان نوعان الأكثر شعبية من المتوسطات المتحركة هي المتوسط المتحرك بسيط سما والأسي المتوسط المتحرك إما يمكن استخدام هذه المتوسطات المتحركة لتحديد اتجاه الاتجاه أو تحديد مستويات الدعم والمقاومة المحتملة. هنا الرسم البياني سا مع كل سما و إما على ذلك. انقر على الرسم البياني لنسخة حية. محاكاة المتوسط المتحرك. يتم تشكيل متوسط متحرك بسيط بحساب متوسط سعر الورقة المالية على عدد محدد من الفترات تعتمد معظم المتوسطات المتحركة على أسعار الإغلاق المتوسط المتحرك البسيط لخمسة أيام هو خمسة أيام لأسعار الإغلاق مقسومة على خمسة كما يوحي اسمها ، المتوسط المتحرك هو المتوسط الذي يتحرك يتم إسقاط البيانات القديمة مع توفر بيانات جديدة وهذا يسبب متوسط للتحرك على طول الجدول الزمني أدناه هو مثال على 5 دا y المتوسط المتحرك يتطور على مدى ثلاثة أيام. اليوم الأول من المتوسط المتحرك يغطي ببساطة الأيام الخمسة الماضية في اليوم الثاني من المتوسط المتحرك يسقط نقطة البيانات الأولى 11 ويضيف نقطة البيانات الجديدة 16 يستمر اليوم الثالث للمتوسط المتحرك بواسطة مع انخفاض نقطة البيانات الأولى 12 وإضافة نقطة البيانات الجديدة 17 في المثال أعلاه، تزداد الأسعار تدريجيا من 11 إلى 17 خلال ما مجموعه سبعة أيام لاحظ أن المتوسط المتحرك يرتفع أيضا من 13 إلى 15 خلال فترة حسابية مدتها ثلاثة أيام لاحظ أيضا أن كل متوسط متوسط متحرك أقل بقليل من السعر الأخير على سبيل المثال، المتوسط المتحرك لليوم الأول يساوي 13 والسعر الأخير هو 15 الأسعار كانت الأيام الأربعة السابقة أقل مما يؤدي إلى تخلف المتوسط المتحرك. المتوسط المتحرك المتغير. إكسوننتيال تقلل المتوسطات المتحركة من الفارق الزمني بتطبيق المزيد من الوزن على الأسعار الأخيرة يعتمد الترجيح المطبق على آخر سعر على عدد الفترات في المتوسط المتحرك هناك ثلاث خطوات لحساب المتوسط المتحرك الأسي أولا، حساب المتوسط المتحرك البسيط يجب أن يبدأ المتوسط المتحرك الأسي إما في أي مكان حتى يتم استخدام المتوسط المتحرك البسيط للفترة السابقة إما في الحساب الأول. ثانيا، حساب مضاعف الترجيح ثالثا، حساب المتوسط المتحرك الأسي. الصيغة أدناه لمتوسط متحرك أسي لمدة 10 أيام لمدة 10 أيام ينطبق على الترجيح 18 18 إلى أحدث سعر ويمكن أيضا أن يسمى إما إما 10 فترة 18 إما إما A 20 فترة إما تطبق 9 52 وزنها إلى آخر سعر 2 20 1 0952 لاحظ أن الترجيح لفترة زمنية أقصر هو أكثر من الترجيح لفترة زمنية أطول في الواقع، فإن الترجيح ينخفض بمقدار النصف في كل مرة يتضاعف فيها المتوسط المتحرك. إذا كنت تريد منا يمكن استخدام هذه الصيغة لتحويلها إلى فترات زمنية ثم إدخال هذه القيمة كمعلمة إما s. أدناه هو مثال جدول بيانات لمتوسط متحرك بسيط لمدة 10 أيام و 10 أيام أس مو متوسط المتوسط المتحرك ل إنتيل بسيط إلى الأمام ويتطلب القليل من التفسير المتوسط المتحرك لمدة 10 أيام يتحرك ببساطة مع توفر أسعار جديدة وانخفاض الأسعار القديمة يبدأ المتوسط المتحرك الأسي بمتوسط المتوسط المتحرك البسيط 22 22 في الحساب الأول بعد الحساب الأول يأخذ الصيغة العادية لأن متوسط إما يبدأ بمتوسط متحرك بسيط، لن تتحقق قيمته الحقيقية حتى 20 أو نحو ذلك من الفترات اللاحقة وبعبارة أخرى، قد تختلف القيمة على جدول بيانات إكسيل عن قيمة المخطط بسبب فترة استعراض قصيرة يعود جدول البيانات هذا فقط 30 فترة، مما يعني أن تأثير المتوسط المتحرك البسيط كان 20 فترة لتبديد ستوكارتس يعود إلى ما لا يقل عن 250 فترة عادة أكثر من ذلك بكثير لحساباته وبالتالي فإن تأثيرات المتوسط المتحرك البسيط في الحساب الأول تبددت بشكل كامل. العامل فاكتور. المتوسط المتحرك أطول، وأكثر تأخر سوف المتوسط المتحرك الأسي لمدة 10 أيام هو g تتحول عن كثب وتتحول بعد فترة وجيزة من تحول الأسعار إلى المتوسطات المتحركة القصيرة مثل القوارب السريعة - الصاخبة والسريعة للتغيير في المقابل، فإن المتوسط المتحرك لمدة 100 يوم يحتوي على الكثير من البيانات السابقة التي تبطئها. تعد المتوسطات المتحركة الأطول مثل ناقلات المحيط - وبطيء للتغيير فإنه يأخذ حركة سعر أكبر وأطول لمتوسط المتحرك 100 يوم لتغيير بالطبع. انقر على الرسم البياني لنسخة حية. الرسم البياني أعلاه يظهر سب 500 إتف مع إما 10 أيام متابعة عن كثب الأسعار و 100 يوم سما طحن أعلى حتى مع تراجع يناير وفبراير، و سما 100 يوم عقد الدورة ولم يتراجع و سما لمدة 50 يوما يناسب ما بين 10 و 100 المتوسطات المتحركة يوم عندما يتعلق الأمر عامل تأخر. Simple مقابل المتوسطات المتحركة الأسية. على الرغم من وجود اختلافات واضحة بين المتوسطات المتحركة البسيطة والمتوسطات المتحركة الأسية، إلا أن المرء ليس بالضرورة أفضل من المتوسطات المتحركة الأسية الأخرى لها تأخر أقل، وبالتالي فهي أكثر حساسية لإعادة أسعار األسعار - التغيرات األخيرة في األسعار سوف تتحول المتوسطات المتحركة الصاعدة إلى متوسطات متحركة بسيطة تمثل المتوسطات المتحركة البسيطة، من ناحية أخرى، متوسطا حقيقيا في األسعار للفترة بأكملها. على هذا النحو، قد تكون المتوسطات البسيطة البسيطة أكثر مالءمة لتحديد الدعم أو مستويات المقاومة. متوسط التفضيل المتوسط يعتمد على الأهداف والنمط التحليلي والأفق الزمني يجب أن يختبر تشارتيستس كلا النوعين من المتوسطات المتحركة فضلا عن الأطر الزمنية المختلفة للعثور على أفضل ملاءمة يظهر الرسم البياني أدناه عب مع سما لمدة 50 يوما باللون الأحمر و 50 يوم إما باللون الأخضر بلغ ذروته في أواخر يناير، ولكن الانخفاض في إما كان أكثر وضوحا من الانخفاض في سما ارتفع المتوسط المتحرك في منتصف فبراير، لكن سما استمر حتى نهاية مارس لاحظ أن سما قد انتهى بعد شهر من المتوسطات الطولية والأطر الزمنية. طول المتوسط المتحرك يعتمد على الأهداف التحليلية المتوسطات المتحركة القصيرة 5-20 فترات هي الأنسب للاتجاهات قصيرة الأجل و ترادي نغ تشارتيستس المهتمين بالاتجاهات المتوسطة الأجل سيختارون المتوسطات المتحركة الأطول التي قد تمتد من 20 إلى 60 فترة. يفضل المستثمرون على المدى الطويل متوسطات متحركة بفترات 100 أو أكثر. بعض أطوال المتوسط المتحرك أكثر شعبية من غيرها المتوسط المتحرك لمدة 200 يوم وربما يكون الأكثر شعبية بسبب طوله، وهذا هو بوضوح المتوسط المتحرك على المدى الطويل بعد ذلك، المتوسط المتحرك لمدة 50 يوما هو شعبية جدا للاتجاه على المدى المتوسط يستخدم العديد من الرسامين المتوسطات المتحركة لمدة 50 يوما و 200 يوم معا على المدى القصير، كان المتوسط المتحرك لمدة 10 يوما شعبية جدا في الماضي لأنه كان من السهل لحساب واحد ببساطة إضافة الأرقام وتحريك العشرية point. Trend IDification. The يمكن إنشاء الإشارات نفسها باستخدام المتوسطات المتحركة بسيطة أو الأسية كما لوحظ أعلاه، يعتمد التفضيل على كل فرد هذه الأمثلة أدناه سوف تستخدم كل من المتوسطات المتحركة البسيطة والأسية ينطبق المتوسط المتحرك المتوسط على كل من المتوسطات المتحركة البسيطة والأسية. اتجاه موفين g متوسط يشير إلى معلومات هامة عن الأسعار يظهر المتوسط المتحرك المتصاعد أن الأسعار تتزايد بشكل عام يشير المتوسط المتحرك المتراجع إلى انخفاض الأسعار في المتوسط. يعكس المتوسط المتحرك المتزايد على المدى الطويل اتجاها صعودا طويل الأجل A المتوسط المتحرك طويل الأمد يعكس الاتجاه الهبوطي على المدى الطويل. الرسم البياني أعلاه يظهر 3M م مع المتوسط المتحرك الأسي لمدة 150 يوما يوضح هذا المثال مدى التحرك المتوسطات المتحركة تعمل عندما يكون الاتجاه قويا تم رفض إما 150 يوما في نوفمبر 2007 ومرة أخرى في يناير 2008 لاحظ أنه استغرق 15 تراجع لعكس اتجاه هذا المتوسط المتحرك هذه المؤشرات المتخلفة تحدد اتجاه الانتكاسات كما تحدث في أحسن الأحوال أو بعد حدوثها في أسوأ م واصلت انخفاض في مارس 2009 ثم ارتفعت 40-50 لاحظ أن 150 يوما لم تتحرك إما حتى حتى بعد هذه الزيادة مرة واحدة فعلت، ومع ذلك، واصلت م أعلى في الأشهر ال 12 المقبلة تعمل المتوسطات المتحركة ببراعة في اتجاهات قوية. العملات المزدوجة. المتوسطات المتحركة ج تستخدم معا لتوليد إشارات كروس في التحليل الفني للأسواق المالية جون ميرفي يدعو هذا الأسلوب كروس مزدوجة مزدوجة كروسوفرز تنطوي على المتوسط المتحرك القصير نسبيا ومتوسط متحرك طويل نسبيا نسبيا كما هو الحال مع جميع المتوسطات المتحركة، والطول العام للمتوسط المتحرك يحدد الإطار الزمني للنظام سوف يعتبر النظام الذي يستخدم 5 أيام إما و 35 يوما إما على المدى القصير وهناك نظام باستخدام سما لمدة 50 يوما سما و 200 يوما سوف تعتبر متوسطة الأجل، وربما حتى على المدى الطويل . يحدث تقاطع صعودي عندما يعبر المتوسط المتحرك الأقصر فوق المتوسط المتحرك الأطول. ويعرف هذا أيضا بالصلب الذهبي يحدث تقاطع هبوطي عندما يعبر المتوسط المتحرك الأقصر عن المتوسط المتحرك الأطول. ويعرف هذا بالصلب الميت. المتوسط المتحرك لكروسوفرز تنتج إشارات متأخرة نسبيا بعد كل شيء، ونظام توظف اثنين من المؤشرات المتخلفة يعد فترات المتوسط المتحرك، وزيادة تأخر في إشارات هذه الإشارات تعمل كبيرة عندما فإن الاتجاه الجيد يأخذ في الحسبان ومع ذلك، فإن متوسط كروس نظام متحرك سوف تنتج الكثير من السائبة في غياب اتجاه قوي. هناك أيضا طريقة كروس الثلاثي التي تنطوي على ثلاثة معدلات متحركة مرة أخرى، يتم إنشاء إشارة عندما أقصر المتوسط المتحرك يعبر اثنين من المتوسطات المتحركة أطول نظام كروس الثلاثي بسيطة قد تنطوي على 5 أيام، 10 يوما و 20 يوما تتحرك المتوسطات. الرسم البياني أعلاه يظهر هوم ديبوت هد مع إما 10 يوما خط الأخضر منقط وخط أحمر إما 50 يوما الأسود الخط هو الإغلاق اليومي باستخدام كروس أوفر المتوسط المتحرك قد يكون قد أدى إلى ثلاث انحرافات قبل اللحاق بالتجارة الجيدة اختراق إما 10 أيام دون إما 50 يوما في أواخر أكتوبر 1، ولكن هذا لم يستمر طويلا كما تحركت 10 يوما في منتصف نوفمبر 2 استمر هذا التراجع لفترة أطول ولكن التراجع الهبوطي التالي في 3 يناير وقع بالقرب من مستويات أسعار أواخر نوفمبر، مما أدى إلى انحراف آخر لم يستمر هذا الهبوط الهبوطي طالما استمر المتوسط المتحرك ل 10 أيام مرة أخرى فوق 50 يوم بضعة أيام ل بعد 4 إشارات سيئة، إشارة رابعة تنبأ تحرك قوي كما تقدم السهم أكثر من 20. هناك اثنين من الوجبات السريعة هنا أولا، عمليات الانتقال هي عرضة للانفجار ويمكن تطبيق مرشح السعر أو الوقت للمساعدة في منع انحرافات قد يتطلب التجار كروس إلى آخر 3 أيام قبل التصرف أو تتطلب إما لمدة 10 أيام للتحرك فوق المتوسط المتحرك لمدة 50 يوما بمقدار معين قبل التصرف الثاني، يمكن أن تستخدم ماسد لتحديد وقياس هذه عمليات الانتقال ماسد 10،50،1 سوف تظهر خط وهو ما يمثل الفرق بين المتوسطين المتحركين الأسي يتحول مؤشر الماكد إيجابيا خلال التقاطع الذهبي والسالب خلال التقاطع الميت يمكن استخدام المذبذب السعري بو بنفس الطريقة لإظهار الاختلافات في النسبة المئوية علما بأن مؤشر الماكد و بو يعتمدان على المتوسطات المتحركة الأسية و لن يتطابق مع المتوسطات المتحركة البسيطة. هذا الرسم البياني يظهر أوراكل أوركل مع إما 50 يوم، 200 يوما إما و ماسد 50،200،1 كان هناك أربعة تحركات متوسط الانتقال خلال فترة 2 2 2 سنة T في أول ثلاث نقاط أدت إلى انحرافات أو تداولات سيئة بدأ اتجاه مستدام مع كروس الرابع كما تقدم أوركل إلى منتصف 20s مرة أخرى، تتحرك متوسط عمليات الانتقال تعمل كبيرة عندما يكون الاتجاه قويا، ولكن تنتج خسائر في غياب أي اتجاه. السعر كروسوفرز ويمكن أيضا أن تستخدم المتوسطات المتحركة لتوليد إشارات مع عمليات الانتقال السعرية بسيطة يتم إنشاء إشارة صعودية عندما تتحرك الأسعار فوق المتوسط المتحرك يتم إنشاء إشارة هبوطية عندما تتحرك الأسعار تحت المتوسط المتحرك يمكن دمج عمليات الانتقال السعرية للتداول ضمن الاتجاه الأكبر. المتوسط المتحرك الأطول يضبط لهجة الاتجاه الأكبر ويستخدم المتوسط المتحرك الأقصر لتوليد الإشارات من الممكن أن يبحث المرء عن السعر الصعودي فقط عندما تكون الأسعار فوق المتوسط المتحرك الأطول. هذا من شأنه أن يتداول في وئام مع الاتجاه الأكبر على سبيل المثال ، إذا كان السعر فوق المتوسط المتحرك ل 200 يوم، فإن المخططين سيركزون فقط على الإشارات عندما يتحرك السعر فوق المتوسط المتحرك لمدة 50 يوما ومن الواضح أن فإن التحرك دون المتوسط المتحرك لمدة 50 يوما سيسبق مثل هذه الإشارة، ولكن سيتم تجاهل هذه التداولات الهبوطية لأن الاتجاه الأكبر صعودا قد يشير الزوج الهبوطي ببساطة إلى تراجع في اتجاه صاعد أكبر يمكن أن يعبر السهم فوق المتوسط المتحرك لمدة 50 يوما يشير إلى ارتفاع في الأسعار واستمرار الاتجاه الصاعد الأكبر. يظهر الرسم البياني التالي إيمرسون إمرت الكهربائية مع إيما 50 يوم و إما-200 يوم تحرك السهم فوق واحتفظ فوق المتوسط المتحرك ل 200 يوم في أغسطس وكانت هناك انخفاضات تحت 50 يوما إما في أوائل نوفمبر ومرة أخرى في أوائل فبراير انتقلت الأسعار بسرعة فوق المتوسط المتحرك لمدة 50 يوما لتوفير إشارات صاعدة الأسهم الخضراء في وئام مع الاتجاه الصاعد أكبر ماكد 1،50،1 هو مبين في نافذة المؤشر لتأكيد سعر الصلبان فوق أو تحت المتوسط المتحرك لمدة 50 يوما إن إما إما يساوي سعر الإغلاق ماكد 1،50،1 يكون إيجابيا عندما يكون الإغلاق فوق المتوسط المتحرك ل 50 يوما والسالب عندما يكون الإغلاق دون المتوسط المتحرك ل 50 يوم. المقاومة. المتوسطات المتحركة يمكن أن تعمل أيضا سوبو رت في اتجاه صعودي ومقاومة في اتجاه هبوطي قد يجد اتجاه صعودي على المدى القصير الدعم بالقرب من المتوسط المتحرك البسيط ل 20 يوما والذي يستخدم أيضا في بولينجر باندز قد يجد اتجاه صعودي طويل الأمد الدعم بالقرب من المتوسط المتحرك البسيط ل 200 يوم، وهو المتوسط المتحرك الأكثر شعبية على المدى الطويل إذا كان الأمر كذلك، فإن المتوسط المتحرك لمدة 200 يوم قد يقدم الدعم أو المقاومة ببساطة لأنه يستخدم على نطاق واسع هذا هو تقريبا مثل نبوءة الوفاء الذاتي. الرسم البياني أعلاه يظهر نيويورك المركب مع 200 يوم المتوسط المتحرك البسيط من منتصف 2004 حتى نهاية عام 2008 200 يوم قدمت الدعم عدة مرات خلال السلفة وبمجرد أن عكس الاتجاه مع كسر دعم مزدوج أعلى، المتوسط المتحرك 200 يوم تصرف كمقاومة حول 9500.لا يتوقعون مستويات الدعم والمقاومة الدقيقة من المتوسطات المتحركة، وخاصة المتوسطات المتحركة الأطول. تدفع الأسواق العاطفة، مما يجعلها عرضة للتجاوزات بدلا من المستويات الدقيقة، يمكن استخدام المتوسطات المتحركة لتحديد الدعم أو المقاومة ومزايا استخدام المتوسطات المتحركة تحتاج إلى أن تزن ضد عيوب تتحرك المتوسطات الاتجاه التالية، أو متخلفة، والمؤشرات التي ستكون دائما خطوة وراء هذا ليس بالضرورة شيئا سيئا على الرغم من كل شيء، والاتجاه هو صديقك و هو الأفضل للتداول في اتجاه الاتجاه المتوسطات المتحركة تضمن أن التاجر هو في خط مع الاتجاه الحالي على الرغم من أن الاتجاه هو صديقك والأوراق المالية تنفق قدرا كبيرا من الوقت في نطاقات التداول، مما يجعل المتوسطات المتحركة غير فعالة مرة واحدة في الاتجاه، المتوسطات المتحركة سوف تبقى لكم في، ولكن أيضا إعطاء إشارات متأخرة لا تتوقع أن تبيع في أعلى وشراء في أسفل باستخدام المتوسطات المتحركة كما هو الحال مع معظم أدوات التحليل الفني، لا ينبغي أن تستخدم المتوسطات المتحركة من تلقاء نفسها، ولكن بالتزامن مع أدوات تكميلية أخرى يمكن للرسم البياني استخدام المتوسطات المتحركة لتحديد الاتجاه العام ومن ثم استخدام مؤشر القوة النسبية لتحديد مستويات ذروة الشراء أو ذروة البيع. إضافة المتوسطات المتحركة إلى الرسوم البيانية المخططات. المتوسطات المتحركة هي أف أيلابل كميزة تراكب السعر على منضدة شاربشارتس باستخدام القائمة المنسدلة تراكبات، يمكن للمستخدمين اختيار المتوسط المتحرك البسيط أو المتوسط المتحرك الأسي يتم استخدام المعلمة الأولى لتعيين عدد الفترات الزمنية. يمكن إضافة معلمة اختيارية لتحديد مجال السعر الذي ينبغي استخدامه في العمليات الحسابية - O من أجل فتح، H للارتفاع، L للالنسبة المنخفضة، و C لإغلاق فاصلة يستخدم لفصل المعلمات. يمكن إضافة معلمة اختيارية أخرى لتحويل التحول المتوسطات إلى المستقبل الأيسر أو المستقبل الصحيح رقم سالب -10 سيحول المتوسط المتحرك إلى الفترات العشر الأيسر إن الرقم الموجب 10 من شأنه أن يحول المتوسط المتحرك إلى ال 10 فترات اليمنى. يمكن إضافة المتوسطات المتحركة المتعددة إلى مؤامرة السعر ببساطة عن طريق إضافة خط تراكب آخر إلى طاولة العمل يمكن لأعضاء ستوكشارتس تغيير الألوان والأسلوب للتمييز بين متوسطات متحركة متعددة بعد تحديد مؤشر، افتح الخيارات المتقدمة من خلال النقر على ثلاثي أخضر صغير زاوية. يمكن أيضا أن تستخدم خيارات متقدمة لإضافة تراكب المتوسط المتحرك للمؤشرات الفنية الأخرى مثل رسي، تسي، وحجم. انقر هنا للحصول على الرسم البياني الحية مع العديد من المتوسطات المتحركة المختلفة. استخدام المتوسطات المتحركة مع المخازن Scans. Here هي بعض عينة المسح الضوئي أن ستوكشارتس يمكن للأعضاء استخدام لمسح لمختلف حالات المتوسط المتحرك. الدولية المتحركة المتوسط عبر هذا المسح يبحث عن الأسهم مع ارتفاع المتوسط المتحرك البسيط لمدة 150 يوما والصليب الصاعد من إما 5 أيام و 35 يوما إما المتوسط المتحرك لمدة 150 يوما يرتفع طالما أنه يتداول فوق مستواه قبل خمسة أيام يحدث تقاطع صعودي عندما يتحرك المتوسط المتحرك لخمسة أيام فوق المتوسط المتحرك لمدة 35 يوما فوق المتوسط. المتوسط المتحرك المتحرك الباريش هذا الفحص يبحث عن الأسهم مع انخفاض 150- يوم متوسط متحرك بسيط و تقاطع هبوطي ل إما 5 أيام و 35 يوما إما المتوسط المتحرك ل 150 يوم يتراجع طالما أنه يتداول دون مستواه قبل خمسة أيام يحدث تقاطع هبوطي عندما يتحرك المتوسط المتحرك لخمسة أيام أقل من 35 يوما إما على أبو في متوسط حجم. وعلاوة على ذلك Study. John كتاب مورفي لديه فصل مخصص للمتوسطات المتحركة واستخداماتها المختلفة ميرفي يغطي إيجابيات وسلبيات المتوسطات المتحركة وبالإضافة إلى ذلك، يبين ميرفي كيف تتحرك المتوسطات المتحركة مع البولنجر باند وأنظمة التداول القائمة على قناة. تقنية تحليل الأسواق المالية جون Murphy. Statistics الحالي - Textbook. Structural المعادلة Modelling. A النظرية المفاهيمية. الهيكلية المعادلة النمذجة هو عام جدا، قوية جدا تقنية تحليل متعدد المتغيرات التي تتضمن إصدارات متخصصة من عدد من أساليب التحليل الأخرى كحالات خاصة سنقوم افترض أنك معتادا على المنطق الأساسي من المنطق الإحصائي كما هو موضح في المفاهيم الأولية وعلاوة على ذلك، فإننا نفترض أيضا أن كنت على دراية بمفاهيم التباين والتكافؤ، والارتباط إن لم يكن، فإننا ننصح أن تقرأ قسم الإحصاءات الأساسية في هذه النقطة على الرغم من أنه ليس من الضروري للغاية، فمن المرغوب فيه للغاية أن يكون لديك بعض الخلفية في الواقع r قبل محاولة استخدام النمذجة الهيكلية. الطبقات الرئيسية للنمذجة المعادلة النمطية وتشمل النمذجة أو تحليل المسار الذي يفترض العلاقات السببية بين المتغيرات واختبارات النماذج السببية مع نظام المعادلات الخطية يمكن أن تشمل النماذج السببية إما المتغيرات واضحة، المتغيرات الكامنة، أو تحليلا عاملا مؤكدا لتمديد تحليل العوامل التي يتم فيها اختبار فرضيات محددة حول بنية تحميل العوامل و إنتيركوريلاتيونس. تحليل عامل الترتيب الثاني تباين لتحليل العوامل حيث تكون مصفوفة الارتباط للعوامل المشتركة هي نفسها التي تم تحليلها لتوفير (ريجرسيون أناليسيس) امتدادا لتحليل الانحدار الخطي الذي يمكن أن تكون فيه أوزان الانحدار مقيدة على أن تكون مساوية لبعضها البعض أو إلى قيم رقمية محددة. نماذج بنية المتغيرات التي تفترض أن مصفوفة التباين لها شكل معين على سبيل المثال، يمكنك اختبار فرضية أن مجموعة من فاريا (بلاتس) لها تباينات متساوية مع هذا الإجراء. نماذج بنية الارتباط التي تفترض أن مصفوفة الارتباط لها شكل معين مثال تقليدي هو الفرضية القائلة بأن مصفوفة الارتباط لها بنية غوتمان، 1954 ويغينز، ستيجر، غايليك، 1981.Many أنواع مختلفة من النماذج تقع في كل من الفئات المذكورة أعلاه، لذلك النمذجة الهيكلية كمؤسسة من الصعب جدا توصيف. يمكن التعبير عن معظم نماذج المعادلة الهيكلية كما المخططات المسار وبالتالي حتى المبتدئين إلى النمذجة الهيكلية يمكن إجراء تحليلات معقدة مع الحد الأدنى من التدريب. الفكرة الأساسية وراء النمذجة الهيكلية. أحد الأفكار الأساسية التي تدرس في دورات الإحصاء التطبيقية المتوسطة هو تأثير التحولات المضافة والتعددية على قائمة من الأرقام يتم تدريس الطلاب أنه إذا كنت ضرب كل عدد في قائمة من قبل بعض K ثابت، كنت مضاعفة متوسط الأرقام بواسطة K وبالمثل، يمكنك مضاعفة الانحراف المعياري من قبل المطلق قيمة أوت من K. على سبيل المثال، لنفترض أن لديك قائمة من الأرقام 1،2،3 هذه الأرقام لديها متوسط من 2 والانحراف المعياري من 1 الآن، لنفترض أنك كانت تأخذ هذه الأرقام 3 ومضاعفة لهم من قبل 4 ثم (8)، والانحراف المعياري سيصبح (4)، والتباين بالتالي (16). والنقطة هي، إذا كان لديك مجموعة من الأرقام X تتعلق بمجموعة أخرى من الأرقام Y بالمعادلة Y 4X، فيجب أن يكون التباين Y 16 مرة من X، حتى تتمكن من اختبار فرضية أن Y و X ترتبط بالمعادلة Y 4X بشكل غير مباشر من خلال مقارنة التباين بين Y و X المتغيرات. وتعمم هذه الفكرة، بطرق مختلفة، لعدة متغيرات مترابطة بين مجموعة من المعادلات الخطية تصبح القواعد أكثر تعقيدا، والحسابات أكثر صعوبة، ولكن الرسالة الأساسية لا تزال هي نفسها - يمكنك اختبار ما إذا كانت المتغيرات هي مترابطة من خلال مجموعة من العلاقات الخطية من خلال دراسة الفروق والتغيرات في المتغيرات. الاستراتيجيون لديهم وضعت إجراءات لاختبار w فإن مجموعة من الفروق والتغيرات في مصفوفة التباين تتناسب مع بنية محددة الطريقة التي تعمل بها نماذج النمذجة الهيكلية هي كما يلي. يمكنك القول بالطريقة التي تعتقد أن المتغيرات هي مترابطة، في كثير من الأحيان مع استخدام مخطط المسار. يمكنك العمل بها ، من خلال بعض القواعد الداخلية المعقدة، ما هي انعكاسات ذلك على التباينات والتغيرات في المتغيرات. يمكنك اختبار ما إذا كانت الفروق والتغيرات المشتركة تناسب هذا النموذج من بينها. نتائج الاختبار الإحصائي، وكذلك تقديرات المعلمة والأخطاء القياسية ل يتم الإبلاغ عن المعاملات العددية في المعادلات الخطية. على أساس هذه المعلومات، عليك أن تقرر ما إذا كان النموذج يبدو وكأنه مناسبا تماما للبيانات الخاصة بك. هناك بعض النقاط المنطقية الهامة جدا، وتذكر أن نتذكر حول هذه العملية أولا، على الرغم من أن الرياضية الآلات اللازمة لأداء المعادلات الهيكلية النمذجة معقدة للغاية، والمنطق الأساسي هو تجسيد في الخطوات 5 أعلاه أدناه، ونحن رسم تخطيطي العملية ثانيا، يجب علينا r أن من غير المعقول أن نتوقع نموذجا هيكليا لتناسب تماما لعدد من الأسباب نموذج هيكلي مع العلاقات الخطية هو مجرد تقريب العالم من غير المرجح أن تكون خطية في الواقع، والعلاقات الحقيقية بين المتغيرات وربما غير الخطية وعلاوة على ذلك، فإن العديد من فإن الافتراضات الإحصائية مشكوك فيها إلى حد ما أيضا السؤال الحقيقي ليس كثيرا، هل النموذج يناسب تماما ولكن بدلا من ذلك، هل تناسب جيدا بما يكفي لتكون تقريب مفيد للواقع، وتفسير معقول للاتجاهات في البيانات لدينا. ثالثا، ونحن يجب أن نتذكر أن ببساطة لأن نموذج يناسب البيانات جيدا لا يعني أن النموذج هو الصحيح بالضرورة لا يمكن للمرء أن يثبت أن النموذج هو الصحيح لتأكيد هذا هو مغالطة تأكيد ما يترتب على ذلك على سبيل المثال، يمكن أن نقول إذا جو هو القط، جو لديه الشعر ومع ذلك، جو لديه الشعر لا يعني جو هو القط وبالمثل، يمكننا أن نقول أنه إذا كان هناك نموذج سببية معينة صحيحة، فإنه سيتم تناسب البيانات ومع ذلك، فإن نموذج المناسب البيانات لا ن يعني بالضرورة أن النموذج هو الصحيح قد يكون هناك نموذج آخر يناسب البيانات بشكل جيد على حد سواء. الهيكلية المعادلة النمذجة ورسم المسار. الرسوم البيانية باث تلعب دورا أساسيا في النمذجة الهيكلية مسار المخططات مثل المخططات الانسيابية أنها تظهر المتغيرات المترابطة مع الخطوط التي هي تستخدم للتعبير عن التدفق السببي. يمكن للمرء أن يفكر في مخطط المسار كجهاز لعرض المتغيرات التي تسبب تغييرات في متغيرات أخرى ومع ذلك، لا ينبغي التفكير في المخططات المسار بدقة في هذه الطريقة ويمكن أيضا أن تعطى تفسيرا أضيق وأكثر تحديدا. النظر في معادلات الانحدار الخطي الكلاسيكي. أي مثل هذه المعادلة قد تكون ممثلة في مخطط المسار كما يلي. تحدد هذه المخططات إيسومورفيسم بسيطة يتم وضع جميع المتغيرات في نظام المعادلة في الرسم البياني، إما في صناديق أو بيضاوي كل معادلة يتم تمثيلها في الرسم التخطيطي على النحو التالي جميع المتغيرات المستقلة المتغيرات على الجانب الأيمن من المعادلة والسهام مشيرا إلى المتغير التابع وي يتم وضع معامل غتينغ فوق السهم يوضح الرسم البياني أعلاه نظام معادلة خطية بسيط ومسار تمثيل الرسم البياني. لاحظ أنه إلى جانب تمثيل العلاقات المعادلة الخطية مع الأسهم، تحتوي المخططات أيضا على بعض الجوانب الإضافية أولا، فروق المتغيرات المستقلة، والتي يجب أن نعرف من أجل اختبار نموذج العلاقات الهيكلية، وتظهر على المخططات باستخدام خطوط منحنية دون السهام المرفقة ونحن نشير إلى خطوط مثل الأسلاك ثانيا، يتم تمثيل بعض المتغيرات في البيضاوي، والبعض الآخر في صناديق مستطيلة يتم وضع متغيرات بيان في صناديق في مخطط المسار يتم وضع المتغيرات الكامنة في بيضاوية أو دائرة على سبيل المثال، يمكن اعتبار المتغير E في الرسم البياني أعلاه بقايا الانحدار الخطي عند توقع Y من X لم يتم ملاحظة هذه البقايا مباشرة، ولكن تم حسابها من Y و X، لذلك نحن التعامل معها كمتغير كامن ووضعه في البيضاوي. المثال الذي نوقش أعلاه هو واحد بسيط للغاية عموما، ونحن مهتمون في اختبار النماذج التي هي أكثر تعقيدا بكثير من هذه كما أنظمة المعادلة ندرس تصبح معقدة على نحو متزايد، وكذلك هياكل التباين أنها تعني في نهاية المطاف، والتعقيد يمكن أن تصبح محيرة جدا أن نغفل عن بعض المبادئ الأساسية جدا لشيء واحد قطار المنطق الذي يدعم اختبار النماذج السببية مع المعادلات الهيكلية الخطية اختبار عدة روابط ضعيفة قد تكون المتغيرات غير الخطية قد تكون ذات صلة خطية لأسباب لا علاقة لها بما عادة ما ينظر إليها على أنها السببية لا يزال القول المأثور القديم، لا علاقة سببية صحيح ، حتى لو كان الارتباط معقد ومتعدد المتغيرات ما هي النماذج السببية التي تسمح لنا بالقيام به هو فحص مدى فشل البيانات في التوافق مع نتيجة قابلة للتطبيق بشكل معقول لنموذج السببية إذا كان نظام المعادلات الخطية متساوي الشكل إلى مخطط المسار البيانات جيدا، فإنه أمر مشجع، ولكن بالكاد دليل على حقيقة النموذج السببي. على الرغم من أن المخططات المسار يمكن تستخدم لتمثيل التدفق السببي في نظام المتغيرات، فإنها لا تحتاج إلى ضمنا مثل هذا التدفق السببي يمكن النظر إلى هذه المخططات على أنها مجرد تمثيل إسومورفي لنظام المعادلات الخطية على هذا النحو، فإنها يمكن أن تنقل العلاقات الخطية عندما لا يفترض وجود علاقات سببية وبالتالي ، على الرغم من أن المرء قد يفسر الرسم البياني في الشكل أعلاه يعني أن X يسبب Y، ويمكن أيضا أن يفسر الرسم البياني على أنه تمثيل مرئي للعلاقة الانحدار الخطي بين X و Y. Was هذا الموضوع مفيدة. فيدباك سوبيتد. المعلومات العامة. تطورت هذه التقنيات في المقام الأول في العلوم الطبية والبيولوجية، ولكنها تستخدم أيضا على نطاق واسع في العلوم الاجتماعية والاقتصادية، وكذلك في الهندسة الموثوقية والفشل وقت التحليل. إيماجين أن كنت باحثا في المستشفى الذين يدرس فعالية العلاج الجديد لمرض طرفية عموما المتغير الرئيسي من الاهتمام هو عدد الأيام التي كل منها مرضى البقاء على قيد الحياة من حيث المبدأ، يمكن للمرء أن استخدام الإحصاءات المعيارية وغير اللامركزية لوصف متوسط البقاء على قيد الحياة، ومقارنة العلاج الجديد مع الأساليب التقليدية انظر الإحصاءات الأساسية ونونبارامتريكس وتوزيع المناسب ومع ذلك، في نهاية الدراسة سيكون هناك المرضى الذين نجا على مدى فترة الدراسة بأكملها، وخاصة بين أولئك المرضى الذين دخلوا المستشفى ومشروع البحث في وقت متأخر من الدراسة سيكون هناك مرضى آخرين الذين كنا قد فقدت الاتصال بالتأكيد، لا أحد يريد أن يستبعد كل هؤلاء المرضى من دراسة من خلال إعلانهم أن البيانات المفقودة لأن معظمهم من الناجين، وبالتالي فإنها تعكس نجاح طريقة العلاج الجديدة هذه الملاحظات التي تحتوي على معلومات جزئية فقط تسمى الملاحظات المراقبة مثل المريض A نجا 4 أشهر على الأقل قبل انتقل بعيدا وفقدنا الاتصال مصطلح الرقابة كان يستخدم لأول مرة من قبل هالد، 1949. مراقبة المراقبة. بشكل عام، تنشأ المراقبة الرقابية كلما كان المتغير التابع للفوائد يمثل الوقت لحدث نهائي، ومدة الدراسة محدودة في الوقت المناسب قد تحدث المراقبة الرقابية في عدد من مجالات البحث المختلفة على سبيل المثال، في العلوم الاجتماعية قد ندرس والبقاء على قيد الحياة للزواج، ومعدلات التسرب من المدارس الثانوية وقت التسرب، ودوران المنظمات، وما إلى ذلك وفي كل حالة، وبحلول نهاية فترة الدراسة، بعض المواضيع لا تزال متزوجة، لن يكون قد تسرب، أو لا تزال تعمل في نفس الشركة وبالتالي، هذه المواضيع تمثل الملاحظات رقابة. في الاقتصاد قد ندرس بقاء الشركات الجديدة أو أوقات البقاء على قيد الحياة من المنتجات مثل السيارات في أبحاث مراقبة الجودة، فمن الممارسة الشائعة لدراسة بقاء أجزاء تحت زمن فشل الإجهاد التحليل. تقنيات تحليلية. أساسا، فإن الطرق المعروضة في تحليل البقاء على قيد الحياة تعالج نفس الأسئلة البحثية كما العديد من الإجراءات الأخرى ومع ذلك، جميع الطرق في البقاء على قيد الحياة و سوف يليسيس التعامل مع البيانات رقابة جدول الحياة، وتوزيع البقاء على قيد الحياة وتقدير وظيفة البقاء على قيد الحياة كابلان-مير هي جميع الطرق الوصفية لتقدير توزيع أوقات البقاء على قيد الحياة من عينة تتوفر العديد من التقنيات لمقارنة البقاء على قيد الحياة في مجموعتين أو أكثر وأخيرا، العديد من نماذج الانحدار لتقدير العلاقة بين المتغيرات المستمرة المتعددة لأوقات البقاء. تحليل الجدول الحياة. الطريقة الأكثر مباشرة لوصف البقاء على قيد الحياة في العينة هو لحساب جدول الحياة تقنية الجدول الحياة هي واحدة من أقدم الطرق لتحليل فشل البقاء على قيد الحياة البيانات على سبيل المثال انظر بيركسون غيج، 1950 كوتلر إديرر، 1958 جيهان، 1969 يمكن اعتبار هذا الجدول من جدول توزيع التردد المعزز توزيع أوقات البقاء على قيد الحياة وينقسم إلى عدد معين من فترات لكل فاصل يمكننا بعد ذلك حساب عدد و نسبة الحالات أو الأشياء التي دخلت الفاصل الزمني على قيد الحياة، وعدد و نسبة الحالات التي فشلت في الفاصل الزمني المعني أي عدد الأحداث الطرفية، أو عدد الحالات التي توفي، وعدد الحالات التي فقدت أو رقابة في الفاصل الزمني المعني. وبناء على تلك الأرقام والنسب، ويمكن حساب عدة إحصاءات إضافية عدد الحالات المعرضة للخطر هذا هو عدد الحالات التي دخلت الفاصل الزمني على قيد الحياة، ناقص نصف عدد الحالات المفقودة أو رقابة في الفترة الزمنية المعنية. فشل في هذه النسبة يتم احتساب نسبة من عدد الحالات التي فشل في الفاصل الزمني لكل منهما، مقسوما على عدد الحالات المعرضة للخطر في الفاصل الزمني. البقاء على قيد الحياة يتم حساب هذه النسبة على النحو 1 ناقص نسبة الفشل. ال نسبة التراكمية البقاء على قيد الحياة وظيفة البقاء على قيد الحياة هذه هي النسبة التراكمية للحالات البقاء على قيد الحياة حتى الفاصل الزمني ذات الصلة منذ الاحتمالات من البقاء على قيد الحياة لتكون مستقلة على فترات، ويحسب هذا الاحتمال عن طريق ضرب احتمال من البقاء على قيد الحياة عبر جميع الفترات السابقة ويسمى الدالة الناتجة أيضا البقاء على قيد الحياة أو وظيفة البقاء على قيد الحياة. القدرة على الاحتمال هذا هو احتمال احتمال الفشل في الفاصل الزمني، محسوبة لكل وحدة من الزمن، وهذا هو. في هذه الصيغة، F ط هو (P i) هي النسبة التراكمية المقدرة المتبقية في بداية الفاصل الزمني i في نهاية الفاصل الزمني i-1، P i 1 هي النسبة التراكمية التي تبقى على قيد الحياة في نهاية الفاصل الزمني i ، وهنا هو عرض الفاصل الزمني. معدل هازارد معدل الخطر تم استخدام مصطلح أول من قبل بارلو، 1963 يعرف بأنه احتمال في وحدة الوقت أن الحالة التي بقيت إلى بداية الفاصل الزمني سوف تفشل في ذلك الفاصل الزمني على وجه التحديد، يتم حسابه على أنه عدد الفشل لكل وحدة زمنية في الفاصل الزمني، مقسوما على متوسط عدد الحالات الباقية على قيد الحياة في منتصف نقطة الفاصل الزمني. مدة البقاء على قيد الحياة التي تساوي فيها وظيفة البقاء على قيد الحياة التراكمي 0 5 النسب المئوية الأخرى يمكن حساب النسبة المئوية 25 و 75 من دالة البقاء على قيد الحياة التراكمي وفقا لذلك، لاحظ أن متوسط النسبة المئوية 50 لوظيفة البقاء على قيد الحياة التراكمي عادة لا يكون نفس النقطة الزمنية ما يصل إلى 50 من العينة على قيد الحياة هذا لن يكون إلا إذا كان هناك أي ملاحظات رقابة قبل هذا الوقت. المطلوبة عينة الأحجام من أجل التوصل إلى تقديرات موثوق بها من ثلاث وظائف رئيسية البقاء على قيد الحياة، وكثافة الاحتمال، والخطر ومعيارها أخطاء في كل فاصل زمني الحد الأدنى الموصى به حجم العينة هو 30. توزيع المناسب. مقدمة عامة في ملخص، الجدول الحياة يعطينا مؤشرا جيدا لتوزيع الفشل على مر الزمن ومع ذلك، لأغراض التنبؤية غالبا ما يكون من المرغوب فيه لفهم شكل وظيفة البقاء الأساسية في السكان التوزيعات الرئيسية التي اقترحت لنمذجة البقاء على قيد الحياة أو الفشل هي التوزيع الأسي والخطي الأسي وتوزيع ويبول للأحداث المتطرفة والتوزيع غومبيرتز. استكمال الإجراء تقدير المعلمة لتقدير المعلمات من وظائف البقاء النظري هو في الأساس خوارزمية الانحدار الخطي المربعات الصغرى انظر جيهان صديقي، 1973 A الخطية يمكن استخدام خوارزمية الانحدار لأن جميع التوزيعات النظرية الأربعة يمكن أن تكون خطية من خلال التحولات المناسبة مثل هذه التحولات تنتج أحيانا تباينات مختلفة للبقايا في أوقات مختلفة، مما يؤدي إلى تقديرات منحازة. الحسن من صالح وبالنظر إلى المعلمات لمختلف وظائف التوزيع و نموذج يمكننا أن نحسب احتمال البيانات يمكن أيضا حساب احتمال البيانات تحت نموذج فارغ، وهذا هو، النموذج الذي يسمح لمعدلات الخطر المختلفة في كل فاصل زمني دون الدخول في التفاصيل، يمكن مقارنة هذين الاحتمالين عن طريق زيادة تشي اختبار مربع إحصائية إذا ث هو تشي مربع هو ذو دلالة إحصائية، ثم نستنتج أن التوزيع النظري منها يناسب البيانات أسوأ بكثير من النموذج الفارغ الذي هو، ونحن نرفض التوزيع منها كنموذج ل data. Plots لدينا يمكن أن تنتج المؤامرات من وظيفة البقاء على قيد الحياة، والخطر، وكثافة الاحتمال للبيانات المرصودة والتوزيعات النظرية ذات الصلة توفر هذه المؤامرات فحص بصري سريع من الخير من صالح للتوزيع النظري ويبين المثال مؤامرة أدناه وظيفة البقاء على قيد الحياة لوحظ وتوزيع ويبول المجهزة. على وجه التحديد، ثلاثة خطوط في هذه المؤامرة تدل على التوزيعات النظرية التي نتجت عن ثلاثة إجراءات تقدير مختلفة المربعات الصغرى وطريقتين من المربوط الأقل المربعات. كابلان-ميير المقدر المنتج. أكثر من تصنيف مرات البقاء على قيد الحياة لوحظ في جدول الحياة، يمكننا تقدير وظيفة البقاء على قيد الحياة مباشرة من البقاء على قيد الحياة أو الفشل مرات مستمرة حدسي، تخيل أن ث e إنشاء جدول الحياة بحيث كل فاصل زمني يحتوي على حالة واحدة بالضبط ضرب الاحتمالات البقاء على قيد الحياة عبر فترات أي لكل ملاحظة واحدة سوف تحصل على وظيفة البقاء على قيد الحياة. في هذه المعادلة، S ر هي وظيفة البقاء على قيد الحياة المقدرة، ن هو العدد الإجمالي للحالات ويشير إلى المجموع الهندسي الضرب في جميع الحالات أقل من أو يساوي تي هو ثابت إما هو 1 إذا كانت الحالة j كاملة غير خاضعة للرقابة، و 0 إذا كان رقابة هذا التقدير من وظيفة البقاء على قيد الحياة هو أيضا ودعا مقدر الحد من المنتج وأول اقترح من قبل كابلان ومير 1958 ويرد مثال على قطعة من هذه الوظيفة أدناه. ميزة أسلوب كابلان-مير المنتج الحد على طريقة الجدول الحياة لتحليل البقاء على قيد الحياة وفشل البيانات الوقت هو أن فإن التقديرات الناتجة لا تعتمد على تجميع البيانات في عدد معين من الفترات الزمنية في الواقع، فإن أسلوب الحد من المنتج وطريقة جدول الحياة متطابقان إذا كانت الفترات الزمنية جدول الحياة يحتوي على أكثر من واحد ملاحظة الملاحظة. مقدمة عامة يمكن للمرء أن يقارن مرات البقاء على قيد الحياة أو الفشل في اثنين أو أكثر من العينات من حيث المبدأ، لأن أوقات البقاء على قيد الحياة لا توزع عادة، يجب أن الاختبارات غير اللامركزية التي تقوم على ترتيب رتبة من البقاء على قيد الحياة مرات تطبيق يمكن استخدام مجموعة واسعة من الاختبارات اللامعرفية من أجل مقارنة مرات البقاء على قيد الحياة ومع ذلك، لا يمكن للاختبارات التعامل مع الملاحظات رقابة. اختبارات المتاحة الاختبارات الخمسة المختلفة معظمها غير اللامباركية للبيانات الخاضعة للرقابة تتوفر جيهان ق اختبار ويلكوكسون المعمم، واختبار كوكس-مانتيل ، واختبار كوكس F F اختبار رتبة السجل، واختبار ويلكوكسون بيتو وبيتو s المعمم اختبار ويلكوكسون اختبار غير لامعاري للمقارنة بين مجموعات متعددة وتتوفر أيضا ويرافق معظم هذه الاختبارات من قبل z - قيم القيم من التوزيع العادي العادي هذه z - يمكن استخدام القيم لاختبار الدلالة الإحصائية لأي اختلافات بين المجموعات ومع ذلك، لاحظ أن معظم من هذه الاختبارات سيؤدي فقط إلى نتائج موثوقة مع عينات كبيرة نسبيا يحجم سلوك عينة صغيرة هو أقل فهما جيدا. اختبار اختبار عينة اثنين لا توجد مبادئ توجيهية مقبولة على نطاق واسع بشأن أي اختبار لاستخدامها في حالة معينة كوكس S اختبار F يميل إلى أن يكون أكثر قوية من جيهان s ولكوكسون اختبار العام عندما أحجام العينة هي إين صغيرة لكل مجموعة أقل من 50.If عينات من أسي أو ويبول. إذا لم تكن هناك مراقبة الرقابة انظر جيهان توماس، 1969.Lee، ديسو، وجيهان 1975 مقارنة جيهان s إلى عدة بدائل وأظهرت أن اختبار كوكس-مانت واختبار رتبة السجل أكثر قوة بغض النظر عن الرقابة عندما يتم سحب العينات من السكان الذي يتبع توزيع أسي أو ويبول في ظل هذه الظروف هناك فرق بسيط بين كوكس اختبار - Mantel واختبار رتبة سجل لي 1980 يناقش قوة اختبارات مختلفة في مزيد من التفصيل. اختبار عينة متعددة هناك عينة متعددة الاختبار الذي هو إكستنسي على أو تعميم اختبار جيهان العام ويلكوكسون، بيتو و بيتو s اختبار ويلكوكسون المعمم، واختبار رتبة السجل أولا، يتم تعيين درجة لكل وقت البقاء على قيد الحياة باستخدام رف رف مانع، 1967 المقبل يتم احتساب قيمة مربع تشي على أساس على المبالغ لكل مجموعة من هذه النتيجة إذا تم تحديد مجموعتين فقط، ثم هذا الاختبار هو ما يعادل جيهان ق اختبار ويلكوكسون المعمم، والحسابات الافتراضية لهذا الاختبار في هذه الحالة. Unequal نسب البيانات رقابة عند مقارنة اثنين أو أكثر من المهم جدا فحص عدد الملاحظات المراقبة في كل مجموعة خاصة في مجال البحوث الطبية، يمكن أن يكون فرض الرقابة نتيجة، على سبيل المثال، تطبيق العلاجات المختلفة المرضى الذين يحصلون على أفضل بشكل أسرع أو تزداد سوءا نتيجة للعلاج قد يكون أكثر عرضة للتسرب من الدراسة، مما أدى إلى أعداد مختلفة من الملاحظات المراقبة في كل مجموعة هذا الرقابة المنهجية قد تحيز إلى حد كبير نتائج المقارنة. الانحدار مو ديلس. جينيرال إنترودكتيون. سؤال بحثي مشترك في البحوث الطبية أو البيولوجية أو الهندسية وقت الفشل هو تحديد ما إذا كانت أو لا ترتبط بعض المتغيرات المستقلة المستمرة مع البقاء على قيد الحياة أو الفشل مرات هناك سببان رئيسيان لماذا لا يمكن معالجة هذه المسألة البحثية عبر تقنيات الانحدار المتعدد المباشر كما هو متاح في الانحدار المتعدد أولا، المتغير التابع لوقت فشل البقاء على قيد الحياة الفائدة على الأرجح لا توزع عادة - انتهاكا خطيرا لفرضية المربعات الصغرى العادية الانحدار المتعدد البقاء على قيد الحياة مرات عادة ما يتبع توزيع الأسي أو ويبول ثانيا، هناك مشكلة الرقابة هي أن بعض الملاحظات سوف تكون غير مكتملة. كوكس s التناسبية الخطية نموذج. نموذج الخطر النسبي هو الأكثر عمومية من نماذج الانحدار لأنه لا يقوم على أي افتراضات تتعلق بطبيعة أو شكل البقاء على قيد الحياة التوزيع يفترض النموذج أن وندرلين ز بدلا من وقت البقاء على قيد الحياة هو وظيفة للمتغيرات المستقلة المتغيرات لا توجد افتراضات حول طبيعة أو شكل وظيفة الخطر وهكذا، بمعنى من المعاني، يمكن اعتبار نموذج الانحدار كوكس على أنه طريقة غير بارامترية قد يكون النموذج مكتوبة as. where ht يدل على المخاطر الناتجة، نظرا لقيم المتغيرات المتغيرة للحالة المعنية z 1 z 2 زم ووقت البقاء على قيد الحياة t يسمى مصطلح h 0 t خط الأساس خطورة هو الخطر بالنسبة لكل فرد عندما تكون جميع القيم المتغيرة المستقلة تساوي الصفر يمكننا أن نخطي هذا النموذج بقسمة جانبي المعادلة بمقدار h 0 t ومن ثم أخذ اللوغاريتم الطبيعي لكلا الجانبين. لدينا الآن نموذج خطي بسيط إلى حد ما يمكن تقديره بسهولة. وفي حين لا توجد افتراضات حول شكل وظيفة الخطر الأساسية، فإن المعادلات النموذجية المبينة أعلاه تنطوي على افتراضين أولا، فهي تحدد علاقة مضاعفة بين وندرلين g و الدالة لوغ-لينير من المتغيرات المتراكمة ويسمى هذا الافتراض أيضا افتراض التناسب من الناحية العملية، يفترض أنه بالنظر إلى ملاحظتين قيمتين مختلفتين للمتغيرات المستقلة، فإن نسبة وظائف الخطر لهاتين الرصدتين لا يعتمد على الوقت الافتراض الثاني بطبيعة الحال هو أن هناك علاقة سجل الخطية بين المتغيرات المستقلة ودالة الخطر الكامنة. كوكس s التناسبية النموذج الخطر مع المتغيرات المعتمدة على الوقت. على افتراض نموذج الخطر النسبي هو أن فإن وظيفة الخطر بالنسبة لأي فرد، أي الملاحظة في التحليل، تعتمد على قيم المتغيرات المتنازعة وقيمة خط الأساس. ونظرا إلى وجود فردين لهما قيم معينة للمتغيرات المشتركة، فإن نسبة الأخطار المقدرة مع مرور الوقت ستكون ثابتة - اسم طريقة نموذج الخطر النسبي قد تكون صحة هذا الافتراض في كثير من الأحيان مشكوك فيها على سبيل المثال، العمر وغالبا ما يتم تضمينها في دراسات الصحة البدنية لنفترض أنك درست البقاء على قيد الحياة بعد الجراحة ومن المرجح أن هذا العمر هو مؤشر أكثر أهمية للمخاطر مباشرة بعد الجراحة، من بعض الوقت بعد الجراحة بعد الانتعاش الأولي في تسارع الحياة اختبار واحد يستخدم أحيانا كوفاريات التوتر على سبيل المثال، مقدار الجهد الذي يزداد ببطء بمرور الوقت حتى يحدث الفشل على سبيل المثال حتى فشل العزل الكهربائي انظر لوليس، 1982، بادج 393 في هذه الحالة، فإن تأثير المتغير المشترك يعتمد بشكل واضح على الوقت يمكن للمستخدم تحديد تعبيرات الحساب لتعريف المتغيرات المتغيرة وظائف عدة متغيرات ووقت البقاء على قيد الحياة. اختبار افتراض التناسب كما هو مبين في الأمثلة السابقة، وهناك العديد من التطبيقات حيث من المرجح أن افتراض التناسب لا يحمل في هذه الحالة، يمكن للمرء أن يحدد المتغيرات المشتركة كدالات من الوقت على سبيل المثال، تحليل مجموعة البيانات التي قدمها بايك 1966 يتكون من أوقات البقاء على قيد الحياة لمجموعتين من الفئران ث في حالة تعرضها لمسببات مسرطنة انظر أيضا لاولس، 1982، صفحة 393، لنموذج مماثل لنفترض أن z هو متغير تجميع مع الكود 1 و 0 للدلالة على ما إذا كان قد تم تعريض الفئران المعنية أم لا يمكن للمرء أن يتناسب مع نموذج الخطر النسبي وفي هذا النموذج فإن الخطر المشروط في الوقت t هو دالة 1 خط الأساس خطير h 0 2 المتغير المتغير z و 3 من z مرات لوغاريتم الزمن لاحظ أن الثابت 5 4 يستخدم هنا لأغراض القياس فقط المتوسط من لوغاريتم أوقات البقاء على قيد الحياة في هذه المجموعة من البيانات يساوي 5 4 وبعبارة أخرى، فإن الخطر المشروط في كل نقطة من الزمن هو دالة من المتغايرين والوقت وبالتالي، فإن تأثير المتغير المشترك على البقاء على قيد الحياة يعتمد على الوقت وبالتالي the name time-dependent covariate This model allows one to specifically test the proportionality assumption If parameter b 2 is statistically significant eg if it is at least twice as large as its standard error , then one can conclude that, indeed, the effect of the cov ariate z on survival is dependent on time, and, therefore, that the proportionality assumption does not hold. Exponential Regression. Basically, this model assumes that the survival time distribution is exponential, and contingent on the values of a set of independent variables z i The rate parameter of the exponential distribution can then be expressed as. S z denotes the survival times, a is a constant, and the b i s are the regression parameters. Goodness-of-fit The Chi-square goodness-of-fit value is computed as a function of the log-likelihood for the model with all parameter estimates L 1 , and the log-likelihood of the model in which all covariates are forced to 0 zero L 0 If this Chi-square value is significant, we reject the null hypothesis and assume that the independent variables are significantly related to survival times. Standard exponential order statistic One way to check the exponentiality assumption of this model is to plot the residual survival times against the standard exponential order statistic theta If the exponentiality assumption is met, then all points in this plot will be arranged roughly in a straight line. Normal and Log-Normal Regression. In this model, it is assumed that the survival times or log survival times come from a normal distribution the resulting model is basically identical to the ordinary multiple regression model, and may be stated as. where t denotes the survival times For log-normal regression, t is replaced by its natural logarithm The normal regression model is particularly useful because many data sets can be transformed to yield approximations of the normal distribution Thus, in a sense this is the most general fully parametric model as opposed to Cox s proportional hazard model which is non-parametric , and estimates can be obtained for a variety of different underlying survival distributions. Goodness-of-fit The Chi-square value is computed as a function of the log-likelihood for the model with all independent variables L1 , and the log-likelihood of the model in which all independent variables are forced to 0 zero, L0.Stratified Analyses. The purpose of a stratified analysis is to test the hypothesis whether identical regression models are appropriate for different groups, that is, whether the relationships between the independent variables and survival are identical in different groups To perform a stratified analysis, one must first fit the respective regression model separately within each group The sum of the log-likelihoods from these analyses represents the log-likelihood of the model with different regression coefficients and intercepts where appropriate in different groups The next step is to fit the requested regression model to all data in the usual manner i e ignoring group membership , and compute the log-likelihood for the overall fit The difference between the log-likelihoods can then be tested for statistical significance via the Chi-square statistic. Was this topic helpful. Feedback Submit ted. Text Mining Big Data, Unstructured Data. Text Mining Introductory Overview. The purpose of Text Mining is to process unstructured textual information, extract meaningful numeric indices from the text, and, thus, make the information contained in the text accessible to the various data mining statistical and machine learning algorithms Information can be extracted to derive summaries for the words contained in the documents or to compute summaries for the documents based on the words contained in them Hence, you can analyze words, clusters of words used in documents, etc or you could analyze documents and determine similarities between them or how they are related to other variables of interest in the data mining project In the most general terms, text mining will turn text into numbers meaningful indices , which can then be incorporated in other analyses such as predictive data mining projects, the application of unsupervised learning methods clustering , etc These methods are descri bed and discussed in great detail in the comprehensive overview work by Manning and Schtze 2002 , and for an in-depth treatment of these and related topics as well as the history of this approach to text mining, we highly recommend that source. Typical Applications for Text Mining. Unstructured text is very common, and in fact may represent the majority of information available to a particular research or data mining project. Analyzing open-ended survey responses In survey research e g marketing , it is not uncommon to include various open-ended questions pertaining to the topic under investigation The idea is to permit respondents to express their views or opinions without constraining them to particular dimensions or a particular response format This may yield insights into customers views and opinions that might otherwise not be discovered when relying solely on structured questionnaires designed by experts For example, you may discover a certain set of words or terms that are commonly used by respondents to describe the pro s and con s of a product or service under investigation , suggesting common misconceptions or confusion regarding the items in the study. Automatic processing of messages, emails, etc Another common application for text mining is to aid in the automatic classification of texts For example, it is possible to filter out automatically most undesirable junk email based on certain terms or words that are not likely to appear in legitimate messages, but instead identify undesirable electronic mail In this manner, such messages can automatically be discarded Such automatic systems for classifying electronic messages can also be useful in applications where messages need to be routed automatically to the most appropriate department or agency e g email messages with complaints or petitions to a municipal authority are automatically routed to the appropriate departments at the same time, the emails are screened for inappropriate or obscene messages, which are automatically returned to the sender with a request to remove the offending words or content. Analyzing warranty or insurance claims, diagnostic interviews, etc In some business domains, the majority of information is collected in open-ended, textual form For example, warranty claims or initial medical patient interviews can be summarized in brief narratives, or when you take your automobile to a service station for repairs, typically, the attendant will write some notes about the problems that you report and what you believe needs to be fixed Increasingly, those notes are collected electronically, so those types of narratives are readily available for input into text mining algorithms This information can then be usefully exploited to, for example, identify common clusters of problems and complaints on certain automobiles, etc Likewise, in the medical field, open-ended descriptions by patients of their own symptoms might yield useful clues for the actual medical diagnosis. Investiga ting competitors by crawling their web sites Another type of potentially very useful application is to automatically process the contents of Web pages in a particular domain For example, you could go to a Web page, and begin crawling the links you find there to process all Web pages that are referenced In this manner, you could automatically derive a list of terms and documents available at that site, and hence quickly determine the most important terms and features that are described It is easy to see how these capabilities could efficiently deliver valuable business intelligence about the activities of competitors. Approaches to Text Mining. To reiterate, text mining can be summarized as a process of numericizing text At the simplest level, all words found in the input documents will be indexed and counted in order to compute a table of documents and words, i e a matrix of frequencies that enumerates the number of times that each word occurs in each document This basic process can be f urther refined to exclude certain common words such as the and a stop word lists and to combine different grammatical forms of the same words such as traveling, traveled, travel, etc stemming However, once a table of unique words terms by documents has been derived, all standard statistical and data mining techniques can be applied to derive dimensions or clusters of words or documents, or to identify important words or terms that best predict another outcome variable of interest. Using well-tested methods and understanding the results of text mining Once a data matrix has been computed from the input documents and words found in those documents, various well-known analytic techniques can be used for further processing those data including methods for clustering, factoring, or predictive data mining see, for example, Manning and Schtze, 2002. Black-box approaches to text mining and extraction of concepts There are text mining applications which offer black-box methods to extract deep me aning from documents with little human effort to first read and understand those documents These text mining applications rely on proprietary algorithms for presumably extracting concepts from text, and may even claim to be able to summarize large numbers of text documents automatically, retaining the core and most important meaning of those documents While there are numerous algorithmic approaches to extracting meaning from documents, this type of technology is very much still in its infancy, and the aspiration to provide meaningful automated summaries of large numbers of documents may forever remain elusive We urge skepticism when using such algorithms because 1 if it is not clear to the user how those algorithms work, it cannot possibly be clear how to interpret the results of those algorithms, and 2 the methods used in those programs are not open to scrutiny, for example by the academic community and peer review and, hence, we simply don t know how well they might perform in differ ent domains As a final thought on this subject, you may consider this concrete example Try the various automated translation services available via the Web that can translate entire paragraphs of text from one language into another Then translate some text, even simple text, from your native language to some other language and back, and review the results Almost every time, the attempt to translate even short sentences to other languages and back while retaining the original meaning of the sentence produces humorous rather than accurate results This illustrates the difficulty of automatically interpreting the meaning of text. Text mining as document search There is another type of application that is often described and referred to as text mining - the automatic search of large numbers of documents based on key words or key phrases This is the domain of, for example, the popular internet search engines that have been developed over the last decade to provide efficient access to Web page s with certain content While this is obviously an important type of application with many uses in any organization that needs to search very large document repositories based on varying criteria, it is very different from what has been described here. Issues and Considerations for Numericizing Text. Large numbers of small documents vs small numbers of large documents Examples of scenarios using large numbers of small or moderate sized documents were given earlier e g analyzing warranty or insurance claims, diagnostic interviews, etc On the other hand, if your intent is to extract concepts from only a few documents that are very large e g two lengthy books , then statistical analyses are generally less powerful because the number of cases documents in this case is very small while the number of variables extracted words is very large. Excluding certain characters, short words, numbers, etc Excluding numbers, certain characters, or sequences of characters, or words that are shorter or longe r than a certain number of letters can be done before the indexing of the input documents starts You may also want to exclude rare words, defined as those that only occur in a small percentage of the processed documents. Include lists, exclude lists stop-words Specific list of words to be indexed can be defined this is useful when you want to search explicitly for particular words, and classify the input documents based on the frequencies with which those words occur Also, stop-words, i e terms that are to be excluded from the indexing can be defined Typically, a default list of English stop words includes the , a , of , since, etc, i e words that are used in the respective language very frequently, but communicate very little unique information about the contents of the document. Synonyms and phrases Synonyms, such as sick or ill , or words that are used in particular phrases where they denote unique meaning can be combined for indexing For example, Microsoft Windows might be such a phr ase, which is a specific reference to the computer operating system, but has nothing to do with the common use of the term Windows as it might, for example, be used in descriptions of home improvement projects. Stemming algorithms An important pre-processing step before indexing of input documents begins is the stemming of words The term stemming refers to the reduction of words to their roots so that, for example, different grammatical forms or declinations of verbs are identified and indexed counted as the same word For example, stemming will ensure that both traveling and traveled will be recognized by the text mining program as the same word. Support for different languages Stemming, synonyms, the letters that are permitted in words, etc are highly language dependent operations Therefore, support for different languages is important. Transforming Word Frequencies. Once the input documents have been indexed and the initial word frequencies by document computed, a number of additional tr ansformations can be performed to summarize and aggregate the information that was extracted. Log-frequencies First, various transformations of the frequency counts can be performed The raw word or term frequencies generally reflect on how salient or important a word is in each document Specifically, words that occur with greater frequency in a document are better descriptors of the contents of that document However, it is not reasonable to assume that the word counts themselves are proportional to their importance as descriptors of the documents For example, if a word occurs 1 time in document A, but 3 times in document B, then it is not necessarily reasonable to conclude that this word is 3 times as important a descriptor of document B as compared to document A Thus, a common transformation of the raw word frequency counts wf is to compute. f wf 1 log wf , for wf 0.This transformation will dampen the raw frequencies and how they will affect the results of subsequent computations. Binary frequencies Likewise, an even simpler transformation can be used that enumerates whether a term is used in a document i e. f wf 1, for wf 0.The resulting documents-by-words matrix will contain only 1s and 0s to indicate the presence or absence of the respective words Again, this transformation will dampen the effect of the raw frequency counts on subsequent computations and analyses. Inverse document frequencies Another issue that you may want to consider more carefully and reflect in the indices used in further analyses are the relative document frequencies df of different words For example, a term such as guess may occur frequently in all documents, while another term such as software may only occur in a few The reason is that we might make guesses in various contexts, regardless of the specific topic, while software is a more semantically focused term that is only likely to occur in documents that deal with computer software A common and very useful transformation that reflects both the specificity of words document frequencies as well as the overall frequencies of their occurrences word frequencies is the so-called inverse document frequency for the i th word and j th document. In this formula see also formula 15 5 in Manning and Schtze, 2002 , N is the total number of documents, and dfi is the document frequency for the i th word the number of documents that include this word Hence, it can be seen that this formula includes both the dampening of the simple word frequencies via the log function described above , and also includes a weighting factor that evaluates to 0 if the word occurs in all documents log N N 1 0 and to the maximum value when a word only occurs in a single document log N 1 log N It can easily be seen how this transformation will create indices that both reflect the relative frequencies of occurrences of words, as well as their semantic specificities over the documents included in the analysis. Latent Semantic Indexing via Singular Value Decomposi tion. As described above, the most basic result of the initial indexing of words found in the input documents is a frequency table with simple counts, i e the number of times that different words occur in each input document Usually, we would transform those raw counts to indices that better reflect the relative importance of words and or their semantic specificity in the context of the set of input documents see the discussion of inverse document frequencies, above. A common analytic tool for interpreting the meaning or semantic space described by the words that were extracted, and hence by the documents that were analyzed, is to create a mapping of the word and documents into a common space, computed from the word frequencies or transformed word frequencies e g inverse document frequencies In general, here is how it works. Suppose you indexed a collection of customer reviews of their new automobiles e g for different makes and models You may find that every time a review includes the wo rd gas-mileage, it also includes the term economy Further, when reports include the word reliability they also include the term defects e g make reference to no defects However, there is no consistent pattern regarding the use of the terms economy and reliability, i e some documents include either one or both In other words, these four words gas-mileage and economy, and reliability and defects, describe two independent dimensions - the first having to do with the overall operating cost of the vehicle, the other with the quality and workmanship The idea of latent semantic indexing is to identify such underlying dimensions of meaning , into which the words and documents can be mapped As a result, we may identify the underlying latent themes described or discussed in the input documents, and also identify the documents that mostly deal with economy, reliability, or both Hence, we want to map the extracted words or terms and input documents into a common latent semantic space. Singular valu e decomposition The use of singular value decomposition in order to extract a common space for the variables and cases observations is used in various statistical techniques, most notably in Correspondence Analysis The technique is also closely related to Principal Components Analysis and Factor Analysis In general, the purpose of this technique is to reduce the overall dimensionality of the input matrix number of input documents by number of extracted words to a lower-dimensional space, where each consecutive dimension represents the largest degree of variability between words and documents possible Ideally, you might identify the two or three most salient dimensions, accounting for most of the variability differences between the words and documents and, hence, identify the latent semantic space that organizes the words and documents in the analysis In some way, once such dimensions can be identified, you have extracted the underlying meaning of what is contained discussed, described in the documents. Incorporating Text Mining Results in Data Mining Projects. After significant e g frequent words have been extracted from a set of input documents, and or after singular value decomposition has been applied to extract salient semantic dimensions, typically the next and most important step is to use the extracted information in a data mining project. Graphics visual data mining methods Depending on the purpose of the analyses, in some instances the extraction of semantic dimensions alone can be a useful outcome if it clarifies the underlying structure of what is contained in the input documents For example, a study of new car owners comments about their vehicles may uncover the salient dimensions in the minds of those drivers when they think about or consider their automobile or how they feel about it For marketing research purposes, that in itself can be a useful and significant result You can use the graphics e g 2D scatterplots or 3D scatterplots to help you visualize a nd identify the semantic space extracted from the input documents. Clustering and factoring You can use cluster analysis methods to identify groups of documents e g vehicle owners who described their new cars , to identify groups of similar input texts This type of analysis also could be extremely useful in the context of market research studies, for example of new car owners You can also use Factor Analysis and Principal Components and Classification Analysis to factor analyze words or documents. Predictive data mining Another possibility is to use the raw or transformed word counts as predictor variables in predictive data mining projects. Was this topic helpful. Thank you We appreciate your feedback. Time Series Analysis. How To Identify Patterns in Time Series Data Time Series Analysis. In the following topics, we will first review techniques used to identify patterns in time series data such as smoothing and curve fitting techniques and autocorrelations , then we will introduce a general class of models that can be used to represent time series data and generate predictions autoregressive and moving average models Finally, we will review some simple but commonly used modeling and forecasting techniques based on linear regression For more information see the topics below. General Introduction. In the following topics, we will review techniques that are useful for analyzing time series data, that is, sequences of measurements that follow non-random orders Unlike the analyses of random samples of observations that are discussed in the context of most other statistics, the analysis of time series is based on the assumption that successive values in the data file represent consecutive measurements taken at equally spaced time intervals. Detailed discussions of the methods described in this section can be found in Anderson 1976 , Box and Jenkins 1976 , Kendall 1984 , Kendall and Ord 1990 , Montgomery, Johnson, and Gardiner 1990 , Pankratz 1983 , Shumway 1988 , Vandaele 1983 , Walker 1991 , and Wei 1989.Two Main Goals. There are two main goals of time series analysis a identifying the nature of the phenomenon represented by the sequence of observations, and b forecasting predicting future values of the time series variable Both of these goals require that the pattern of observed time series data is identified and more or less formally described Once the pattern is established, we can interpret and integrate it with other data i e use it in our theory of the investigated phenomenon, e g seasonal commodity prices Regardless of the depth of our understanding and the validity of our interpretation theory of the phenomenon, we can extrapolate the identified pattern to predict future events. Identifying Patterns in Time Series Data. For more information on simple autocorrelations introduced in this section and other auto correlations, see Anderson 1976 , Box and Jenkins 1976 , Kendall 1984 , Pankratz 1983 , and Vandaele 1983 See also. Systematic Pattern and Random Noi se. As in most other analyses, in time series analysis it is assumed that the data consist of a systematic pattern usually a set of identifiable components and random noise error which usually makes the pattern difficult to identify Most time series analysis techniques involve some form of filtering out noise in order to make the pattern more salient. Two General Aspects of Time Series Patterns. Most time series patterns can be described in terms of two basic classes of components trend and seasonality The former represents a general systematic linear or most often nonlinear component that changes over time and does not repeat or at least does not repeat within the time range captured by our data e g a plateau followed by a period of exponential growth The latter may have a formally similar nature e g a plateau followed by a period of exponential growth , however, it repeats itself in systematic intervals over time Those two general classes of time series components may coexist in real-li fe data For example, sales of a company can rapidly grow over years but they still follow consistent seasonal patterns e g as much as 25 of yearly sales each year are made in December, whereas only 4 in August. This general pattern is well illustrated in a classic Series G data set Box and Jenkins, 1976, p 531 representing monthly international airline passenger totals measured in thousands in twelve consecutive years from 1949 to 1960 see example data file and graph above If you plot the successive observations months of airline passenger totals, a clear, almost linear trend emerges, indicating that the airline industry enjoyed a steady growth over the years approximately 4 times more passengers traveled in 1960 than in 1949 At the same time, the monthly figures will follow an almost identical pattern each year e g more people travel during holidays than during any other time of the year This example data file also illustrates a very common general type of pattern in time series data, where the amplitude of the seasonal changes increases with the overall trend i e the variance is correlated with the mean over the segments of the series This pattern which is called multiplicative seasonality indicates that the relative amplitude of seasonal changes is constant over time, thus it is related to the trend. Trend Analysis. There are no proven automatic techniques to identify trend components in the time series data however, as long as the trend is monotonous consistently increasing or decreasing that part of data analysis is typically not very difficult If the time series data contain considerable error, then the first step in the process of trend identification is smoothing. Smoothing Smoothing always involves some form of local averaging of data such that the nonsystematic components of individual observations cancel each other out The most common technique is moving average smoothing which replaces each element of the series by either the simple or weighted average of n surrounding elements, where n is the width of the smoothing window see Box Jenkins, 1976 Velleman Hoaglin, 1981 Medians can be used instead of means The main advantage of median as compared to moving average smoothing is that its results are less biased by outliers within the smoothing window Thus, if there are outliers in the data e g due to measurement errors , median smoothing typically produces smoother or at least more reliable curves than moving average based on the same window width The main disadvantage of median smoothing is that in the absence of clear outliers it may produce more jagged curves than moving average and it does not allow for weighting. In the relatively less common cases in time series data , when the measurement error is very large, the distance weighted least squares smoothing or negative exponentially weighted smoothing techniques can be used All those methods will filter out the noise and convert the data into a smooth curve that is relatively unbiased by ou tliers see the respective sections on each of those methods for more details Series with relatively few and systematically distributed points can be smoothed with bicubic splines. Fitting a function Many monotonous time series data can be adequately approximated by a linear function if there is a clear monotonous nonlinear component, the data first need to be transformed to remove the nonlinearity Usually a logarithmic, exponential, or less often polynomial function can be used. Analysis of Seasonality. Seasonal dependency seasonality is another general component of the time series pattern The concept was illustrated in the example of the airline passengers data above It is formally defined as correlational dependency of order k between each i th element of the series and the i-k th element Kendall, 1976 and measured by autocorrelation i e a correlation between the two terms k is usually called the lag If the measurement error is not too large, seasonality can be visually identified in t he series as a pattern that repeats every k elements. Autocorrelation correlogram Seasonal patterns of time series can be examined via correlograms The correlogram autocorrelogram displays graphically and numerically the autocorrelation function ACF , that is, serial correlation coefficients and their standard errors for consecutive lags in a specified range of lags e g 1 through 30 Ranges of two standard errors for each lag are usually marked in correlograms but typically the size of auto correlation is of more interest than its reliability see Elementary Concepts because we are usually interested only in very strong and thus highly significant autocorrelations. Examining correlograms While examining correlograms, you should keep in mind that autocorrelations for consecutive lags are formally dependent Consider the following example If the first element is closely related to the second, and the second to the third, then the first element must also be somewhat related to the third one, e tc This implies that the pattern of serial dependencies can change considerably after removing the first order auto correlation i e after differencing the series with a lag of 1.Partial autocorrelations Another useful method to examine serial dependencies is to examine the partial autocorrelation function PACF - an extension of autocorrelation, where the dependence on the intermediate elements those within the lag is removed In other words the partial autocorrelation is similar to autocorrelation, except that when calculating it, the auto correlations with all the elements within the lag are partialled out Box Jenkins, 1976 see also McDowall, McCleary, Meidinger, Hay, 1980 If a lag of 1 is specified i e there are no intermediate elements within the lag , then the partial autocorrelation is equivalent to auto correlation In a sense, the partial autocorrelation provides a cleaner picture of serial dependencies for individual lags not confounded by other serial dependencies. Removing seria l dependency Serial dependency for a particular lag of k can be removed by differencing the series, that is converting each i th element of the series into its difference from the i-k th element There are two major reasons for such transformations. First, we can identify the hidden nature of seasonal dependencies in the series Remember that, as mentioned in the previous paragraph, autocorrelations for consecutive lags are interdependent Therefore, removing some of the autocorrelations will change other auto correlations, that is, it may eliminate them or it may make some other seasonalities more apparent. The other reason for removing seasonal dependencies is to make the series stationary which is necessary for ARIMA and other techniques. For more information on Time Series methods, see also. General Introduction. The modeling and forecasting procedures discussed in Identifying Patterns in Time Series Data involved knowledge about the mathematical model of the process However, in real-life research and practice, patterns of the data are unclear, individual observations involve considerable error, and we still need not only to uncover the hidden patterns in the data but also generate forecasts The ARIMA methodology developed by Box and Jenkins 1976 allows us to do just that it has gained enormous popularity in many areas and research practice confirms its power and flexibility Hoff, 1983 Pankratz, 1983 Vandaele, 1983 However, because of its power and flexibility, ARIMA is a complex technique it is not easy to use, it requires a great deal of experience, and although it often produces satisfactory results, those results depend on the researcher s level of expertise Bails Peppers, 1982 The following sections will introduce the basic ideas of this methodology For those interested in a brief, applications-oriented non - mathematical , introduction to ARIMA methods, we recommend McDowall, McCleary, Meidinger, and Hay 1980.Two Common Processes. Autoregressive process Most time se ries consist of elements that are serially dependent in the sense that you can estimate a coefficient or a set of coefficients that describe consecutive elements of the series from specific, time-lagged previous elements This can be summarized in the equation x t 1 x t-1 2 x t-2 3 x t-3.is a constant intercept , and 1 2 3 are the autoregressive model parameters. Put into words, each observation is made up of a random error component random shock, and a linear combination of prior observations. Stationarity requirement Note that an autoregressive process will only be stable if the parameters are within a certain range for example, if there is only one autoregressive parameter then is must fall within the interval of -1 1 Otherwise, past effects would accumulate and the values of successive x t s would move towards infinity, that is, the series would not be stationary If there is more than one autoregressive parameter, similar general restrictions on the parameter values can be defined e g see Box Jenkins, 1976 Montgomery, 1990.Moving average process Independent from the autoregressive process, each element in the series can also be affected by the past error or random shock that cannot be accounted for by the autoregressive component, that is. Where is a constant, and 1 2 3 are the moving average model parameters. Put into words, each observation is made up of a random error component random shock, and a linear combination of prior random shocks. Invertibility requirement Without going into too much detail, there is a duality between the moving average process and the autoregressive process e g see Box Jenkins, 1976 Montgomery, Johnson, Gardiner, 1990 , that is, the moving average equation above can be rewritten inverted into an autoregressive form of infinite order However, analogous to the stationarity condition described above, this can only be done if the moving average parameters follow certain conditions, that is, if the model is invertible Otherwise, the series wi ll not be stationary. ARIMA Methodology. Autoregressive moving average model The general model introduced by Box and Jenkins 1976 includes autoregressive as well as moving average parameters, and explicitly includes differencing in the formulation of the model Specifically, the three types of parameters in the model are the autoregressive parameters p , the number of differencing passes d , and moving average parameters q In the notation introduced by Box and Jenkins, models are summarized as ARIMA p, d, q so, for example, a model described as 0, 1, 2 means that it contains 0 zero autoregressive p parameters and 2 moving average q parameters which were computed for the series after it was differenced once. Identification As mentioned earlier, the input series for ARIMA needs to be stationary that is, it should have a constant mean, variance, and autocorrelation through time Therefore, usually the series first needs to be differenced until it is stationary this also often requires log tra nsforming the data to stabilize the variance The number of times the series needs to be differenced to achieve stationarity is reflected in the d parameter see the previous paragraph In order to determine the necessary level of differencing, you should examine the plot of the data and autocorrelogram Significant changes in level strong upward or downward changes usually require first order non seasonal lag 1 differencing strong changes of slope usually require second order non seasonal differencing Seasonal patterns require respective seasonal differencing see below If the estimated autocorrelation coefficients decline slowly at longer lags, first order differencing is usually needed However, you should keep in mind that some time series may require little or no differencing, and that over differenced series produce less stable coefficient estimates. At this stage which is usually called Identification phase, see below we also need to decide how many autoregressive p and moving average q parameters are necessary to yield an effective but still parsimonious model of the process parsimonious means that it has the fewest parameters and greatest number of degrees of freedom among all models that fit the data In practice, the numbers of the p or q parameters very rarely need to be greater than 2 see below for more specific recommendations. Estimation and Forecasting At the next step Estimation , the parameters are estimated using function minimization procedures, see below for more information on minimization procedures see also Nonlinear Estimation , so that the sum of squared residuals is minimized The estimates of the parameters are used in the last stage Forecasting to calculate new values of the series beyond those included in the input data set and confidence intervals for those predicted values The estimation process is performed on transformed differenced data before the forecasts are generated, the series needs to be integrated integration is the inverse of differ encing so that the forecasts are expressed in values compatible with the input data This automatic integration feature is represented by the letter I in the name of the methodology ARIMA Auto-Regressive Integrated Moving Average. The constant in ARIMA models In addition to the standard autoregressive and moving average parameters, ARIMA models may also include a constant, as described above The interpretation of a statistically significant constant depends on the model that is fit Specifically, 1 if there are no autoregressive parameters in the model, then the expected value of the constant is , the mean of the series 2 if there are autoregressive parameters in the series, then the constant represents the intercept If the series is differenced, then the constant represents the mean or intercept of the differenced series For example, if the series is differenced once, and there are no autoregressive parameters in the model, then the constant represents the mean of the differenced series, and therefore the linear trend slope of the un-differenced series. Identification Phase. Number of parameters to be estimated Before the estimation can begin, we need to decide on identify the specific number and type of ARIMA parameters to be estimated The major tools used in the identification phase are plots of the series, correlograms of auto correlation ACF , and partial autocorrelation PACF The decision is not straightforward and in less typical cases requires not only experience but also a good deal of experimentation with alternative models as well as the technical parameters of ARIMA However, a majority of empirical time series patterns can be sufficiently approximated using one of the 5 basic models that can be identified based on the shape of the autocorrelogram ACF and partial auto correlogram PACF The following brief summary is based on practical recommendations of Pankratz 1983 for additional practical advice, see also Hoff 1983 , McCleary and Hay 1980 , McDowall, McClear y, Meidinger, and Hay 1980 , and Vandaele 1983 Also, note that since the number of parameters to be estimated of each kind is almost never greater than 2, it is often practical to try alternative models on the same data. One autoregressive p parameter ACF - exponential decay PACF - spike at lag 1, no correlation for other lags. Two autoregressive p parameters ACF - a sine-wave shape pattern or a set of exponential decays PACF - spikes at lags 1 and 2, no correlation for other lags. One moving average q parameter ACF - spike at lag 1, no correlation for other lags PACF - damps out exponentially. Two moving average q parameters ACF - spikes at lags 1 and 2, no correlation for other lags PACF - a sine-wave shape pattern or a set of exponential decays. One autoregressive p and one moving average q parameter ACF - exponential decay starting at lag 1 PACF - exponential decay starting at lag 1.Seasonal models Multiplicative seasonal ARIMA is a generalization and extension of the method introduced in the previous paragraphs to series in which a pattern repeats seasonally over time In addition to the non-seasonal parameters, seasonal parameters for a specified lag established in the identification phase need to be estimated Analogous to the simple ARIMA parameters, these are seasonal autoregressive ps , seasonal differencing ds , and seasonal moving average parameters qs For example, the model 0,1,2 0,1,1 describes a model that includes no autoregressive parameters, 2 regular moving average parameters and 1 seasonal moving average parameter, and these parameters were computed for the series after it was differenced once with lag 1, and once seasonally differenced The seasonal lag used for the seasonal parameters is usually determined during the identification phase and must be explicitly specified. The general recommendations concerning the selection of parameters to be estimated based on ACF and PACF also apply to seasonal models The main difference is that in seasonal series, AC F and PACF will show sizable coefficients at multiples of the seasonal lag in addition to their overall patterns reflecting the non seasonal components of the series. Parameter Estimation. There are several different methods for estimating the parameters All of them should produce very similar estimates, but may be more or less efficient for any given model In general, during the parameter estimation phase a function minimization algorithm is used the so-called quasi-Newton method refer to the description of the Nonlinear Estimation method to maximize the likelihood probability of the observed series, given the parameter values In practice, this requires the calculation of the conditional sums of squares SS of the residuals, given the respective parameters Different methods have been proposed to compute the SS for the residuals 1 the approximate maximum likelihood method according to McLeod and Sales 1983 , 2 the approximate maximum likelihood method with backcasting, and 3 the exact max imum likelihood method according to Melard 1984parison of methods In general, all methods should yield very similar parameter estimates Also, all methods are about equally efficient in most real-world time series applications However, method 1 above, approximate maximum likelihood, no backcasts is the fastest, and should be used in particular for very long time series e g with more than 30,000 observations Melard s exact maximum likelihood method number 3 above may also become inefficient when used to estimate parameters for seasonal models with long seasonal lags e g with yearly lags of 365 days On the other hand, you should always use the approximate maximum likelihood method first in order to establish initial parameter estimates that are very close to the actual final values thus, usually only a few iterations with the exact maximum likelihood method 3 above are necessary to finalize the parameter estimates. Parameter standard errors For all parameter estimates, you will compute so - called asymptotic standard errors These are computed from the matrix of second-order partial derivatives that is approximated via finite differencing see also the respective discussion in Nonlinear Estimation. Penalty value As mentioned above, the estimation procedure requires that the conditional sums of squares of the ARIMA residuals be minimized If the model is inappropriate, it may happen during the iterative estimation process that the parameter estimates become very large, and, in fact, invalid In that case, it will assign a very large value a so-called penalty value to the SS This usually entices the iteration process to move the parameters away from invalid ranges However, in some cases even this strategy fails, and you may see on the screen during the Estimation procedure very large values for the SS in consecutive iterations In that case, carefully evaluate the appropriateness of your model If your model contains many parameters, and perhaps an intervention component see below , you may try again with different parameter start values. Evaluation of the Model. Parameter estimates You will report approximate t values, computed from the parameter standard errors see above If not significant, the respective parameter can in most cases be dropped from the model without affecting substantially the overall fit of the model. Other quality criteria Another straightforward and common measure of the reliability of the model is the accuracy of its forecasts generated based on partial data so that the forecasts can be compared with known original observations. However, a good model should not only provide sufficiently accurate forecasts, it should also be parsimonious and produce statistically independent residuals that contain only noise and no systematic components e g the correlogram of residuals should not reveal any serial dependencies A good test of the model is a to plot the residuals and inspect them for any systematic trends, and b to examine the autocorrelogram of residuals there should be no serial dependency between residuals. Analysis of residuals The major concern here is that the residuals are systematically distributed across the series e g they could be negative in the first part of the series and approach zero in the second part or that they contain some serial dependency which may suggest that the ARIMA model is inadequate The analysis of ARIMA residuals constitutes an important test of the model The estimation procedure assumes that the residual are not auto - correlated and that they are normally distributed. Limitations The ARIMA method is appropriate only for a time series that is stationary i e its mean, variance, and autocorrelation should be approximately constant through time and it is recommended that there are at least 50 observations in the input data It is also assumed that the values of the estimated parameters are constant throughout the series. Interrupted Time Series ARIMA. A common research questions in time series analysis is whether an outside event affected subsequent observations For example, did the implementation of a new economic policy improve economic performance did a new anti-crime law affect subsequent crime rates and so on In general, we would like to evaluate the impact of one or more discrete events on the values in the time series This type of interrupted time series analysis is described in detail in McDowall, McCleary, Meidinger, Hay 1980 McDowall, et al distinguish between three major types of impacts that are possible 1 permanent abrupt, 2 permanent gradual, and 3 abrupt temporary See also. Exponential Smoothing. General Introduction. Exponential smoothing has become very popular as a forecasting method for a wide variety of time series data Historically, the method was independently developed by Brown and Holt Brown worked for the US Navy during World War II, where his assignment was to design a tracking system for fire-control information to compute the location of submarines Later, he applied this technique to the forecasting of demand for spare parts an inventory control problem He described those ideas in his 1959 book on inventory control Holt s research was sponsored by the Office of Naval Research independently, he developed exponential smoothing models for constant processes, processes with linear trends, and for seasonal data. Gardner 1985 proposed a unified classification of exponential smoothing methods Excellent introductions can also be found in Makridakis, Wheelwright, and McGee 1983 , Makridakis and Wheelwright 1989 , Montgomery, Johnson, Gardiner 1990.Simple Exponential Smoothing. A simple and pragmatic model for a time series would be to consider each observation as consisting of a constant b and an error component epsilon , that is X t b t The constant b is relatively stable in each segment of the series, but may change slowly over time If appropriate, then one way to isolate the true value of b and thus the systematic or predictable part of the serie s, is to compute a kind of moving average, where the current and immediately preceding younger observations are assigned greater weight than the respective older observations Simple exponential smoothing accomplishes exactly such weighting, where exponentially smaller weights are assigned to older observations The specific formula for simple exponential smoothing is. When applied recursively to each successive observation in the series, each new smoothed value forecast is computed as the weighted average of the current observation and the previous smoothed observation the previous smoothed observation was computed in turn from the previous observed value and the smoothed value before the previous observation, and so on Thus, in effect, each smoothed value is the weighted average of the previous observations, where the weights decrease exponentially depending on the value of parameter alpha If is equal to 1 one then the previous observations are ignored entirely if is equal to 0 zero , t hen the current observation is ignored entirely, and the smoothed value consists entirely of the previous smoothed value which in turn is computed from the smoothed observation before it, and so on thus all smoothed values will be equal to the initial smoothed value S 0 Values of in-between will produce intermediate results. Even though significant work has been done to study the theoretical properties of simple and complex exponential smoothing e g see Gardner, 1985 Muth, 1960 see also McKenzie, 1984, 1985 , the method has gained popularity mostly because of its usefulness as a forecasting tool For example, empirical research by Makridakis et al 1982, Makridakis, 1983 , has shown simple exponential smoothing to be the best choice for one-period-ahead forecasting, from among 24 other time series methods and using a variety of accuracy measures see also Gross and Craig, 1974, for additional empirical evidence Thus, regardless of the theoretical model for the process underlying the observ ed time series, simple exponential smoothing will often produce quite accurate forecasts. Choosing the Best Value for Parameter alpha. Gardner 1985 discusses various theoretical and empirical arguments for selecting an appropriate smoothing parameter Obviously, looking at the formula presented above, should fall into the interval between 0 zero and 1 although, see Brenner et al 1968, for an ARIMA perspective, implying 0 2 Gardner 1985 reports that among practitioners, an smaller than 30 is usually recommended However, in the study by Makridakis et al 1982 , values above 30 frequently yielded the best forecasts After reviewing the literature on this topic, Gardner 1985 concludes that it is best to estimate an optimum from the data see below , rather than to guess and set an artificially low value. Estimating the best value from the data In practice, the smoothing parameter is often chosen by a grid search of the parameter space that is, different solutions for are tried starting, for examp le, with 0 1 to 0 9, with increments of 0 1 Then is chosen so as to produce the smallest sums of squares or mean squares for the residuals i e observed values minus one-step-ahead forecasts this mean squared error is also referred to as ex post mean squared error, ex post MSE for short. Indices of Lack of Fit Error. The most straightforward way of evaluating the accuracy of the forecasts based on a particular value is to simply plot the observed values and the one-step-ahead forecasts This plot can also include the residuals scaled against the right Y - axis , so that regions of better or worst fit can also easily be identified. This visual check of the accuracy of forecasts is often the most powerful method for determining whether or not the current exponential smoothing model fits the data In addition, besides the ex post MSE criterion see previous paragraph , there are other statistical measures of error that can be used to determine the optimum parameter see Makridakis, Wheelwright, an d McGee, 1983.Mean error The mean error ME value is simply computed as the average error value average of observed minus one-step-ahead forecast Obviously, a drawback of this measure is that positive and negative error values can cancel each other out, so this measure is not a very good indicator of overall fit. Mean absolute error The mean absolute error MAE value is computed as the average absolute error value If this value is 0 zero , the fit forecast is perfect As compared to the mean squared error value, this measure of fit will de-emphasize outliers, that is, unique or rare large error values will affect the MAE less than the MSE value. Sum of squared error SSE , Mean squared error These values are computed as the sum or average of the squared error values This is the most commonly used lack-of-fit indicator in statistical fitting procedures. Percentage error PE All the above measures rely on the actual error value It may seem reasonable to rather express the lack of fit in terms of the relative deviation of the one-step-ahead forecasts from the observed values, that is, relative to the magnitude of the observed values For example, when trying to predict monthly sales that may fluctuate widely e g seasonally from month to month, we may be satisfied if our prediction hits the target with about 10 accuracy In other words, the absolute errors may be not so much of interest as are the relative errors in the forecasts To assess the relative error, various indices have been proposed see Makridakis, Wheelwright, and McGee, 1983 The first one, the percentage error value, is computed as. where X t is the observed value at time t and F t is the forecasts smoothed values. Mean percentage error MPE This value is computed as the average of the PE values. Mean absolute percentage error MAPE As is the case with the mean error value ME, see above , a mean percentage error near 0 zero can be produced by large positive and negative percentage errors that cancel each other out Thus, a better measure of relative overall fit is the mean absolute percentage error Also, this measure is usually more meaningful than the mean squared error For example, knowing that the average forecast is off by 5 is a useful result in and of itself, whereas a mean squared error of 30 8 is not immediately interpretable. Automatic search for best parameter A quasi-Newton function minimization procedure the same as in ARIMA is used to minimize either the mean squared error, mean absolute error, or mean absolute percentage error In most cases, this procedure is more efficient than the grid search particularly when more than one parameter must be determined , and the optimum parameter can quickly be identified. The first smoothed value S 0 A final issue that we have neglected up to this point is the problem of the initial value, or how to start the smoothing process If you look back at the formula above, it is evident that you need an S 0 value in order to compute the smoothed value forecast fo r the first observation in the series Depending on the choice of the parameter i e when is close to zero , the initial value for the smoothing process can affect the quality of the forecasts for many observations As with most other aspects of exponential smoothing it is recommended to choose the initial value that produces the best forecasts On the other hand, in practice, when there are many leading observations prior to a crucial actual forecast, the initial value will not affect that forecast by much, since its effect will have long faded from the smoothed series due to the exponentially decreasing weights, the older an observation the less it will influence the forecast. Seasonal and Non-Seasonal Models With or Without Trend. The discussion above in the context of simple exponential smoothing introduced the basic procedure for identifying a smoothing parameter, and for evaluating the goodness-of-fit of a model In addition to simple exponential smoothing, more complex models have been developed to accommodate time series with seasonal and trend components The general idea here is that forecasts are not only computed from consecutive previous observations as in simple exponential smoothing , but an independent smoothed trend and seasonal component can be added Gardner 1985 discusses the different models in terms of seasonality none, additive, or multiplicative and trend none, linear, exponential, or damped. Additive and multiplicative seasonality Many time series data follow recurring seasonal patterns For example, annual sales of toys will probably peak in the months of November and December, and perhaps during the summer with a much smaller peak when children are on their summer break This pattern will likely repeat every year, however, the relative amount of increase in sales during December may slowly change from year to year Thus, it may be useful to smooth the seasonal component independently with an extra parameter, usually denoted as delta. Seasonal components can be additive in nature or multiplicative For example, during the month of December the sales for a particular toy may increase by 1 million dollars every year Thus, we could add to our forecasts for every December the amount of 1 million dollars over the respective annual average to account for this seasonal fluctuation In this case, the seasonality is additive. Alternatively, during the month of December the sales for a particular toy may increase by 40 , that is, increase by a factor of 1 4 Thus, when the sales for the toy are generally weak, than the absolute dollar increase in sales during December will be relatively weak but the percentage will be constant if the sales of the toy are strong, than the absolute dollar increase in sales will be proportionately greater Again, in this case the sales increase by a certain factor and the seasonal component is thus multiplicative in nature i e the multiplicative seasonal component in this case would be 1 4.In plots of the series, the distinguishing characteristic between these two types of seasonal components is that in the additive case, the series shows steady seasonal fluctuations, regardless of the overall level of the series in the multiplicative case, the size of the seasonal fluctuations vary, depending on the overall level of the series. The seasonal smoothing parameter In general the one-step-ahead forecasts are computed as for no trend models, for linear and exponential trend models a trend component is added to the model see below. In this formula, S t stands for the simple exponentially smoothed value of the series at time t and I t-p stands for the smoothed seasonal factor at time t minus p the length of the season Thus, compared to simple exponential smoothing, the forecast is enhanced by adding or multiplying the simple smoothed value by the predicted seasonal component This seasonal component is derived analogous to the S t value from simple exponential smoothing as. Put into words, the predicted seaso nal component at time t is computed as the respective seasonal component in the last seasonal cycle plus a portion of the error e t the observed minus the forecast value at time t Considering the formulas above, it is clear that parameter can assume values between 0 and 1 If it is zero, then the seasonal component for a particular point in time is predicted to be identical to the predicted seasonal component for the respective time during the previous seasonal cycle, which in turn is predicted to be identical to that from the previous cycle, and so on Thus, if is zero, a constant unchanging seasonal component is used to generate the one-step-ahead forecasts If the parameter is equal to 1, then the seasonal component is modified maximally at every step by the respective forecast error times 1- which we will ignore for the purpose of this brief introduction In most cases, when seasonality is present in the time series, the optimum parameter will fall somewhere between 0 zero and 1 one. L inear, exponential, and damped trend To remain with the toy example above, the sales for a toy can show a linear upward trend e g each year, sales increase by 1 million dollars , exponential growth e g each year, sales increase by a factor of 1 3 , or a damped trend during the first year sales increase by 1 million dollars during the second year the increase is only 80 over the previous year, i e 800,000 during the next year it is again 80 less than the previous year, i e 800,000 8 640,000 etc Each type of trend leaves a clear signature that can usually be identified in the series shown below in the brief discussion of the different models are icons that illustrate the general patterns In general, the trend factor may change slowly over time, and, again, it may make sense to smooth the trend component with a separate parameter denoted gamma for linear and exponential trend models, and phi for damped trend models. The trend smoothing parameters linear and exponential trend and damped tre nd Analogous to the seasonal component, when a trend component is included in the exponential smoothing process, an independent trend component is computed for each time, and modified as a function of the forecast error and the respective parameter If the parameter is 0 zero , than the trend component is constant across all values of the time series and for all forecasts If the parameter is 1, then the trend component is modified maximally from observation to observation by the respective forecast error Parameter values that fall in-between represent mixtures of those two extremes Parameter is a trend modification parameter, and affects how strongly changes in the trend will affect estimates of the trend for subsequent forecasts, that is, how quickly the trend will be damped or increased. Classical Seasonal Decomposition Census Method 1.General Introduction. Suppose you recorded the monthly passenger load on international flights for a period of 12 years see Box Jenkins, 1976 If you plot those data, it is apparent that 1 there appears to be a linear upwards trend in the passenger loads over the years, and 2 there is a recurring pattern or seasonality within each year i e most travel occurs during the summer months, and a minor peak occurs during the December holidays The purpose of the seasonal decomposition method is to isolate those components, that is, to de-compose the series into the trend effect, seasonal effects, and remaining variability The classic technique designed to accomplish this decomposition is known as the Census I method This technique is described and discussed in detail in Makridakis, Wheelwright, and McGee 1983 , and Makridakis and Wheelwright 1989.General model The general idea of seasonal decomposition is straightforward In general, a time series like the one described above can be thought of as consisting of four different components 1 A seasonal component denoted as S t where t stands for the particular point in time 2 a trend component T t , 3 a cyclical component C t , and 4 a random, error, or irregular component I t The difference between a cyclical and a seasonal component is that the latter occurs at regular seasonal intervals, while cyclical factors have usually a longer duration that varies from cycle to cycle In the Census I method, the trend and cyclical components are customarily combined into a trend-cycle component TC t The specific functional relationship between these components can assume different forms However, two straightforward possibilities are that they combine in an additive or a multiplicative fashion. Here X t stands for the observed value of the time series at time t Given some a priori knowledge about the cyclical factors affecting the series e g business cycles , the estimates for the different components can be used to compute forecasts for future observations However, the Exponential smoothing method, which can also incorporate seasonality and trend components, is the preferred technique for f orecasting purposes. Additive and multiplicative seasonality Let s consider the difference between an additive and multiplicative seasonal component in an example The annual sales of toys will probably peak in the months of November and December, and perhaps during the summer with a much smaller peak when children are on their summer break This seasonal pattern will likely repeat every year Seasonal components can be additive or multiplicative in nature For example, during the month of December the sales for a particular toy may increase by 3 million dollars every year Thus, we could add to our forecasts for every December the amount of 3 million to account for this seasonal fluctuation In this case, the seasonality is additive Alternatively, during the month of December the sales for a particular toy may increase by 40 , that is, increase by a factor of 1 4 Thus, when the sales for the toy are generally weak, then the absolute dollar increase in sales during December will be relatively weak but the percentage will be constant if the sales of the toy are strong, then the absolute dollar increase in sales will be proportionately greater Again, in this case the sales increase by a certain factor and the seasonal component is thus multiplicative in nature i e the multiplicative seasonal component in this case would be 1 4 In plots of series, the distinguishing characteristic between these two types of seasonal components is that in the additive case, the series shows steady seasonal fluctuations, regardless of the overall level of the series in the multiplicative case, the size of the seasonal fluctuations vary, depending on the overall level of the series. Additive and multiplicative trend-cycle We can extend the previous example to illustrate the additive and multiplicative trend-cycle components In terms of our toy example, a fashion trend may produce a steady increase in sales e g a trend towards more educational toys in general as with the seasonal component, this trend may be additive sales increase by 3 million dollars per year or multiplicative sales increase by 30 , or by a factor of 1 3, annually in nature In addition, cyclical components may impact sales to reiterate, a cyclical component is different from a seasonal component in that it usually is of longer duration, and that it occurs at irregular intervals For example, a particular toy may be particularly hot during a summer season e g a particular doll which is tied to the release of a major children s movie, and is promoted with extensive advertising Again such a cyclical component can effect sales in an additive manner or multiplicative manner. The Seasonal Decomposition Census I standard formulas are shown in Makridakis, Wheelwright, and McGee 1983 , and Makridakis and Wheelwright 1989.Moving average First a moving average is computed for the series, with the moving average window width equal to the length of one season If the length of the season is even, then the user can choose t o use either equal weights for the moving average or unequal weights can be used, where the first and last observation in the moving average window are averaged. Ratios or differences In the moving average series, all seasonal within-season variability will be eliminated thus, the differences in additive models or ratios in multiplicative models of the observed and smoothed series will isolate the seasonal component plus irregular component Specifically, the moving average is subtracted from the observed series for additive models or the observed series is divided by the moving average values for multiplicative models. Seasonal components The seasonal component is then computed as the average for additive models or medial average for multiplicative models for each point in the season. The medial average of a set of values is the mean after the smallest and largest values are excluded The resulting values represent the average seasonal component of the series. Seasonally adjusted series The original series can be adjusted by subtracting from it additive models or dividing it by multiplicative models the seasonal component. The resulting series is the seasonally adjusted series i e the seasonal component will be removed. Trend-cycle component Remember that the cyclical component is different from the seasonal component in that it is usually longer than one season, and different cycles can be of different lengths The combined trend and cyclical component can be approximated by applying to the seasonally adjusted series a 5 point centered weighed moving average smoothing transformation with the weights of 1, 2, 3, 2, 1.Random or irregular component Finally, the random or irregular error component can be isolated by subtracting from the seasonally adjusted series additive m odels or dividing the adjusted series by multiplicative models the trend-cycle component. X-11 Census Method II Seasonal Adjustment. The general ideas of seasonal decomposition and adjustment are discussed in the context of the Census I seasonal adjustment method Seasonal Decomposition Census I The Census method II 2 is an extension and refinement of the simple adjustment method Over the years, different versions of the Census method II evolved at the Census Bureau the method that has become most popular and is used most widely in government and business is the so-called X-11 variant of the Census method II see Hiskin, Young, Musgrave, 1967 Subsequently, the term X-11 has become synonymous with this refined version of the Census method II In addition to the documentation that can be obtained from the Census Bureau, a detailed summary of this method is also provided in Makridakis, Wheelwright, and McGee 1983 and Makridakis and Wheelwright 1989.For more information on this method, see the following topics. For more information on other Time Series methods, see Time Series Analysis - Index and the following topics. Seasonal Adjustment Basic Ideas and Terms. Suppose you recorded the monthly passenger load on international flights for a period of 12 years see Box Jenkins, 1976 If you plot those data, it is apparent that 1 there appears to be an upwards linear trend in the passenger loads over the years, and 2 there is a recurring pattern or seasonality within each year i e most travel occurs during the summer months, and a minor peak occurs during the December holidays The purpose of seasonal decomposition and adjustment is to isolate those components, that is, to de-compose the series into the trend effect, seasonal effects, and remaining variability The classic technique designed to accomplish this decomposition was developed in the 1920 s and is also known as the Census I method see the Census I overview section This technique is also described and discussed in detail in M akridakis, Wheelwright, and McGee 1983 , and Makridakis and Wheelwright 1989.General model The general idea of seasonal decomposition is straightforward In general, a time series like the one described above can be thought of as consisting of four different components 1 A seasonal component denoted as S t where t stands for the particular point in time 2 a trend component T t , 3 a cyclical component C t , and 4 a random, error, or irregular component I t The difference between a cyclical and a seasonal component is that the latter occurs at regular seasonal intervals, while cyclical factors usually have a longer duration that varies from cycle to cycle The trend and cyclical components are customarily combined into a trend-cycle component TC t The specific functional relationship between these components can assume different forms However, two straightforward possibilities are that they combine in an additive or a multiplicative fashion. X t represents the observed value of the time se ries at time t. Given some a priori knowledge about the cyclical factors affecting the series e g business cycles , the estimates for the different components can be used to compute forecasts for future observations However, the Exponential smoothing method, which can also incorporate seasonality and trend components, is the preferred technique for forecasting purposes. Additive and multiplicative seasonality Consider the difference between an additive and multiplicative seasonal component in an example The annual sales of toys will probably peak in the months of November and December, and perhaps during the summer with a much smaller peak when children are on their summer break This seasonal pattern will likely repeat every year Seasonal components can be additive or multiplicative in nature For example, during the month of December the sales for a particular toy may increase by 3 million dollars every year Thus, you could add to your forecasts for every December the amount of 3 million to account for this seasonal fluctuation In this case, the seasonality is additive. Alternatively, during the month of December the sales for a particular toy may increase by 40 , that is, increase by a factor of 1 4 Thus, when the sales for the toy are generally weak, then the absolute dollar increase in sales during December will be relatively weak but the percentage will be constant if the sales of the toy are strong, then the absolute dollar increase in sales will be proportionately greater Again, in this case the sales increase by a certain factor and the seasonal component is thus multiplicative in nature i e the multiplicative seasonal component in this case would be 1 4 In plots of series, the distinguishing characteristic between these two types of seasonal components is that in the additive case, the series shows steady seasonal fluctuations, regardless of the overall level of the series in the multiplicative case, the size of the seasonal fluctuations vary, depending on the overall level of the series. Additive and multiplicative trend-cycle The previous example can be extended to illustrate the additive and multiplicative trend-cycle components In terms of the toy example, a fashion trend may produce a steady increase in sales e g a trend towards more educational toys in general as with the seasonal component, this trend may be additive sales increase by 3 million dollars per year or multiplicative sales increase by 30 , or by a factor of 1 3, annually in nature In addition, cyclical components may impact sales To reiterate, a cyclical component is different from a seasonal component in that it usually is of longer duration, and that it occurs at irregular intervals For example, a particular toy may be particularly hot during a summer season e g a particular doll which is tied to the release of a major children s movie, and is promoted with extensive advertising Again such a cyclical component can effect sales in an additive manner or multiplicative man ner. The Census II Method. The basic method for seasonal decomposition and adjustment outlined in the Basic Ideas and Terms topic can be refined in several ways In fact, unlike many other time-series modeling techniques e g ARIMA which are grounded in some theoretical model of an underlying process, the X-11 variant of the Census II method simply contains many ad hoc features and refinements, that over the years have proven to provide excellent estimates for many real-world applications see Burman, 1979, Kendal Ord, 1990, Makridakis Wheelwright, 1989 Wallis, 1974 Some of the major refinements are listed below. Trading-day adjustment Different months have different numbers of days, and different numbers of trading-days i e Mondays, Tuesdays, etc When analyzing, for example, monthly revenue figures for an amusement park, the fluctuation in the different numbers of Saturdays and Sundays peak days in the different months will surely contribute significantly to the variability in monthly reven ues The X-11 variant of the Census II method allows the user to test whether such trading-day variability exists in the series, and, if so, to adjust the series accordingly. Extreme values Most real-world time series contain outliers, that is, extreme fluctuations due to rare events For example, a strike may affect production in a particular month of one year Such extreme outliers may bias the estimates of the seasonal and trend components The X-11 procedure includes provisions to deal with extreme values through the use of statistical control principles, that is, values that are above or below a certain range expressed in terms of multiples of sigma the standard deviation can be modified or dropped before final estimates for the seasonality are computed. Multiple refinements The refinement for outliers, extreme values, and different numbers of trading-days can be applied more than once, in order to obtain successively improved estimates of the components The X-11 method applies a series of successive refinements of the estimates to arrive at the final trend-cycle, seasonal, and irregular components, and the seasonally adjusted series. Tests and summary statistics In addition to estimating the major components of the series, various summary statistics can be computed For example, analysis of variance tables can be prepared to test the significance of seasonal variability and trading-day variability see above in the series the X-11 procedure will also compute the percentage change from month to month in the random and trend-cycle components As the duration or span in terms of months or quarters for quarterly X-11 increases, the change in the trend-cycle component will likely also increase, while the change in the random component should remain about the same The width of the average span at which the changes in the random component are about equal to the changes in the trend-cycle component is called the month quarter for cyclical dominance or MCD QCD for short For exam ple, if the MCD is equal to 2, then you can infer that over a 2-month span the trend-cycle will dominate the fluctuations of the irregular random component These and various other results are discussed in greater detail below. Result Tables Computed by the X-11 Method. The computations performed by the X-11 procedure are best discussed in the context of the results tables that are reported The adjustment process is divided into seven major steps, which are customarily labeled with consecutive letters A through G. Prior adjustment monthly seasonal adjustment only Before any seasonal adjustment is performed on the monthly time series, various prior user - defined adjustments can be incorporated The user can specify a second series that contains prior adjustment factors the values in that series will either be subtracted additive model from the original series, or the original series will be divided by these values multiplicative model For multiplicative models, user-specified trading-day adj ustment weights can also be specified These weights will be used to adjust the monthly observations depending on the number of respective trading-days represented by the observation. Preliminary estimation of trading-day variation monthly X-11 and weights Next, preliminary trading-day adjustment factors monthly X-11 only and weights for reducing the effect of extreme observations are computed. Final estimation of trading-day variation and irregular weights monthly X - 11 The adjustments and weights computed in B above are then used to derive improved trend-cycle and seasonal estimates These improved estimates are used to compute the final trading-day factors monthly X-11 only and weights. Final estimation of seasonal factors, trend-cycle, irregular, and seasonally adjusted series The final trading-day factors and weights computed in C above are used to compute the final estimates of the components. Modified original, seasonally adjusted, and irregular series The original and final seasonall y adjusted series, and the irregular component are modified for extremes The resulting modified series allow the user to examine the stability of the seasonal adjustment. Month quarter for cyclical dominance MCD, QCD , moving average, and summary measures In this part of the computations, various summary measures see below are computed to allow the user to examine the relative importance of the different components, the average fluctuation from month-to-month quarter-to-quarter , the average number of consecutive changes in the same direction average number of runs , etc. Charts Finally, you will compute various charts graphs to summarize the results For example, the final seasonally adjusted series will be plotted, in chronological order, or by month see below. Specific Description of all Result Tables Computed by the X-11 Method. In each part A through G of the analysis see Results Tables Computed by the X-11 Method , different result tables are computed Customarily, these tables are num bered, and also identified by a letter to indicate the respective part of the analysis For example, table B 11 shows the initial seasonally adjusted series C 11 is the refined seasonally adjusted series, and D 11 is the final seasonally adjusted series Shown below is a list of all available tables Those tables identified by an asterisk are not available applicable when analyzing quarterly series Also, for quarterly adjustment, some of the computations outlined below are slightly different for example instead of a 12-term monthly moving average, a 4-term quarterly moving average is applied to compute the seasonal factors the initial trend-cycle estimate is computed via a centered 4-term moving average, the final trend-cycle estimate in each part is computed by a 5-term Henderson average. Following the convention of the Bureau of the Census version of the X-11 method, three levels of printout detail are offered Standard 17 to 27 tables , Long 27 to 39 tables , and Full 44 to 59 tables In the description of each table below, the letters S, L, and F are used next to each title to indicate, which tables will be displayed and or printed at the respective setting of the output option For the charts, two levels of detail are available Standard and All. See the table name below, to obtain more information about that table. A 2 Prior Monthly Adjustment S Factors. Tables B 14 through B 16, B18, and B19 Adjustment for trading-day variation These tables are only available when analyzing monthly series Different months contain different numbers of days of the week i e Mondays, Tuesdays, etc In some series, the variation in the different numbers of trading-days may contribute significantly to monthly fluctuations e g the monthly revenues of an amusement park will be greatly influenced by the number of Saturdays Sundays in each month The user can specify initial weights for each trading-day see A 4 , and or these weights can be estimated from the data the user can also choose to apply those weights conditionally, i e only if they explain a significant proportion of variance. B 14 Extreme Irregular Values Excluded from Trading-day Regression L. B 15 Preliminary Trading-day Regression L. B 16 Trading-day Adjustment Factors Derived from Regression Coefficients F. B 17 Preliminary Weights for Irregular Component L. B 18 Trading-day Factors Derived from Combined Daily Weights F. B 19 Original Series Adjusted for Trading-day and Prior Variation F. C 1 Original Series Modified by Preliminary Weights and Adjusted for Trading-day and Prior Variation L. Tables C 14 through C 16, C 18, and C 19 Adjustment for trading-day variation These tables are only available when analyzing monthly series, and when adjustment for trading-day variation is requested In that case, the trading-day adjustment factors are computed from the refined adjusted series, analogous to the adjustment performed in part B B 14 through B 16, B 18 and B 19. C 14 Extreme Irregular Values Excluded from Trading-day Regression S. C 15 Final Trading-day Regression S. C 16 Final Trading-day Adjustment Factor s Derived from Regression X11 output Coefficients S. C 17 Final Weights for Irregular Component S. C 18 Final Trading-day Factors Derived From Combined Daily Weights S. C 19 Original Series Adjusted for Trading-day and Prior Variation S. D 1 Original Series Modified by Final Weights and Adjusted for Trading-day and Prior Variation L. Distributed Lags Analysis. For more information on other Time Series methods, see Time Series Analysis - Index and the following topics. General Purpose. Distributed lags analysis is a specialized technique for examining the relationships between variables that involve some delay For example, suppose that you are a manufacturer of computer software, and you want to determine the relationship between the number of inquiries that are received, and the number of orders that are placed by your customers You could record those numbers monthly for a one-year period, and then correlate the two variables However, obviously inquiries will precede actual orders, and you c an expect that the number of orders will follow the number of inquiries with some delay Put another way, there will be a time lagged correlation between the number of inquiries and the number of orders that are received. Time-lagged correlations are particularly common in econometrics For example, the benefits of investments in new machinery usually only become evident after some time Higher income will change people s choice of rental apartments, however, this relationship will be lagged because it will take some time for people to terminate their current leases, find new apartments, and move In general, the relationship between capital appropriations and capital expenditures will be lagged, because it will require some time before investment decisions are actually acted upon. In all of these cases, we have an independent or explanatory variable that affects the dependent variables with some lag The distributed lags method allows you to investigate those lags. Detailed discussions of dis tributed lags correlation can be found in most econometrics textbooks, for example, in Judge, Griffith, Hill, Luetkepohl, and Lee 1985 , Maddala 1977 , and Fomby, Hill, and Johnson 1984 In the following paragraphs we will present a brief description of these methods We will assume that you are familiar with the concept of correlation see Basic Statistics , and the basic ideas of multiple regression see Multiple Regression. General Model. Suppose we have a dependent variable y and an independent or explanatory variable x which are both measured repeatedly over time In some textbooks, the dependent variable is also referred to as the endogenous variable, and the independent or explanatory variable the exogenous variable The simplest way to describe the relationship between the two would be in a simple linear relationship. In this equation, the value of the dependent variable at time t is expressed as a linear function of x measured at times t t-1 t-2 , etc Thus, the dependent variable is a linear function of x and x is lagged by 1, 2, etc time periods The beta weights i can be considered slope parameters in this equation You may recognize this equation as a special case of the general linear regression equation see the Multiple Regression overview If the weights for the lagged time periods are statistically significant, we can conclude that the y variable is predicted or explained with the respective lag. Almon Distributed Lag. A common problem that often arises when computing the weights for the multiple linear regression model shown above is that the values of adjacent in time values in the x variable are highly correlated In extreme cases, their independent contributions to the prediction of y may become so redundant that the correlation matrix of measures can no longer be inverted, and thus, the beta weights cannot be computed In less extreme cases, the computation of the beta weights and their standard errors can become very imprecise, due to round-off error In the co ntext of Multiple Regression this general computational problem is discussed as the multicollinearity or matrix ill-conditioning issue. Almon 1965 proposed a procedure that will reduce the multicollinearity in this case Specifically, suppose we express each weight in the linear regression equation in the following manner. Almon could show that in many cases it is easier i e it avoids the multicollinearity problem to estimate the alpha values than the beta weights directly Note that with this method, the precision of the beta weight estimates is dependent on the degree or order of the polynomial approximation. Misspecifications A general problem with this technique is that, of course, the lag length and correct polynomial degree are not known a priori The effects of misspecifications of these parameters are potentially serious in terms of biased estimation This issue is discussed in greater detail in Frost 1975 , Schmidt and Waud 1973 , Schmidt and Sickles 1975 , and Trivedi and Pagan 1979.Single Spectrum Fourier Analysis. Spectrum analysis is concerned with the exploration of cyclical patterns of data The purpose of the analysis is to decompose a complex time series with cyclical components into a few underlying sinusoidal sine and cosine functions of particular wavelengths The term spectrum provides an appropriate metaphor for the nature of this analysis Suppose you study a beam of white sun light, which at first looks like a random white noise accumulation of light of different wavelengths However, when put through a prism, we can separate the different wave lengths or cyclical components that make up white sun light In fact, via this technique we can now identify and distinguish between different sources of light Thus, by identifying the important underlying cyclical components, we have learned something about the phenomenon of interest In essence, performing spectrum analysis on a time series is like putting the series through a prism in order to identify the wave l engths and importance of underlying cyclical components As a result of a successful analysis, you might uncover just a few recurring cycles of different lengths in the time series of interest, which at first looked more or less like random noise. A much cited example for spectrum analysis is the cyclical nature of sun spot activity e g see Bloomfield, 1976, or Shumway, 1988 It turns out that sun spot activity varies over 11 year cycles Other examples of celestial phenomena, weather patterns, fluctuations in commodity prices, economic activity, etc are also often used in the literature to demonstrate this technique To contrast this technique with ARIMA or Exponential Smoothing the purpose of spectrum analysis is to identify the seasonal fluctuations of different lengths, while in the former types of analysis, the length of the seasonal component is usually known or guessed a priori and then included in some theoretical model of moving averages or autocorrelations. The classic text on spec trum analysis is Bloomfield 1976 however, other detailed discussions can be found in Jenkins and Watts 1968 , Brillinger 1975 , Brigham 1974 , Elliott and Rao 1982 , Priestley 1981 , Shumway 1988 , or Wei 1989.For more information, see Time Series Analysis - Index and the following topics. Cross-Spectrum Analysis. For more information, see Time Series Analysis - Index and the following topics. General Introduction. Cross-spectrum analysis is an extension of Single Spectrum Fourier Analysis to the simultaneous analysis of two series In the following paragraphs, we will assume that you have already read the introduction to single spectrum analysis Detailed discussions of this technique can be found in Bloomfield 1976 , Jenkins and Watts 1968 , Brillinger 1975 , Brigham 1974 , Elliott and Rao 1982 , Priestley 1981 , Shumway 1988 , or Wei 1989.Strong periodicity in the series at the respective frequency A much cited example for spectrum analysis is the cyclical nature of sun spot activity e g see Bloomfield, 1976, or Shumway, 1988 It turns out that sun spot activity varies over 11 year cycles Other examples of celestial phenomena, weather patterns, fluctuations in commodity prices, economic activity, etc are also often used in the literature to demonstrate this technique. The purpose of cross-spectrum analysis is to uncover the correlations between two series at different frequencies For example, sun spot activity may be related to weather phenomena here on earth If so, then if we were to record those phenomena e g yearly average temperature and submit the resulting series to a cross-spectrum analysis together with the sun spot data, we may find that the weather indeed correlates with the sunspot activity at the 11 year cycle That is, we may find a periodicity in the weather data that is in-sync with the sun spot cycles We can easily think of other areas of research where such knowledge could be very useful for example, various economic indicators may show similar correlate d cyclical behavior various physiological measures likely will also display coordinated i e correlated cyclical behavior, and so on. Basic Notation and Principles. A simple example Consider the following two series with 16 cases. Results for Each Variable. The complete summary contains all spectrum statistics computed for each variable, as described in the Single Spectrum Fourier Analysis overview section Looking at the results shown above, it is clear that both variables show strong periodicities at the frequencies 0625 and 1875.Cross-Periodogram, Cross-Density, Quadrature-Density, Cross-Amplitude. Analogous to the results for the single variables, the complete summary will also display periodogram values for the cross periodogram However, the cross-spectrum consists of complex numbers that can be divided into a real and an imaginary part These can be smoothed to obtain the cross-density and quadrature density quad density for short estimates, respectively The reasons for smoothing, and th e different common weight functions for smoothing are discussed in the Single Spectrum Fourier Analysis The square root of the sum of the squared cross-density and quad-density values is called the cross - amplitude The cross-amplitude can be interpreted as a measure of covariance between the respective frequency components in the two series Thus we can conclude from the results shown in the table above that the 0625 and 1875 frequency components in the two series covary. Squared Coherency, Gain, and Phase Shift. There are additional statistics that can be displayed in the complete summary. Squared coherency You can standardize the cross-amplitude values by squaring them and dividing by the product of the spectrum density estimates for each series The result is called the squared coherency which can be interpreted similar to the squared correlation coefficient see Correlations - Overview , that is, the coherency value is the squared correlation between the cyclical components in the two se ries at the respective frequency However, the coherency values should not be interpreted by themselves for example, when the spectral density estimates in both series are very small, large coherency values may result the divisor in the computation of the coherency values will be very small , even though there are no strong cyclical components in either series at the respective frequencies. Gain The gain value is computed by dividing the cross-amplitude value by the spectrum density estimates for one of the two series in the analysis Consequently, two gain values are computed, which can be interpreted as the standard least squares regression coefficients for the respective frequencies. Phase shift Finally, the phase shift estimates are computed as tan -1 of the ratio of the quad density estimates over the cross-density estimate The phase shift estimates usually denoted by the Greek letter are measures of the extent to which each frequency component of one series leads the other. How the Ex ample Data were Created. Now, let s return to the example data set presented above The large spectral density estimates for both series, and the cross-amplitude values at frequencies 0 0625 and 1875 suggest two strong synchronized periodicities in both series at those frequencies In fact, the two series were created as. v1 cos 2 0625 v0-1 75 sin 2 2 v0-1.v2 cos 2 0625 v0 2 75 sin 2 2 v0 2. where v0 is the case number Indeed, the analysis presented in this overview reproduced the periodicity inserted into the data very well. Spectrum Analysis - Basic Notation and Principles. For more information, see Time Series Analysis - Index and the following topics. Frequency and Period. The wave length of a sine or cosine function is typically expressed in terms of the number of cycles per unit time Frequency , often denoted by the Greek letter nu some textbooks also use f For example, the number of letters handled in a post office may show 12 cycles per year On the first of every month a large amount of mail is sent many bills come due on the first of the month , then the amount of mail decreases in the middle of the month, then it increases again towards the end of the month Therefore, every month the fluctuation in the amount of mail handled by the post office will go through a full cycle Thus, if the unit of analysis is one year, then n would be equal to 12, as there would be 12 cycles per year Of course, there will likely be other cycles with different frequencies For example, there might be annual cycles 1 , and perhaps weekly cycles 52 weeks per year. The period T of a sine or cosine function is defined as the length of time required for one full cycle Thus, it is the reciprocal of the frequency, or T 1 To return to the mail example in the previous paragraph, the monthly cycle, expressed in yearly terms, would be equal to 1 12 0 0833 Put into words, there is a period in the series of length 0 0833 years. The General Structural Model. As mentioned before, the purpose of spectrum analysis is to decompose the original series into underlying sine and cosine functions of different frequencies, in order to determine those that appear particularly strong or important One way to do so would be to cast the issue as a linear Multiple Regression problem, where the dependent variable is the observed time series, and the independent variables are the sine functions of all possible discrete frequencies Such a linear multiple regression model can be written as. Following the common notation from classical harmonic analysis, in this equation lambda is the frequency expressed in terms of radians per unit time, that is 2 k where is the constant pi 3 14 and k k q What is important here is to recognize that the computational problem of fitting sine and cosine functions of different lengths to the data can be considered in terms of multiple linear regression Note that the cosine parameters a k and sine parameters b k are regression coefficients that tell us the degree to which the respective functions are correlated with the data Overall there are q different sine and cosine functions intuitively as also discussed in Multiple Regression , it should be clear that we cannot have more sine and cosine functions than there are data points in the series Without going into detail, if there are N data points in the series, then there will be N 2 1 cosine functions and N 2-1 sine functions In other words, there will be as many different sinusoidal waves as there are data points, and we will be able to completely reproduce the series from the underlying functions Note that if the number of cases in the series is odd, then the last data point will usually be ignored in order for a sinusoidal function to be identified, you need at least two points the high peak and the low peak. To summarize, spectrum analysis will identify the correlation of sine and cosine functions of different frequency with the observed data If a large correlation sine or cosine coefficient is identifi ed, you can conclude that there is a strong periodicity of the respective frequency or period in the dataplex numbers real and imaginary numbers In many textbooks on spectrum analysis, the structural model shown above is presented in terms of complex numbers, that is, the parameter estimation process is described in terms of the Fourier transform of a series into real and imaginary parts Complex numbers are the superset that includes all real and imaginary numbers Imaginary numbers, by definition, are numbers that are multiplied by the constant i where i is defined as the square root of -1 Obviously, the square root of -1 does not exist, hence the term imaginary number however, meaningful arithmetic operations on imaginary numbers can still be performed e g i 2 2 -4 It is useful to think of real and imaginary numbers as forming a two dimensional plane, where the horizontal or X - axis represents all real numbers, and the vertical or Y - axis represents all imaginary numbers Complex numbe rs can then be represented as points in the two - dimensional plane For example, the complex number 3 i 2 can be represented by a point with coordinates in this plane You can also think of complex numbers as angles, for example, you can connect the point representing a complex number in the plane with the origin complex number 0 i 0 , and measure the angle of that vector to the horizontal line Thus, intuitively you can see how the spectrum decomposition formula shown above, consisting of sine and cosine functions, can be rewritten in terms of operations on complex numbers In fact, in this manner the mathematical discussion and required computations are often more elegant and easier to perform which is why many textbooks prefer the presentation of spectrum analysis in terms of complex numbers. A Simple Example. Shumway 1988 presents a simple example to clarify the underlying mechanics of spectrum analysis Let s create a series with 16 cases following the equation shown above, and then see how we may extract the information that was put in it First, create a variable and define it as. x 1 cos 2 0625 v0-1 75 sin 2 2 v0-1.This variable is made up of two underlying periodicities The first at the frequency of 0625 or period 1 16 one observation completes 1 16 th of a full cycle, and a full cycle is completed every 16 observations and the second at the frequency of 2 or period of 5 The cosine coefficient 1 0 is larger than the sine coefficient 75 The spectrum analysis summary is shown below. Let s now review the columns Clearly, the largest cosine coefficient can be found for the 0625 frequency A smaller sine coefficient can be found at frequency 1875 Thus, clearly the two sine cosine frequencies which were inserted into the example data file are reflected in the above table. The sine and cosine functions are mutually independent or orthogonal thus we may sum the squared coefficients for each frequency to obtain the periodogram Specifically, the periodogram values above are com puted as. P k sine coefficient k 2 cosine coefficient k 2 N 2.where P k is the periodogram value at frequency k and N is the overall length of the series The periodogram values can be interpreted in terms of variance sums of squares of the data at the respective frequency or period Customarily, the periodogram values are plotted against the frequencies or periods. The Problem of Leakage. In the example above, a sine function with a frequency of 0 2 was inserted into the series However, because of the length of the series 16 , none of the frequencies reported exactly hits on that frequency In practice, what often happens in those cases is that the respective frequency will leak into adjacent frequencies For example, you may find large periodogram values for two adjacent frequencies, when, in fact, there is only one strong underlying sine or cosine function at a frequency that falls in-between those implied by the length of the series There are three ways in which we can approach the proble m of leakage. By padding the series, we may apply a finer frequency roster to the data. By tapering the series prior to the analysis, we may reduce leakage, or. By smoothing the periodogram, we may identify the general frequency regions or spectral densities that significantly contribute to the cyclical behavior of the series. See below for descriptions of each of these approaches. Padding the Time Series. Because the frequency values are computed as N t the number of units of times , we can simply pad the series with a constant e g zeros and thereby introduce smaller increments in the frequency values In a sense, padding allows us to apply a finer roster to the data In fact, if we padded the example data file described in the example above with ten zeros, the results would not change, that is, the largest periodogram peaks would still occur at the frequency values closest to 0625 and 2 Padding is also often desirable for computational efficiency reasons see below. The so-called process of sp lit-cosine-bell tapering is a recommended transformation of the series prior to the spectrum analysis It usually leads to a reduction of leakage in the periodogram The rationale for this transformation is explained in detail in Bloomfield 1976, p 80-94 In essence, a proportion p of the data at the beginning and at the end of the series is transformed via multiplication by the weights. where m is chosen so that 2 m N is equal to the proportion of data to be tapered p. Data Windows and Spectral Density Estimates. In practice, when analyzing actual data, it is usually not of crucial importance to identify exactly the frequencies for particular underlying sine or cosine functions Rather, because the periodogram values are subject to substantial random fluctuation, we are faced with the problem of very many chaotic periodogram spikes In that case, we want to find the frequencies with the greatest spectral densities that is, the frequency regions, consisting of many adjacent frequencies, that c ontribute most to the overall periodic behavior of the series This can be accomplished by smoothing the periodogram values via a weighted moving average transformation Suppose the moving average window is of width m which must be an odd number the following are the most commonly used smoothers note p m-1 2.Daniell or equal weight window The Daniell window Daniell 1946 amounts to a simple equal weight moving average transformation of the periodogram values, that is, each spectral density estimate is computed as the mean of the m 2 preceding and subsequent periodogram values. Tukey window In the Tukey Blackman and Tukey, 1958 or Tukey-Hanning window named after Julius Von Hann , for each frequency, the weights for the weighted moving average of the periodogram values are computed as. Hamming window In the Hamming named after R W Hamming window or Tukey-Hamming window Blackman and Tukey, 1958 , for each frequency, the weights for the weighted moving average of the periodogram values are co mputed as. Parzen window In the Parzen window Parzen, 1961 , for each frequency, the weights for the weighted moving average of the periodogram values are computed as. Bartlett window In the Bartlett window Bartlett, 1950 the weights are computed as. With the exception of the Daniell window, all weight functions will assign the greatest weight to the observation being smoothed in the center of the window, and increasingly smaller weights to values that are further away from the center In many cases, all of these data windows will produce very similar results. Preparing the Data for Analysis. Let s now consider a few other practical points in spectrum analysis Usually, we want to subtract the mean from the series, and detrend the series so that it is stationary prior to the analysis Otherwise the periodogram and density spectrum will mostly be overwhelmed by a very large value for the first cosine coefficient for frequency 0 0 In a sense, the mean is a cycle of frequency 0 zero per unit time that is, it is a constant Similarly, a trend is also of little interest when we want to uncover the periodicities in the series In fact, both of those potentially strong effects may mask the more interesting periodicities in the data, and thus both the mean and the trend linear should be removed from the series prior to the analysis Sometimes, it is also useful to smooth the data prior to the analysis, in order to tame the random noise that may obscure meaningful periodic cycles in the periodogram. Results when No Periodicity in the Series Exists. Finally, what if there are no recurring cycles in the data, that is, if each observation is completely independent of all other observations If the distribution of the observations follows the normal distribution, such a time series is also referred to as a white noise series like the white noise you hear on the radio when tuned in-between stations A white noise input series will result in periodogram values that follow an exponential distribu tion Thus, by testing the distribution of periodogram values against the exponential distribution, you can test whether the input series is different from a white noise series In addition, then you can also request to compute the Kolmogorov-Smirnov one-sample d statistic see also Nonparametrics and Distributions for more details. Testing for white noise in certain frequency bands Note that you can also plot the periodogram values for a particular frequency range only Again, if the input is a white noise series with respect to those frequencies i e it there are no significant periodic cycles of those frequencies , then the distribution of the periodogram values should again follow an exponential distribution. Fast Fourier Transforms FFT. For more information, see Time Series Analysis - Index and the following topics. General Introduction. The interpretation of the results of spectrum analysis is discussed in the Basic Notation and Principles topic, however, we have not described how it is do ne computationally Up until the mid-1960s the standard way of performing the spectrum decomposition was to use explicit formulae to solve for the sine and cosine parameters The computations involved required at least N 2 complex multiplications Thus, even with today s high-speed computers it would be very time consuming to analyze even small time series e g 8,000 observations would result in at least 64 million multiplications. The time requirements changed drastically with the development of the so-called fast Fourier transform algorithm or FFT for short In the mid-1960s, J W Cooley and J W Tukey 1965 popularized this algorithm which, in retrospect, had in fact been discovered independently by various individuals Various refinements and improvements of this algorithm can be found in Monro 1975 and Monro and Branch 1976 Readers interested in the computational details of this algorithm may refer to any of the texts cited in the overview Suffice it to say that via the FFT algorithm, the t ime to perform a spectral analysis is proportional to N log2 N - a huge improvement. However, a draw-back of the standard FFT algorithm is that the number of cases in the series must be equal to a power of 2 i e 16, 64, 128, 256 Usually, this necessitated padding of the series, which, as described above, will in most cases not change the characteristic peaks of the periodogram or the spectral density estimates In cases, however, where the time units are meaningful, such padding may make the interpretation of results more cumbersomeputation of FFT in Time Series. The implementation of the FFT algorithm allows you to take full advantage of the savings afforded by this algorithm On most standard computers, series with over 100,000 cases can easily be analyzed However, there are a few things to remember when analyzing series of that size. As mentioned above, the standard and most efficient FFT algorithm requires that the length of the input series is equal to a power of 2 If this is not the c ase, additional computations have to be performed It will use the simple explicit computational formulas as long as the input series is relatively small, and the number of computations can be performed in a relatively short amount of time For long time series, in order to still utilize the FFT algorithm, an implementation of the general approach described by Monro and Branch 1976 is used This method requires significantly more storage space, however, series of considerable length can still be analyzed very quickly, even if the number of observations is not equal to a power of 2.For time series of lengths not equal to a power of 2, we would like to make the following recommendations If the input series is small to moderately sized e g only a few thousand cases , then do not worry The analysis will typically only take a few seconds anyway In order to analyze moderately large and large series e g over 100,000 cases , pad the series to a power of 2 and then taper the series during the expl oratory part of your data analysis. Was this topic helpful.
No comments:
Post a Comment