﻿<?xml version="1.0" encoding="utf-8"?>
<ArticleSet>
  <ARTICLE>
    <Journal>
      <PublisherName>مرکز منطقه ای اطلاع رسانی علوم و فناوری</PublisherName>
      <JournalTitle>فصلنامه مهندسی برق و مهندسی کامپيوتر ايران</JournalTitle>
      <ISSN>16823745</ISSN>
      <Volume>23</Volume>
      <Issue>3</Issue>
      <PubDate PubStatus="epublish">
        <Year>2026</Year>
        <Month>1</Month>
        <Day>6</Day>
      </PubDate>
    </Journal>
    <ArticleTitle>Deep Long-Term Feature Extraction for Video Classification</ArticleTitle>
    <VernacularTitle>استخراج ویژگی‌های عمیق بلندمدت برای طبقه‌بندی ویدیو</VernacularTitle>
    <FirstPage>191</FirstPage>
    <LastPage>199</LastPage>
    <ELocationID EIdType="doi" />
    <Language>fa</Language>
    <AuthorList>
      <Author>
        <FirstName> عباس</FirstName>
        <LastName> همدونی اصلی</LastName>
        <Affiliation>بوعلی سینا</Affiliation>
      </Author>
      <Author>
        <FirstName>شیما</FirstName>
        <LastName>جاویدانی</LastName>
        <Affiliation>موسسه آموزش عالی جهاد دانشگاهی همدان</Affiliation>
      </Author>
      <Author>
        <FirstName>علی</FirstName>
        <LastName>جاویدانی</LastName>
        <Affiliation>دانشگاه بوعلی سینا</Affiliation>
      </Author>
    </AuthorList>
    <History PubStatus="received">
      <Year>2025</Year>
      <Month>7</Month>
      <Day>7</Day>
    </History>
    <Abstract>&lt;p style="text-align: left;"&gt;This paper presents a novel approach for recognizing ongoing actions from segmented videos, with the main focus on extracting long-term features for effective classification. First, optical-flow images between consecutive frames are computed and described by a pretrained convolutional neural network. To reduce feature-space complexity and simplify training of the temporal model, PCA is applied to the optical-flow descriptors. Next, a lightweight channel-attention module is applied to the low-dimensional PCA features at each time step to enhance informative components and suppress weak ones. The descriptors of each video are then aligned and followed over time, forming a multi-channel 1D time series from which long-term patterns are learned using a two-layer stacked LSTM. After the LSTM, a temporal-attention module performs time-aware aggregation by weighting informative time steps to produce a coherent context vector for classification. Experiments show that combining PCA with channel and temporal attention improves accuracy on the public UCF11 and jHMDB datasets while keeping the model lightweight and outperforming reference methods. The code is available at: https://github.com/alijavidani/Video_Classification_LSTM&lt;/p&gt;</Abstract>
    <OtherAbstract Language="FA">&lt;p style="direction: rtl;"&gt;در اين مقاله، رويکردي نوين براي شناسايي کنش هاي در حال انجام از ويديوهاي بخش&amp;not;بندي&amp;not;شده ارائه مي&amp;not;شود. تمرکز اصلي بر استخراج ويژگي&amp;not;هاي بلندمدت از ويديوها به منظور طبقه&amp;not;بندي موثر آنها است. بدين منظور، ابتدا تصاوير جريان نوري ميان فريم&amp;not;هاي متوالي محاسبه و با يک شبکه عصبي کانولوشني از پيش آموزش&amp;not;ديده توصيف مي&amp;not;شوند. براي کاهش پيچيدگي فضاي ويژگي و ساده&amp;not;سازي يادگيري مدل زماني، کاهش بعد PCA بر روي بردارهاي توصيفي جريان نوري اعمال مي&amp;not;گردد. سپس به منظور پالايش ورودي، يک ماژول توجه کانالي سبک وزن بر بردارهاي کم بعد حاصل از PCA در هر گام زماني اعمال مي&amp;not;شود تا مولفه&amp;not;هاي اطلاعاتي تقويت و مولفه&amp;not;هاي کم اثر تضعيف شوند. در ادامه، توصيفگرهاي هر ويديو هم&amp;not;راستا شده و در راستاي زمان دنبال مي&amp;not;شوند و استخراج ويژگي&amp;not;هاي بلندمدت با آموزش يک شبکه LSTM دو لايه پشته&amp;zwnj;اي انجام مي&amp;zwnj;پذيرد. پس از LSTM، يک ماژول توجه زماني به عنوان تجميع آگاه به زمان به کار گرفته مي&amp;zwnj;شود تا با وزن دهي داده محور به گام&amp;zwnj;هاي زماني، لحظات اطلاع&amp;not;رسان را برجسته کرده و يک بردار منسجم براي طبقه&amp;zwnj;بندي بسازد. نتايج تجربي نشان مي&amp;not;دهد که ترکيب PCA به همراه توجه کانالي و توجه زماني ضمن حفظ سبک وزني مدل، دقت طبقه&amp;not;بندي را در هر دو مجموعه داده عمومي 11UCF&amp;nbsp; و jHMDB بهبود مي&amp;not;بخشد و عملکرد بهتري نسبت به روش&amp;not;هاي مرجع ارائه مي&amp;zwnj;کند. کد مورد استفاده در این مقاله، به صورت دسترسی باز قابل در دسترس&amp;not;است.&lt;/p&gt;</OtherAbstract>
    <ObjectList>
      <Object Type="Keyword">
        <Param Name="Value">طبقه‌بندی ویدیو، شناسایی کنش انسانی، یادگیری عمیق، شبکه‌های عصبی کانولوشنی، شبکه‌های عصبی بازگشتی، حافظه‌ی بلند و کوتاه‌مدت  (LSTM)</Param>
      </Object>
    </ObjectList>
    <ArchiveCopySource DocType="Pdf">http://ijece.org/fa/Article/Download/50755</ArchiveCopySource>
  </ARTICLE>
</ArticleSet>