<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Publishing DTD v1.4 20241031//EN" "JATS-journalpublishing1-4.dtd">
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" article-type="research-article" dtd-version="1.4" xml:lang="en">
  <front>
    <journal-meta>
      <journal-id journal-id-type="publisher-id">jamp</journal-id>
      <journal-title-group>
        <journal-title>Journal of Applied Mathematics and Physics</journal-title>
      </journal-title-group>
      <issn pub-type="epub">2327-4379</issn>
      <issn pub-type="ppub">2327-4352</issn>
      <publisher>
        <publisher-name>Scientific Research Publishing</publisher-name>
      </publisher>
    </journal-meta>
    <article-meta>
      <article-id pub-id-type="doi">10.4236/jamp.2026.146117</article-id>
      <article-id pub-id-type="publisher-id">jamp-152055</article-id>
      <article-categories>
        <subj-group>
          <subject>Article</subject>
        </subj-group>
        <subj-group>
          <subject>Physics</subject>
          <subject>Mathematics</subject>
        </subj-group>
      </article-categories>
      <title-group>
        <article-title>A Unified Gradient Temporal Difference Learning Algorithm for Off-Policy Learning</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author" corresp="yes">
          <name name-style="western">
            <surname>Zhao</surname>
            <given-names>Yafei</given-names>
          </name>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <contrib contrib-type="author">
          <name name-style="western">
            <surname>Yang</surname>
            <given-names>Long</given-names>
          </name>
          <xref ref-type="aff" rid="aff2">2</xref>
        </contrib>
      </contrib-group>
      <aff id="aff1"><label>1</label> Department of Mathematics, Zhejiang International Studies University, Hangzhou, China </aff>
      <aff id="aff2"><label>2</label> Chinese Academy of Sciences, Beijing, China </aff>
      <author-notes>
        <fn fn-type="conflict" id="fn-conflict">
          <p>The authors declare no conflicts of interest regarding the publication of this paper.</p>
        </fn>
      </author-notes>
      <pub-date pub-type="epub">
        <day>11</day>
        <month>06</month>
        <year>2026</year>
      </pub-date>
      <pub-date pub-type="collection">
        <month>06</month>
        <year>2026</year>
      </pub-date>
      <volume>14</volume>
      <issue>06</issue>
      <fpage>2384</fpage>
      <lpage>2408</lpage>
      <history>
        <date date-type="received">
          <day>28</day>
          <month>05</month>
          <year>2026</year>
        </date>
        <date date-type="accepted">
          <day>21</day>
          <month>06</month>
          <year>2026</year>
        </date>
        <date date-type="published">
          <day>24</day>
          <month>06</month>
          <year>2026</year>
        </date>
      </history>
      <permissions>
        <copyright-statement>© 2026 by the authors and Scientific Research Publishing Inc.</copyright-statement>
        <copyright-year>2026</copyright-year>
        <license license-type="open-access">
          <license-p> This article is an open access article distributed under the terms and conditions of the Creative Commons Attribution (CC BY) license ( <ext-link ext-link-type="uri" xlink:href="https://creativecommons.org/licenses/by/4.0/">https://creativecommons.org/licenses/by/4.0/</ext-link> ). </license-p>
        </license>
      </permissions>
      <self-uri content-type="doi" xlink:href="https://doi.org/10.4236/jamp.2026.146117">https://doi.org/10.4236/jamp.2026.146117</self-uri>
      <abstract>
        <p>In this paper, we propose a unification of gradient temporal difference (GTD) learning algorithm <inline-formula><mml:math></mml:math></inline-formula></p>
        <p>GQ(</p>
        <p>σ,λ</p>
        <p>)</p>
        <p>for off-policy learning. The proposed</p>
        <p><inline-formula><mml:math></mml:math></inline-formula></p>
        <p>GQ(</p>
        <p>σ,λ</p>
        <p>)</p>
        <p>ranges from gradient <inline-formula><mml:math></mml:math></inline-formula></p>
        <p>Tree Backup(</p>
        <p>λ</p>
        <p>)</p>
        <p>to <inline-formula><mml:math></mml:math></inline-formula></p>
        <p>GQ(</p>
        <p>λ</p>
        <p>)</p>
        <p>when <inline-formula><mml:math></mml:math></inline-formula></p>
        <p>σ</p>
        <p>ranges from 0 to 1. We investigate the structure of TD fixed-point of</p>
        <p><inline-formula><mml:math></mml:math></inline-formula></p>
        <p>GQ(</p>
        <p>σ,λ</p>
        <p>)</p>
        <p>, and prove <inline-formula><mml:math></mml:math></inline-formula></p>
        <p>GQ(</p>
        <p>σ,λ</p>
        <p>)</p>
        <p>converges to its TD fixed-point with probability one. Furthermore, we prove that <inline-formula><mml:math></mml:math></inline-formula></p>
        <p>GQ(</p>
        <p>σ,λ</p>
        <p>)</p>
        <p>converges to an arbitrarily small neighborhood of the optimal solution with probability one. Empirical results show the <inline-formula><mml:math></mml:math></inline-formula></p>
        <p>GQ(</p>
        <p>σ,λ</p>
        <p>)</p>
        <p>with a value <inline-formula><mml:math></mml:math></inline-formula></p>
        <p>σ∈(</p>
        <p>0,1</p>
        <p>)</p>
        <p>that creates a mixture of <inline-formula><mml:math></mml:math></inline-formula></p>
        <p>GQ(</p>
        <p>λ</p>
        <p>)</p>
        <p>and gradient <inline-formula><mml:math></mml:math></inline-formula></p>
        <p>Tree Backup(</p>
        <p>λ</p>
        <p>)</p>
        <p>achieves a better performance than both the extreme end <inline-formula><mml:math></mml:math></inline-formula></p>
        <p>σ=0</p>
        <p>and <inline-formula><mml:math></mml:math></inline-formula></p>
        <p>σ=1</p>
        <p>.</p>
      </abstract>
      <kwd-group kwd-group-type="author-generated" xml:lang="en">
        <kwd>Reinforcement Learning</kwd>
        <kwd>Off-Policy Learning</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body>
    <sec id="sec1">
      <title>1. Introduction</title>
      <p>In reinforcement learning (RL), unifying some disparate ideas not only providing a better understanding of existing algorithms but also creating better performing algorithms.</p>
      <p>For example, <inline-formula><mml:math><mml:mrow><mml:mtext> TD </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> [<xref ref-type="bibr" rid="B1">1</xref>] unifies one-step temporal difference learning (if <inline-formula><mml:math><mml:mrow><mml:mi> λ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> ) and Monte Carlo method (if <inline-formula><mml:math><mml:mrow><mml:mi> λ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> ) through the trace-decay parameter <inline-formula><mml:math><mml:mi> λ </mml:mi></mml:math></inline-formula> . Results show that the unified algorithm <inline-formula><mml:math><mml:mrow><mml:mtext> TD </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> performs best at an intermediate value <inline-formula><mml:math><mml:mrow><mml:mi> λ </mml:mi><mml:mo> ∈ </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> rather than the extreme cases of <inline-formula><mml:math><mml:mrow><mml:mi> λ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:mi> λ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> .</p>
      <p>The work [<xref ref-type="bibr" rid="B2">2</xref>][<xref ref-type="bibr" rid="B3">3</xref>] propose a multi-step <inline-formula><mml:math><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> σ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> that unifies <inline-formula><mml:math><mml:mi> n </mml:mi></mml:math></inline-formula> -step Sarsa [<xref ref-type="bibr" rid="B4">4</xref>] (if <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> , <italic>full-sampling</italic>) and <inline-formula><mml:math><mml:mi> n </mml:mi></mml:math></inline-formula> -step Tree-Backup [<xref ref-type="bibr" rid="B5">5</xref>] (<inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , <italic>pure-expectation</italic>), where the parameter <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> ∈ </mml:mo><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mo> ] </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> denotes the degree of the sampling. The work [<xref ref-type="bibr" rid="B2">2</xref>] have conducted experiments to show that for some value <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> ∈ </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> σ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> creates a mixture of full-sampling and pure-expectation approach, which performs better than the extreme case <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> . Later, the work [<xref ref-type="bibr" rid="B6">6</xref>][<xref ref-type="bibr" rid="B7">7</xref>] inherit the key idea of unification of <inline-formula><mml:math><mml:mrow><mml:mtext> TD </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> σ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , they propose <inline-formula><mml:math><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> unifies <inline-formula><mml:math><mml:mrow><mml:mtext> Sarsa </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> [<xref ref-type="bibr" rid="B4">4</xref>] and <inline-formula><mml:math display="inline"><mml:mrow><mml:mtext> Tree-Backup </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> [<xref ref-type="bibr" rid="B5">5</xref>]. The previous works [<xref ref-type="bibr" rid="B6">6</xref>][<xref ref-type="bibr" rid="B7">7</xref>] show that <inline-formula><mml:math><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> performs best at an intermediate value <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> ∈ </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> .</p>
      <p>It is noteworthy that the theoretical analysis of the work [<xref ref-type="bibr" rid="B2">2</xref>][<xref ref-type="bibr" rid="B6">6</xref>][<xref ref-type="bibr" rid="B7">7</xref>] only consider the tabular learning, which requires a very large table to store the estimated value function when the state space is huge. That implies the previous methods of [<xref ref-type="bibr" rid="B2">2</xref>][<xref ref-type="bibr" rid="B6">6</xref>][<xref ref-type="bibr" rid="B7">7</xref>] are considerably expensive for high-dimensional RL, which is the main focus of this work.</p>
      <sec id="sec1dot1">
        <title>Our Main Works</title>
        <p>A practical way to address the high-dimensional curse is using a parametric function to estimate the value function. In this paper, we focus on extending <inline-formula><mml:math><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> with linear function approximation. Since the divergence of semi-gradient with multi-step bootstrapping for off-policy learning are well-documented in the existing literature (e.g., [<xref ref-type="bibr" rid="B3">3</xref>][<xref ref-type="bibr" rid="B8">8</xref>]), which could also happen in semi-gradient <inline-formula><mml:math><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> . To propose a convergent gradient-based algorithm, we derive the <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> algorithm via the mean square projected Bellman error (MSPBE) objective function [<xref ref-type="bibr" rid="B9">9</xref>], that inspired by weight-duplication trick (also known as “two-timescale stochastic approximation”) [<xref ref-type="bibr" rid="B9">9</xref>][<xref ref-type="bibr" rid="B10">10</xref>]. When <inline-formula><mml:math><mml:mi> σ </mml:mi></mml:math></inline-formula> ranges from 0 to 1, <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> ranges from gradient <inline-formula><mml:math><mml:mrow><mml:mtext> Tree Backup </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> (<inline-formula><mml:math><mml:mrow><mml:mtext> TB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> ) to <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> [<xref ref-type="bibr" rid="B11">11</xref>], <italic>i.e.</italic>, our <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> unifies gradient <inline-formula><mml:math><mml:mrow><mml:mtext> Tree Backup </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> .</p>
        <p>Although <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> | </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> is a natural algorithm to extend <inline-formula><mml:math><mml:mrow><mml:mtext> TB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> with linear function approximation, to the best of our knowledge, the update rule of <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> | </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> has not been proposed in the existing literatures. It is worth to notice that Touati <italic>et al</italic>., [<xref ref-type="bibr" rid="B12">12</xref>] have proposed another version of gradient <inline-formula><mml:math><mml:mrow><mml:mtext> TB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> (<inline-formula><mml:math><mml:mrow><mml:mtext> GTB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> ), which is different from the proposed <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> | </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> , we have clarified this point in Remark 3.</p>
        <p>Then, we provide the convergence analysis of the proposed <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> . Theorem 1 shows that <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> converges to its TD fixed-point with probability one. Additionally, Theorem 1 illustrates the structure of such TD fixed-point: it is the global asymptotically stable equilibrium of its corresponding ordinary differential equation (ODE). For more discussion, see Remark 4. Furthermore, Theorem 2 shows that <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> converges to an arbitrarily small neighborhood of the optimal solution with probability one.</p>
        <p>Finally, our experiments show that when <inline-formula><mml:math><mml:mi> σ </mml:mi></mml:math></inline-formula> ranges from 0 to 1, <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> achieves the best performance of off-policy evaluation or control within a certain <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> ∈ </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , neither <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , nor <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> , which implies that with a certain value <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> ∈ </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> creates a mixture between <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> and gradient <inline-formula><mml:math><mml:mrow><mml:mtext> TB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> reaches a better performance than the extreme ends (<inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> ).</p>
      </sec>
    </sec>
    <sec id="sec2">
      <title>2. Preliminary</title>
      <p>In this section, we briefly review the basics of reinforcement learning and off-policy evaluation.</p>
      <sec id="sec2dot1">
        <title>2.1. Reinforcement Learning</title>
        <p>Reinforcement learning (RL) [<xref ref-type="bibr" rid="B3">3</xref>] is often formalized as Markov decision processes (MDP) that considers a tuple <inline-formula><mml:math><mml:mrow><mml:mi> ℳ </mml:mi><mml:mo> = </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi mathvariant="script"> S </mml:mi><mml:mo> , </mml:mo><mml:mi mathvariant="script"> A </mml:mi><mml:mo> , </mml:mo><mml:mi> P </mml:mi><mml:mo> , </mml:mo><mml:mi> R </mml:mi><mml:mo> , </mml:mo><mml:mi> γ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> ; <inline-formula><mml:math><mml:mi mathvariant="script"> S </mml:mi></mml:math></inline-formula> is a set with finite states, <inline-formula><mml:math><mml:mi mathvariant="script"> A </mml:mi></mml:math></inline-formula> is a set with finite actions; <inline-formula><mml:math><mml:mrow><mml:mi> P </mml:mi><mml:mo> : </mml:mo><mml:mi mathvariant="script"> S </mml:mi><mml:mo> × </mml:mo><mml:mi mathvariant="script"> A </mml:mi><mml:mo> × </mml:mo><mml:mi mathvariant="script"> S </mml:mi><mml:mo> → </mml:mo><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mo> ] </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:msubsup><mml:mi> p </mml:mi><mml:mrow><mml:mi> s </mml:mi><mml:msup><mml:mi> s </mml:mi><mml:mo> ′ </mml:mo></mml:msup></mml:mrow><mml:mi> a </mml:mi></mml:msubsup><mml:mo> = </mml:mo><mml:mi> P </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> S </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> = </mml:mo><mml:msup><mml:mi> s </mml:mi><mml:mo> ′ </mml:mo></mml:msup><mml:mo> | </mml:mo><mml:msub><mml:mi> S </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub><mml:mo> = </mml:mo><mml:mi> s </mml:mi><mml:mo> , </mml:mo><mml:msub><mml:mi> A </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub><mml:mo> = </mml:mo><mml:mi> a </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> is the probability of state transition from <inline-formula><mml:math><mml:mi> s </mml:mi></mml:math></inline-formula> to <inline-formula><mml:math><mml:msup><mml:mi> s </mml:mi><mml:mo> ′ </mml:mo></mml:msup></mml:math></inline-formula> under playing the action <inline-formula><mml:math><mml:mi> a </mml:mi></mml:math></inline-formula> ; <inline-formula><mml:math><mml:mrow><mml:mi> R </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mo> ⋅ </mml:mo><mml:mo> , </mml:mo><mml:mo> ⋅ </mml:mo></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> : </mml:mo><mml:mi mathvariant="script"> S </mml:mi><mml:mo> × </mml:mo><mml:mi mathvariant="script"> A </mml:mi><mml:mo> → </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mn> 1 </mml:mn></mml:msup></mml:mrow></mml:math></inline-formula> is the expected reward function; <inline-formula><mml:math><mml:mrow><mml:mi> γ </mml:mi><mml:mo> ∈ </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> .</p>
        <p>A policy <inline-formula><mml:math><mml:mi> π </mml:mi></mml:math></inline-formula> is a probability distribution on <inline-formula><mml:math><mml:mrow><mml:mi mathvariant="script"> S </mml:mi><mml:mo> × </mml:mo><mml:mi mathvariant="script"> A </mml:mi></mml:mrow></mml:math></inline-formula> , and <inline-formula><mml:math><mml:mrow><mml:mi> π </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> a </mml:mi><mml:mo> | </mml:mo><mml:mi> s </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> denotes the probability of playing <inline-formula><mml:math><mml:mi> a </mml:mi></mml:math></inline-formula> in state <inline-formula><mml:math><mml:mi> s </mml:mi></mml:math></inline-formula> . Let <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msub><mml:mi> S </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> A </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> R </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> + </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> t </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> be generated by <inline-formula><mml:math><mml:mi> π </mml:mi></mml:math></inline-formula> , its <italic>state-action value function</italic> is: <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> q </mml:mi><mml:mi> π </mml:mi></mml:msup><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> s </mml:mi><mml:mo> , </mml:mo><mml:mi> a </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:msub><mml:mi mathvariant="double-struck"> E </mml:mi><mml:mi> π </mml:mi></mml:msub><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:mstyle displaystyle="true"><mml:msubsup><mml:mo> ∑ </mml:mo><mml:mrow><mml:mi> t </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow><mml:mi> ∞ </mml:mi></mml:msubsup><mml:mrow><mml:msup><mml:mi> γ </mml:mi><mml:mi> t </mml:mi></mml:msup><mml:msub><mml:mi> R </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> + </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:mstyle><mml:mo> | </mml:mo><mml:msub><mml:mi> S </mml:mi><mml:mn> 0 </mml:mn></mml:msub><mml:mo> = </mml:mo><mml:mi> s </mml:mi><mml:mo> , </mml:mo><mml:msub><mml:mi> A </mml:mi><mml:mn> 0 </mml:mn></mml:msub><mml:mo> = </mml:mo><mml:mi> a </mml:mi></mml:mrow><mml:mo> ] </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , where <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi mathvariant="double-struck"> E </mml:mi><mml:mi> π </mml:mi></mml:msub><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:mo> ⋅ </mml:mo><mml:mo> | </mml:mo><mml:mo> ⋅ </mml:mo></mml:mrow><mml:mo> ] </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> is conditional expectation on the actions selected according to <inline-formula><mml:math><mml:mi> π </mml:mi></mml:math></inline-formula> . Let <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> ℬ </mml:mi><mml:mi> π </mml:mi></mml:msup><mml:mo> : </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mrow><mml:mrow><mml:mo> | </mml:mo><mml:mi mathvariant="script"> S </mml:mi><mml:mo> | </mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo> → </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mrow><mml:mrow><mml:mo> | </mml:mo><mml:mi mathvariant="script"> S </mml:mi><mml:mo> | </mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula> denote Bellman operator with respect to policy <inline-formula><mml:math><mml:mi> π </mml:mi></mml:math></inline-formula> : </p>
        <disp-formula id="FD1">
          <label>(1)</label>
          <mml:math>
            <mml:mrow>
              <mml:msup>
                <mml:mi>ℬ</mml:mi>
                <mml:mi>π</mml:mi>
              </mml:msup>
              <mml:mo>:</mml:mo>
              <mml:mi>q</mml:mi>
              <mml:mo>↦</mml:mo>
              <mml:msup>
                <mml:mi>R</mml:mi>
                <mml:mi>π</mml:mi>
              </mml:msup>
              <mml:mo>+</mml:mo>
              <mml:mi>γ</mml:mi>
              <mml:msup>
                <mml:mi>P</mml:mi>
                <mml:mi>π</mml:mi>
              </mml:msup>
              <mml:mi>q</mml:mi>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>where <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> P </mml:mi><mml:mi> π </mml:mi></mml:msup><mml:mo> ∈ </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mrow><mml:mrow><mml:mo> | </mml:mo><mml:mi mathvariant="script"> S </mml:mi><mml:mo> | </mml:mo></mml:mrow><mml:mo> × </mml:mo><mml:mrow><mml:mo> | </mml:mo><mml:mi mathvariant="script"> S </mml:mi><mml:mo> | </mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> R </mml:mi><mml:mi> π </mml:mi></mml:msup><mml:mo> ∈ </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mrow><mml:mrow><mml:mo> | </mml:mo><mml:mi mathvariant="script"> S </mml:mi><mml:mo> | </mml:mo></mml:mrow><mml:mo> × </mml:mo><mml:mrow><mml:mo> | </mml:mo><mml:mi mathvariant="script"> A </mml:mi><mml:mo> | </mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula> , their corresponding elements are: <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:msup><mml:mi> P </mml:mi><mml:mi> π </mml:mi></mml:msup></mml:mrow><mml:mo> ] </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> s </mml:mi><mml:mo> , </mml:mo><mml:msup><mml:mi> s </mml:mi><mml:mo> ′ </mml:mo></mml:msup></mml:mrow></mml:msub><mml:mo> = </mml:mo><mml:mstyle displaystyle="true"><mml:msub><mml:mo> ∑ </mml:mo><mml:mrow><mml:mi> a </mml:mi><mml:mo> ∈ </mml:mo><mml:mi mathvariant="script"> A </mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mi> π </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> a </mml:mi><mml:mo> | </mml:mo><mml:mi> s </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:msubsup><mml:mi> p </mml:mi><mml:mrow><mml:mi> s </mml:mi><mml:msup><mml:mi> s </mml:mi><mml:mo> ′ </mml:mo></mml:msup></mml:mrow><mml:mi> a </mml:mi></mml:msubsup></mml:mrow></mml:mstyle></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:msup><mml:mi> R </mml:mi><mml:mi> π </mml:mi></mml:msup></mml:mrow><mml:mo> ] </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> s </mml:mi><mml:mo> , </mml:mo><mml:mi> a </mml:mi></mml:mrow></mml:msub><mml:mo> = </mml:mo><mml:mi> R </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> s </mml:mi><mml:mo> , </mml:mo><mml:mi> a </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> . It is well-known that <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> q </mml:mi><mml:mi> π </mml:mi></mml:msup></mml:mrow></mml:math></inline-formula> is the unique fixed point of <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> ℬ </mml:mi><mml:mi> π </mml:mi></mml:msup></mml:mrow></mml:math></inline-formula> , <italic>i.e.</italic>, <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> ℬ </mml:mi><mml:mi> π </mml:mi></mml:msup><mml:msup><mml:mi> q </mml:mi><mml:mi> π </mml:mi></mml:msup><mml:mo> = </mml:mo><mml:msup><mml:mi> q </mml:mi><mml:mi> π </mml:mi></mml:msup></mml:mrow></mml:math></inline-formula> , which is known as Bellman equation.</p>
      </sec>
      <sec id="sec2dot2">
        <title>2.2. Off-Policy Evaluation</title>
        <p>Let us consider the trajectory <inline-formula><mml:math><mml:mrow><mml:mi> τ </mml:mi><mml:mo> = </mml:mo><mml:mo> : </mml:mo><mml:msub><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msub><mml:mi> S </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> A </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> R </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> + </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> t </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> generated by the behavior policy <inline-formula><mml:math><mml:mi> μ </mml:mi></mml:math></inline-formula> , where <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> A </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> ~ </mml:mo><mml:mi> μ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mo> ⋅ </mml:mo><mml:mo> | </mml:mo><mml:msub><mml:mi> S </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math display="inline"><mml:mrow><mml:msub><mml:mi> S </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> + </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub><mml:mo> ~ </mml:mo><mml:mi> P </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mo> ⋅ </mml:mo><mml:mo> | </mml:mo><mml:msub><mml:mi> S </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> A </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> . Off-policy evaluation is the task to estimate the value function of the target policy <inline-formula><mml:math><mml:mi> π </mml:mi></mml:math></inline-formula> via the data that is generated by the behavior policy <inline-formula><mml:math><mml:mi> μ </mml:mi></mml:math></inline-formula> , where <inline-formula><mml:math><mml:mrow><mml:mi> μ </mml:mi><mml:mo> ≠ </mml:mo><mml:mi> π </mml:mi></mml:mrow></mml:math></inline-formula> . </p>
        <p><bold>Assumption 1 (Ergodicity).</bold><italic>The Markov chain induced by behavior policy</italic><inline-formula><mml:math><mml:mi> μ </mml:mi></mml:math></inline-formula><italic>is ergodic</italic>, <italic>i</italic>.<italic>e</italic>., <italic>there exists a stationary distribution</italic><inline-formula><mml:math><mml:mrow><mml:mi> ξ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mo> ⋅ </mml:mo><mml:mo> , </mml:mo><mml:mo> ⋅ </mml:mo></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>over</italic><inline-formula><mml:math><mml:mrow><mml:mi mathvariant="script"> S </mml:mi><mml:mo> × </mml:mo><mml:mi mathvariant="script"> A </mml:mi></mml:mrow></mml:math></inline-formula> : <italic>for</italic><inline-formula><mml:math><mml:mrow><mml:mo> ∀ </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> S </mml:mi><mml:mn> 0 </mml:mn></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> A </mml:mi><mml:mn> 0 </mml:mn></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , </p>
        <disp-formula id="FD2">
          <label>(2)</label>
          <mml:math>
            <mml:mrow>
              <mml:mfrac>
                <mml:mn>1</mml:mn>
                <mml:mi>n</mml:mi>
              </mml:mfrac>
              <mml:munderover>
                <mml:mstyle displaystyle="true" mathsize="140%">
                  <mml:mo>∑</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>k</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
                <mml:mi>n</mml:mi>
              </mml:munderover>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mi>ℙ</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>S</mml:mi>
                    <mml:mi>k</mml:mi>
                  </mml:msub>
                  <mml:mo>=</mml:mo>
                  <mml:mi>s</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:msub>
                    <mml:mi>A</mml:mi>
                    <mml:mi>k</mml:mi>
                  </mml:msub>
                  <mml:mo>=</mml:mo>
                  <mml:mi>a</mml:mi>
                  <mml:mo>|</mml:mo>
                  <mml:msub>
                    <mml:mi>S</mml:mi>
                    <mml:mn>0</mml:mn>
                  </mml:msub>
                  <mml:mo>,</mml:mo>
                  <mml:msub>
                    <mml:mi>A</mml:mi>
                    <mml:mn>0</mml:mn>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mover>
                <mml:mo>→</mml:mo>
                <mml:mrow>
                  <mml:mi>n</mml:mi>
                  <mml:mo>→</mml:mo>
                  <mml:mi>∞</mml:mi>
                </mml:mrow>
              </mml:mover>
              <mml:mi>ξ</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>s</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>a</mml:mi>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>&gt;</mml:mo>
              <mml:mn>0.</mml:mn>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>The ergodicity of behavior policy <inline-formula><mml:math><mml:mi> μ </mml:mi></mml:math></inline-formula> is a standard assumption in off-policy learning [<xref ref-type="bibr" rid="B3">3</xref>], and it implies each-action pair is visited under this behavior policy <inline-formula><mml:math><mml:mi> μ </mml:mi></mml:math></inline-formula> . We use <inline-formula><mml:math><mml:mi> Ξ </mml:mi></mml:math></inline-formula> to denote a diagonal matrix whose diagonal element is <inline-formula><mml:math><mml:mrow><mml:mi> ξ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> s </mml:mi><mml:mo> , </mml:mo><mml:mi> a </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , <italic>i.e.</italic>, <inline-formula><mml:math><mml:mrow><mml:mtext> Ξ </mml:mtext><mml:mo> = </mml:mo><mml:mtext> diag </mml:mtext><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:mo> ⋯ </mml:mo><mml:mo> , </mml:mo><mml:mi> ξ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> s </mml:mi><mml:mo> , </mml:mo><mml:mi> a </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> , </mml:mo><mml:mo> ⋯ </mml:mo></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> .</p>
      </sec>
      <sec id="sec2dot3">
        <title>
          2.3. Temporal Difference Learning and
          <italic>λ</italic>
          -Return
        </title>
        <p>TD learning updates value function as follows, <inline-formula><mml:math><mml:mrow><mml:mo> ∀ </mml:mo><mml:mi> t </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , </p>
        <disp-formula id="FD3">
          <label>(3)</label>
          <mml:math>
            <mml:mrow>
              <mml:mi>Q</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>S</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>,</mml:mo>
                  <mml:msub>
                    <mml:mi>A</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>←</mml:mo>
              <mml:mi>Q</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>S</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>,</mml:mo>
                  <mml:msub>
                    <mml:mi>A</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>+</mml:mo>
              <mml:msub>
                <mml:mi>α</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:msub>
                <mml:mi>δ</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>where <inline-formula><mml:math><mml:mrow><mml:mi> Q </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mo> ⋅ </mml:mo><mml:mo> , </mml:mo><mml:mo> ⋅ </mml:mo></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> is an estimator of <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> q </mml:mi><mml:mi> π </mml:mi></mml:msup></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> α </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> is step-size and <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> δ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> is TD error. Let <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> Q </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> = </mml:mo><mml:mo> : </mml:mo><mml:mi> Q </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> S </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> A </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , if </p>
        <disp-formula id="FD4">
          <label>(4)</label>
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>δ</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:msubsup>
                <mml:mi>δ</mml:mi>
                <mml:mi>t</mml:mi>
                <mml:mtext>S</mml:mtext>
              </mml:msubsup>
              <mml:mo>=</mml:mo>
              <mml:mo>:</mml:mo>
              <mml:msub>
                <mml:mi>R</mml:mi>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msub>
              <mml:mo>+</mml:mo>
              <mml:mi>γ</mml:mi>
              <mml:msub>
                <mml:mi>Q</mml:mi>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msub>
              <mml:mo>−</mml:mo>
              <mml:msub>
                <mml:mi>Q</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>then update (3) is Sarsa [<xref ref-type="bibr" rid="B4">4</xref>]. If <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> δ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> is expected TD error: </p>
        <disp-formula id="FD5">
          <label>(5)</label>
          <mml:math>
            <mml:mrow>
              <mml:msubsup>
                <mml:mi>δ</mml:mi>
                <mml:mi>t</mml:mi>
                <mml:mrow>
                  <mml:mtext>ES</mml:mtext>
                </mml:mrow>
              </mml:msubsup>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>R</mml:mi>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msub>
              <mml:mo>+</mml:mo>
              <mml:mi>γ</mml:mi>
              <mml:munder>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∑</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>a</mml:mi>
                  <mml:mo>∈</mml:mo>
                  <mml:mi mathvariant="script">A</mml:mi>
                </mml:mrow>
              </mml:munder>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mi>π</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>a</mml:mi>
                  <mml:mo>|</mml:mo>
                  <mml:msub>
                    <mml:mi>S</mml:mi>
                    <mml:mrow>
                      <mml:mi>t</mml:mi>
                      <mml:mo>+</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mi>Q</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>S</mml:mi>
                    <mml:mrow>
                      <mml:mi>t</mml:mi>
                      <mml:mo>+</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                  </mml:msub>
                  <mml:mo>,</mml:mo>
                  <mml:mi>a</mml:mi>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>−</mml:mo>
              <mml:msub>
                <mml:mi>Q</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>then update (3) is Expected Sarsa [<xref ref-type="bibr" rid="B4">4</xref>].</p>
        <p>The <inline-formula><mml:math><mml:mi> λ </mml:mi></mml:math></inline-formula> -return is an average contains all the <inline-formula><mml:math><mml:mi> n </mml:mi></mml:math></inline-formula> -step returns by weighting proportionally to <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> λ </mml:mi><mml:mrow><mml:mi> n </mml:mi><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula> , where <inline-formula><mml:math><mml:mrow><mml:mi> λ </mml:mi><mml:mo> ∈ </mml:mo><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mo> ] </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> . In this paper, we mainly consider two classic <inline-formula><mml:math><mml:mi> λ </mml:mi></mml:math></inline-formula> -return: <inline-formula><mml:math><mml:mrow><mml:mtext> Tree Backup </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> (<inline-formula><mml:math><mml:mrow><mml:mtext> TB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> ) and <inline-formula><mml:math><mml:mrow><mml:mtext> Expected Sarsa </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> .</p>
        <p><bold>Tree</bold><bold>Backup(</bold><inline-formula><mml:math><mml:mi> λ </mml:mi></mml:math></inline-formula><bold>)</bold>. For each pair <inline-formula><mml:math><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> S </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> A </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> in the trajectory <inline-formula><mml:math><mml:mi> τ </mml:mi></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:mtext> TB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> [<xref ref-type="bibr" rid="B5">5</xref>] estimates <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> q </mml:mi><mml:mi> π </mml:mi></mml:msup><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> S </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> A </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> by </p>
        <disp-formula id="FD6">
          <label>(6)</label>
          <mml:math>
            <mml:mrow>
              <mml:msubsup>
                <mml:mi>G</mml:mi>
                <mml:mi>t</mml:mi>
                <mml:mi>λ</mml:mi>
              </mml:msubsup>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>Q</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>+</mml:mo>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∑</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>k</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mi>t</mml:mi>
                </mml:mrow>
                <mml:mi>∞</mml:mi>
              </mml:munderover>
              <mml:msup>
                <mml:mrow>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mi>γ</mml:mi>
                      <mml:mi>λ</mml:mi>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>k</mml:mi>
                  <mml:mo>−</mml:mo>
                  <mml:mi>t</mml:mi>
                </mml:mrow>
              </mml:msup>
              <mml:msubsup>
                <mml:mi>δ</mml:mi>
                <mml:mi>k</mml:mi>
                <mml:mrow>
                  <mml:mtext>ES</mml:mtext>
                </mml:mrow>
              </mml:msubsup>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∏</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>i</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mi>t</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
                <mml:mi>k</mml:mi>
              </mml:munderover>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mi>π</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>A</mml:mi>
                    <mml:mi>i</mml:mi>
                  </mml:msub>
                  <mml:mo>|</mml:mo>
                  <mml:msub>
                    <mml:mi>S</mml:mi>
                    <mml:mi>i</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>where <inline-formula><mml:math><mml:mrow><mml:msubsup><mml:mi> δ </mml:mi><mml:mi> k </mml:mi><mml:mrow><mml:mtext> ES </mml:mtext></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> is expected TD error. Precup <italic>et al</italic>., [<xref ref-type="bibr" rid="B5">5</xref>] have proved the iteration (6) converges to <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> q </mml:mi><mml:mi> π </mml:mi></mml:msup></mml:mrow></mml:math></inline-formula> with probability one under some certain conditions.</p>
        <p><bold>Expected</bold><bold>Sarsa(</bold><inline-formula><mml:math><mml:mi> λ </mml:mi></mml:math></inline-formula><bold>)</bold>. Sutton and Barto [<xref ref-type="bibr" rid="B3">3</xref>] have proposed a multi-step TD learning extends Expected Sarsa to <inline-formula><mml:math><mml:mi> λ </mml:mi></mml:math></inline-formula> -return version: for each <inline-formula><mml:math><mml:mrow><mml:mi> t </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , </p>
        <disp-formula id="FD7">
          <label>(7)</label>
          <mml:math>
            <mml:mrow>
              <mml:msubsup>
                <mml:mi>G</mml:mi>
                <mml:mi>t</mml:mi>
                <mml:mi>λ</mml:mi>
              </mml:msubsup>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>Q</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>+</mml:mo>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∑</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>k</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mi>t</mml:mi>
                </mml:mrow>
                <mml:mi>∞</mml:mi>
              </mml:munderover>
              <mml:msup>
                <mml:mrow>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mi>γ</mml:mi>
                      <mml:mi>λ</mml:mi>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>k</mml:mi>
                  <mml:mo>−</mml:mo>
                  <mml:mi>t</mml:mi>
                </mml:mrow>
              </mml:msup>
              <mml:msubsup>
                <mml:mi>δ</mml:mi>
                <mml:mi>k</mml:mi>
                <mml:mrow>
                  <mml:mtext>ES</mml:mtext>
                </mml:mrow>
              </mml:msubsup>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∏</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>i</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mi>t</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
                <mml:mi>k</mml:mi>
              </mml:munderover>
              <mml:mfrac>
                <mml:mrow>
                  <mml:mi>π</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>A</mml:mi>
                        <mml:mi>i</mml:mi>
                      </mml:msub>
                      <mml:mo>|</mml:mo>
                      <mml:msub>
                        <mml:mi>S</mml:mi>
                        <mml:mi>i</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>μ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>A</mml:mi>
                        <mml:mi>i</mml:mi>
                      </mml:msub>
                      <mml:mo>|</mml:mo>
                      <mml:msub>
                        <mml:mi>S</mml:mi>
                        <mml:mi>i</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
              </mml:mfrac>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>For the convenience, in the following paragraph, we consider the following notations, </p>
        <disp-formula id="FD8">
          <mml:math display="inline">
            <mml:mrow>
              <mml:msub>
                <mml:mi>ρ</mml:mi>
                <mml:mi>i</mml:mi>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:mo>:</mml:mo>
              <mml:mfrac>
                <mml:mrow>
                  <mml:mi>π</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>A</mml:mi>
                        <mml:mi>i</mml:mi>
                      </mml:msub>
                      <mml:mo>|</mml:mo>
                      <mml:msub>
                        <mml:mi>S</mml:mi>
                        <mml:mi>i</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>μ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>A</mml:mi>
                        <mml:mi>i</mml:mi>
                      </mml:msub>
                      <mml:mo>|</mml:mo>
                      <mml:msub>
                        <mml:mi>S</mml:mi>
                        <mml:mi>i</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
              </mml:mfrac>
              <mml:mo>,</mml:mo>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∏</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>i</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mi>t</mml:mi>
                </mml:mrow>
                <mml:mi>k</mml:mi>
              </mml:munderover>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:msub>
                <mml:mi>ρ</mml:mi>
                <mml:mi>i</mml:mi>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:mo>:</mml:mo>
              <mml:msub>
                <mml:mi>ρ</mml:mi>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>:</mml:mo>
                  <mml:mi>k</mml:mi>
                </mml:mrow>
              </mml:msub>
              <mml:mo>,</mml:mo>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:msub>
                <mml:mi>ρ</mml:mi>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>:</mml:mo>
                  <mml:mi>t</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:mn>1.</mml:mn>
            </mml:mrow>
          </mml:math>
        </disp-formula>
      </sec>
      <sec id="sec2dot4">
        <title>2.4. A Unified View</title>
        <p>In this section, we review an approach to unify <inline-formula><mml:math><mml:mrow><mml:mtext> TB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:mtext> Expected Sarsa </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> .</p>
        <p><inline-formula><mml:math><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> σ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><bold>Algorithm</bold>. Recently, De Asis <italic>et al</italic>., [<xref ref-type="bibr" rid="B2">2</xref>] propose <inline-formula><mml:math><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> σ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> unifies multi-step Sarsa and multi-step <inline-formula><mml:math><mml:mrow><mml:mtext> TB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mn> 0 </mml:mn><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> . Concretely, according to a mixed TD error <inline-formula><mml:math><mml:mrow><mml:msubsup><mml:mi> δ </mml:mi><mml:mi> t </mml:mi><mml:mrow><mml:mi> π </mml:mi><mml:mo> , </mml:mo><mml:mi> σ </mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> : </p>
        <disp-formula id="FD9">
          <label>(8)</label>
          <mml:math>
            <mml:mrow>
              <mml:msubsup>
                <mml:mi>δ</mml:mi>
                <mml:mi>t</mml:mi>
                <mml:mrow>
                  <mml:mi>π</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>σ</mml:mi>
                </mml:mrow>
              </mml:msubsup>
              <mml:mo>=</mml:mo>
              <mml:mi>σ</mml:mi>
              <mml:msubsup>
                <mml:mi>δ</mml:mi>
                <mml:mi>t</mml:mi>
                <mml:mtext>S</mml:mtext>
              </mml:msubsup>
              <mml:mo>+</mml:mo>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mn>1</mml:mn>
                  <mml:mo>−</mml:mo>
                  <mml:mi>σ</mml:mi>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:msubsup>
                <mml:mi>δ</mml:mi>
                <mml:mi>t</mml:mi>
                <mml:mrow>
                  <mml:mtext>ES</mml:mtext>
                </mml:mrow>
              </mml:msubsup>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>De Asis <italic>et al</italic>., [<xref ref-type="bibr" rid="B2">2</xref>] construct a multi-step estimator: </p>
        <disp-formula id="FD10">
          <label>(9)</label>
          <mml:math>
            <mml:mrow>
              <mml:msubsup>
                <mml:mi>G</mml:mi>
                <mml:mi>t</mml:mi>
                <mml:mi>σ</mml:mi>
              </mml:msubsup>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>Q</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>+</mml:mo>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∑</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>k</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mi>t</mml:mi>
                </mml:mrow>
                <mml:mi>∞</mml:mi>
              </mml:munderover>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:msup>
                <mml:mi>γ</mml:mi>
                <mml:mrow>
                  <mml:mi>k</mml:mi>
                  <mml:mo>−</mml:mo>
                  <mml:mi>t</mml:mi>
                </mml:mrow>
              </mml:msup>
              <mml:msubsup>
                <mml:mi>δ</mml:mi>
                <mml:mi>k</mml:mi>
                <mml:mrow>
                  <mml:mi>π</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>σ</mml:mi>
                </mml:mrow>
              </mml:msubsup>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∏</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>i</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mi>t</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
                <mml:mi>k</mml:mi>
              </mml:munderover>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mn>1</mml:mn>
                      <mml:mo>−</mml:mo>
                      <mml:mi>σ</mml:mi>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mi>π</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>A</mml:mi>
                        <mml:mi>i</mml:mi>
                      </mml:msub>
                      <mml:mo>|</mml:mo>
                      <mml:msub>
                        <mml:mi>S</mml:mi>
                        <mml:mi>i</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mo>+</mml:mo>
                  <mml:mi>σ</mml:mi>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>where <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> ∈ </mml:mo><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mo> ] </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> is <italic>sampling parameter</italic>. When <inline-formula><mml:math><mml:mi> σ </mml:mi></mml:math></inline-formula> ranges from 0 to 1, the update (9) ranges from multi-step <inline-formula><mml:math><mml:mrow><mml:mtext> TB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mn> 0 </mml:mn><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> to multi-step Sarsa. Experimental results show that a certain <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> ∈ </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> results in a mixture of <inline-formula><mml:math><mml:mrow><mml:mtext> TB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mn> 0 </mml:mn><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> and Sarsa performs better than both <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> [<xref ref-type="bibr" rid="B2">2</xref>], which implies unifying some seemingly disparate algorithmic ideas can create better performing algorithms.</p>
        <p><bold>Off-Policy</bold><inline-formula><mml:math><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> . Later, De Asis, [<xref ref-type="bibr" rid="B7">7</xref>] proposes a multi-step returns as follows, </p>
        <disp-formula id="FD11">
          <label>(10)</label>
          <mml:math>
            <mml:mtable>
              <mml:mtr>
                <mml:mtd>
                  <mml:msubsup>
                    <mml:mi>G</mml:mi>
                    <mml:mi>t</mml:mi>
                    <mml:mrow>
                      <mml:mi>σ</mml:mi>
                      <mml:mo>,</mml:mo>
                      <mml:mi>λ</mml:mi>
                    </mml:mrow>
                  </mml:msubsup>
                  <mml:mo>=</mml:mo>
                  <mml:msub>
                    <mml:mi>Q</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>+</mml:mo>
                  <mml:munderover>
                    <mml:mstyle mathsize="140%" displaystyle="true">
                      <mml:mo>∑</mml:mo>
                    </mml:mstyle>
                    <mml:mrow>
                      <mml:mi>k</mml:mi>
                      <mml:mo>=</mml:mo>
                      <mml:mi>t</mml:mi>
                    </mml:mrow>
                    <mml:mi>∞</mml:mi>
                  </mml:munderover>
                  <mml:msubsup>
                    <mml:mi>δ</mml:mi>
                    <mml:mi>k</mml:mi>
                    <mml:mrow>
                      <mml:mtext>ES</mml:mtext>
                    </mml:mrow>
                  </mml:msubsup>
                  <mml:munderover>
                    <mml:mstyle mathsize="140%" displaystyle="true">
                      <mml:mo>∏</mml:mo>
                    </mml:mstyle>
                    <mml:mrow>
                      <mml:mi>i</mml:mi>
                      <mml:mo>=</mml:mo>
                      <mml:mi>t</mml:mi>
                      <mml:mo>+</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                    <mml:mi>k</mml:mi>
                  </mml:munderover>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mi>γ</mml:mi>
                  <mml:mi>λ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:mn>1</mml:mn>
                          <mml:mo>−</mml:mo>
                          <mml:mi>σ</mml:mi>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                      <mml:mi>π</mml:mi>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mi>A</mml:mi>
                            <mml:mi>i</mml:mi>
                          </mml:msub>
                          <mml:mo>|</mml:mo>
                          <mml:msub>
                            <mml:mi>S</mml:mi>
                            <mml:mi>i</mml:mi>
                          </mml:msub>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                      <mml:mo>+</mml:mo>
                      <mml:mi>σ</mml:mi>
                      <mml:msub>
                        <mml:mi>ρ</mml:mi>
                        <mml:mi>i</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mtd>
              </mml:mtr>
              <mml:mtr>
                <mml:mtd>
                  <mml:mo>=</mml:mo>
                  <mml:msub>
                    <mml:mi>Q</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>+</mml:mo>
                  <mml:munderover>
                    <mml:mstyle mathsize="140%" displaystyle="true">
                      <mml:mo>∑</mml:mo>
                    </mml:mstyle>
                    <mml:mrow>
                      <mml:mi>k</mml:mi>
                      <mml:mo>=</mml:mo>
                      <mml:mi>t</mml:mi>
                    </mml:mrow>
                    <mml:mi>∞</mml:mi>
                  </mml:munderover>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:msubsup>
                    <mml:mi>δ</mml:mi>
                    <mml:mi>k</mml:mi>
                    <mml:mrow>
                      <mml:mtext>ES</mml:mtext>
                    </mml:mrow>
                  </mml:msubsup>
                  <mml:munderover>
                    <mml:mstyle mathsize="140%" displaystyle="true">
                      <mml:mo>∏</mml:mo>
                    </mml:mstyle>
                    <mml:mrow>
                      <mml:mi>i</mml:mi>
                      <mml:mo>=</mml:mo>
                      <mml:mi>t</mml:mi>
                      <mml:mo>+</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                    <mml:mi>k</mml:mi>
                  </mml:munderover>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mi>γ</mml:mi>
                  <mml:mi>λ</mml:mi>
                  <mml:msub>
                    <mml:mi>c</mml:mi>
                    <mml:mrow>
                      <mml:mi>i</mml:mi>
                      <mml:mo>,</mml:mo>
                      <mml:mi>σ</mml:mi>
                    </mml:mrow>
                  </mml:msub>
                  <mml:mo>,</mml:mo>
                </mml:mtd>
              </mml:mtr>
            </mml:mtable>
          </mml:math>
        </disp-formula>
        <p>where </p>
        <disp-formula id="FD12">
          <label>(11)</label>
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>c</mml:mi>
                <mml:mrow>
                  <mml:mi>i</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>σ</mml:mi>
                </mml:mrow>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mn>1</mml:mn>
                  <mml:mo>−</mml:mo>
                  <mml:mi>σ</mml:mi>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mi>π</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>A</mml:mi>
                    <mml:mi>i</mml:mi>
                  </mml:msub>
                  <mml:mo>|</mml:mo>
                  <mml:msub>
                    <mml:mi>S</mml:mi>
                    <mml:mi>i</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>+</mml:mo>
              <mml:mi>σ</mml:mi>
              <mml:msub>
                <mml:mi>ρ</mml:mi>
                <mml:mi>i</mml:mi>
              </mml:msub>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>When <inline-formula><mml:math><mml:mi> σ </mml:mi></mml:math></inline-formula> ranges from 0 to 1, the estimator (10) ranges from <inline-formula><mml:math><mml:mrow><mml:mtext> TB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> (6) to <inline-formula><mml:math><mml:mrow><mml:mtext> Expected Sarsa </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> (7).</p>
        <p>We introduce a <inline-formula><mml:math><mml:mi> λ </mml:mi></mml:math></inline-formula> -operator <inline-formula><mml:math><mml:mrow><mml:msubsup><mml:mi> ℬ </mml:mi><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mrow><mml:mi> π </mml:mi><mml:mo> , </mml:mo><mml:mi> μ </mml:mi></mml:mrow></mml:msubsup><mml:mrow><mml:mo> ( </mml:mo><mml:mo> ⋅ </mml:mo><mml:mo> ) </mml:mo></mml:mrow><mml:mo> : </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mrow><mml:mrow><mml:mo> | </mml:mo><mml:mi mathvariant="script"> S </mml:mi><mml:mo> | </mml:mo></mml:mrow><mml:mo> × </mml:mo><mml:mrow><mml:mo> | </mml:mo><mml:mi mathvariant="script"> A </mml:mi><mml:mo> | </mml:mo></mml:mrow></mml:mrow></mml:msup><mml:mo> → </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mrow><mml:mrow><mml:mo> | </mml:mo><mml:mi mathvariant="script"> S </mml:mi><mml:mo> | </mml:mo></mml:mrow><mml:mo> × </mml:mo><mml:mrow><mml:mo> | </mml:mo><mml:mi mathvariant="script"> A </mml:mi><mml:mo> | </mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula> that is a high level view of the <inline-formula><mml:math><mml:mi> λ </mml:mi></mml:math></inline-formula> -return (10), </p>
        <disp-formula id="FD13">
          <label>(12)</label>
          <mml:math>
            <mml:mtable columnalign="left">
              <mml:mtr>
                <mml:mtd>
                  <mml:msubsup>
                    <mml:mi>ℬ</mml:mi>
                    <mml:mrow>
                      <mml:mi>σ</mml:mi>
                      <mml:mo>,</mml:mo>
                      <mml:mi>λ</mml:mi>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mi>π</mml:mi>
                      <mml:mo>,</mml:mo>
                      <mml:mi>μ</mml:mi>
                    </mml:mrow>
                  </mml:msubsup>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mo>⋅</mml:mo>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mo>:</mml:mo>
                  <mml:mi>q</mml:mi>
                  <mml:mo>↦</mml:mo>
                  <mml:mi>q</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:msub>
                    <mml:mi mathvariant="double-struck">E</mml:mi>
                    <mml:mi>μ</mml:mi>
                  </mml:msub>
                  <mml:mrow>
                    <mml:mo>[</mml:mo>
                    <mml:mrow>
                      <mml:munderover>
                        <mml:mstyle mathsize="140%" displaystyle="true">
                          <mml:mo>∑</mml:mo>
                        </mml:mstyle>
                        <mml:mrow>
                          <mml:mi>k</mml:mi>
                          <mml:mo>=</mml:mo>
                          <mml:mn>0</mml:mn>
                        </mml:mrow>
                        <mml:mi>∞</mml:mi>
                      </mml:munderover>
                      <mml:mtext>
                         
                      </mml:mtext>
                      <mml:msubsup>
                        <mml:mi>δ</mml:mi>
                        <mml:mi>k</mml:mi>
                        <mml:mrow>
                          <mml:mtext>ES</mml:mtext>
                        </mml:mrow>
                      </mml:msubsup>
                      <mml:munderover>
                        <mml:mstyle mathsize="140%" displaystyle="true">
                          <mml:mo>∏</mml:mo>
                        </mml:mstyle>
                        <mml:mrow>
                          <mml:mi>i</mml:mi>
                          <mml:mo>=</mml:mo>
                          <mml:mn>1</mml:mn>
                        </mml:mrow>
                        <mml:mi>k</mml:mi>
                      </mml:munderover>
                      <mml:mtext>
                         
                      </mml:mtext>
                      <mml:mi>γ</mml:mi>
                      <mml:mi>λ</mml:mi>
                      <mml:msub>
                        <mml:mi>c</mml:mi>
                        <mml:mrow>
                          <mml:mi>i</mml:mi>
                          <mml:mo>,</mml:mo>
                          <mml:mi>σ</mml:mi>
                        </mml:mrow>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>]</mml:mo>
                  </mml:mrow>
                </mml:mtd>
              </mml:mtr>
              <mml:mtr>
                <mml:mtd>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mo>=</mml:mo>
                  <mml:mi>q</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mi>σ</mml:mi>
                  <mml:msup>
                    <mml:mrow>
                      <mml:mo>(</mml:mo>
                      <mml:mrow>
                        <mml:mi>I</mml:mi>
                        <mml:mo>−</mml:mo>
                        <mml:mi>λ</mml:mi>
                        <mml:mi>γ</mml:mi>
                        <mml:msup>
                          <mml:mi>P</mml:mi>
                          <mml:mi>π</mml:mi>
                        </mml:msup>
                      </mml:mrow>
                      <mml:mo>)</mml:mo>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mo>−</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                  </mml:msup>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:msup>
                        <mml:mi>ℬ</mml:mi>
                        <mml:mi>π</mml:mi>
                      </mml:msup>
                      <mml:mi>q</mml:mi>
                      <mml:mo>−</mml:mo>
                      <mml:mi>q</mml:mi>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mtd>
              </mml:mtr>
              <mml:mtr>
                <mml:mtd>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mo>+</mml:mo>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mn>1</mml:mn>
                      <mml:mo>−</mml:mo>
                      <mml:mi>σ</mml:mi>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:msup>
                    <mml:mrow>
                      <mml:mo>(</mml:mo>
                      <mml:mrow>
                        <mml:mi>I</mml:mi>
                        <mml:mo>−</mml:mo>
                        <mml:mi>λ</mml:mi>
                        <mml:mi>γ</mml:mi>
                        <mml:msup>
                          <mml:mi>P</mml:mi>
                          <mml:mrow>
                            <mml:mi>π</mml:mi>
                            <mml:mo>,</mml:mo>
                            <mml:mi>μ</mml:mi>
                          </mml:mrow>
                        </mml:msup>
                      </mml:mrow>
                      <mml:mo>)</mml:mo>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mo>−</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                  </mml:msup>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:msup>
                        <mml:mi>ℬ</mml:mi>
                        <mml:mi>π</mml:mi>
                      </mml:msup>
                      <mml:mi>q</mml:mi>
                      <mml:mo>−</mml:mo>
                      <mml:mi>q</mml:mi>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mo>,</mml:mo>
                </mml:mtd>
              </mml:mtr>
            </mml:mtable>
          </mml:math>
        </disp-formula>
        <p>where <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> ℬ </mml:mi><mml:mi> π </mml:mi></mml:msup></mml:mrow></mml:math></inline-formula> is Bellman operator (1), <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> P </mml:mi><mml:mrow><mml:mi> π </mml:mi><mml:mo> , </mml:mo><mml:mi> μ </mml:mi></mml:mrow></mml:msup><mml:mo> ∈ </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mrow><mml:mrow><mml:mo> | </mml:mo><mml:mi mathvariant="script"> S </mml:mi><mml:mo> | </mml:mo></mml:mrow><mml:mo> × </mml:mo><mml:mrow><mml:mo> | </mml:mo><mml:mi mathvariant="script"> S </mml:mi><mml:mo> | </mml:mo></mml:mrow></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula> , and whose elements are: <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:msup><mml:mi> P </mml:mi><mml:mrow><mml:mi> π </mml:mi><mml:mo> , </mml:mo><mml:mi> μ </mml:mi></mml:mrow></mml:msup></mml:mrow><mml:mo> ] </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> s </mml:mi><mml:mo> , </mml:mo><mml:msup><mml:mi> s </mml:mi><mml:mo> ′ </mml:mo></mml:msup></mml:mrow></mml:msub><mml:mo> = </mml:mo><mml:mstyle displaystyle="true"><mml:msub><mml:mo> ∑ </mml:mo><mml:mrow><mml:mi> a </mml:mi><mml:mo> ∈ </mml:mo><mml:mi mathvariant="script"> A </mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mi> π </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> a </mml:mi><mml:mo> | </mml:mo><mml:mi> s </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mi> μ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> a </mml:mi><mml:mo> | </mml:mo><mml:mi> s </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:msubsup><mml:mi> p </mml:mi><mml:mrow><mml:mi> s </mml:mi><mml:msup><mml:mi> s </mml:mi><mml:mo> ′ </mml:mo></mml:msup></mml:mrow><mml:mi> a </mml:mi></mml:msubsup></mml:mrow></mml:mstyle></mml:mrow></mml:math></inline-formula> .</p>
        <p><bold>Remark 1.</bold><italic>Yang et al.</italic> [<xref ref-type="bibr" rid="B6">6</xref>]<italic>propose another version of</italic><inline-formula><mml:math><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>algorithm that extends</italic><inline-formula><mml:math><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> σ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> (9) <italic>with eligibility trace</italic>: </p>
        <disp-formula id="FD14">
          <label>(13)</label>
          <mml:math>
            <mml:mrow>
              <mml:msubsup>
                <mml:mover accent="true">
                  <mml:mi>G</mml:mi>
                  <mml:mo>˜</mml:mo>
                </mml:mover>
                <mml:mi>t</mml:mi>
                <mml:mrow>
                  <mml:mi>σ</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>λ</mml:mi>
                </mml:mrow>
              </mml:msubsup>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>Q</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>+</mml:mo>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∑</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>k</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mi>t</mml:mi>
                </mml:mrow>
                <mml:mi>∞</mml:mi>
              </mml:munderover>
              <mml:msup>
                <mml:mrow>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mi>λ</mml:mi>
                      <mml:mi>γ</mml:mi>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>k</mml:mi>
                  <mml:mo>−</mml:mo>
                  <mml:mi>t</mml:mi>
                </mml:mrow>
              </mml:msup>
              <mml:msubsup>
                <mml:mi>δ</mml:mi>
                <mml:mi>k</mml:mi>
                <mml:mrow>
                  <mml:mi>π</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>σ</mml:mi>
                </mml:mrow>
              </mml:msubsup>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p><italic>It is noteworthy that at one extreme end</italic><inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> , <italic>both</italic><inline-formula><mml:math><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> σ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> (9) <italic>and</italic><inline-formula><mml:math><mml:mrow><mml:msubsup><mml:mover accent="true"><mml:mi> G </mml:mi><mml:mo> ˜ </mml:mo></mml:mover><mml:mi> t </mml:mi><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula> (13) <italic>reduce to on-policy learning</italic>. <italic>Particularly</italic>, [<xref ref-type="bibr" rid="B6">6</xref>]<italic>prove that the performance of</italic><inline-formula><mml:math><mml:mrow><mml:msubsup><mml:mover accent="true"><mml:mi> G </mml:mi><mml:mo> ˜ </mml:mo></mml:mover><mml:mi> t </mml:mi><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula><italic>for off-policy evaluation is determined by parameter</italic><inline-formula><mml:math><mml:mi> σ </mml:mi></mml:math></inline-formula> : </p>
        <disp-formula id="FD15">
          <label>(14)</label>
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mrow>
                  <mml:mrow>
                    <mml:mo>‖</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi mathvariant="double-struck">E</mml:mi>
                        <mml:mi>μ</mml:mi>
                      </mml:msub>
                      <mml:mrow>
                        <mml:mo>[</mml:mo>
                        <mml:mrow>
                          <mml:msubsup>
                            <mml:mover accent="true">
                              <mml:mi>G</mml:mi>
                              <mml:mo>˜</mml:mo>
                            </mml:mover>
                            <mml:mi>t</mml:mi>
                            <mml:mrow>
                              <mml:mi>σ</mml:mi>
                              <mml:mo>,</mml:mo>
                              <mml:mi>λ</mml:mi>
                            </mml:mrow>
                          </mml:msubsup>
                          <mml:mo>|</mml:mo>
                          <mml:mrow>
                            <mml:mo>(</mml:mo>
                            <mml:mrow>
                              <mml:msub>
                                <mml:mi>S</mml:mi>
                                <mml:mi>t</mml:mi>
                              </mml:msub>
                              <mml:mo>,</mml:mo>
                              <mml:msub>
                                <mml:mi>A</mml:mi>
                                <mml:mi>t</mml:mi>
                              </mml:msub>
                            </mml:mrow>
                            <mml:mo>)</mml:mo>
                          </mml:mrow>
                          <mml:mo>=</mml:mo>
                          <mml:mrow>
                            <mml:mo>(</mml:mo>
                            <mml:mrow>
                              <mml:mi>s</mml:mi>
                              <mml:mo>,</mml:mo>
                              <mml:mi>a</mml:mi>
                            </mml:mrow>
                            <mml:mo>)</mml:mo>
                          </mml:mrow>
                        </mml:mrow>
                        <mml:mo>]</mml:mo>
                      </mml:mrow>
                      <mml:mo>−</mml:mo>
                      <mml:msup>
                        <mml:mi>q</mml:mi>
                        <mml:mi>π</mml:mi>
                      </mml:msup>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:mi>s</mml:mi>
                          <mml:mo>,</mml:mo>
                          <mml:mi>a</mml:mi>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                    <mml:mo>‖</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mi>∞</mml:mi>
              </mml:msub>
              <mml:mo>≤</mml:mo>
              <mml:mi>σ</mml:mi>
              <mml:mi>C</mml:mi>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p><italic>where</italic><inline-formula><mml:math><mml:mi> C </mml:mi></mml:math></inline-formula><italic>is a positive constant never reaches</italic>0 <italic>no matter how we choose the starting time</italic><inline-formula><mml:math><mml:mi> t </mml:mi></mml:math></inline-formula> . <italic>The upper error bound of</italic>(14) <italic>illustrates the capacity of</italic><inline-formula><mml:math><mml:mrow><mml:msubsup><mml:mover accent="true"><mml:mi> G </mml:mi><mml:mo> ˜ </mml:mo></mml:mover><mml:mi> t </mml:mi><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula><italic>for off-policy evaluation decays monotonously when</italic><inline-formula><mml:math><mml:mi> σ </mml:mi></mml:math></inline-formula><italic>ranges from</italic>0<italic>to</italic>1. <italic>At the extreme end</italic><inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:msubsup><mml:mover accent="true"><mml:mi> G </mml:mi><mml:mo> ˜ </mml:mo></mml:mover><mml:mi> t </mml:mi><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula><italic>achieves the worst performance of off-policy evaluation</italic>. <italic>We think this is a natural result since</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mrow><mml:msubsup><mml:mover accent="true"><mml:mi> G </mml:mi><mml:mo> ˜ </mml:mo></mml:mover><mml:mi> t </mml:mi><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow></mml:msubsup></mml:mrow><mml:mo> | </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula><italic>is an on-policy algorithm exactly</italic>. <italic>Thus</italic>, <italic>in this paper</italic>, <italic>we mainly concern</italic> (10) <italic>for off-policy learning</italic>. </p>
      </sec>
      <sec id="sec2dot5">
        <title>2.5. Linear Function Approximation</title>
        <p>TD learning (3) requires a very huge table to store the estimate value function <inline-formula><mml:math><mml:mrow><mml:mi> Q </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mo> ⋅ </mml:mo><mml:mo> , </mml:mo><mml:mo> ⋅ </mml:mo></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> when <inline-formula><mml:math><mml:mrow><mml:mrow><mml:mo> | </mml:mo><mml:mi mathvariant="script"> S </mml:mi><mml:mo> | </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> is very large, which implies tabular TD learning is considerably expensive for high-dimensional RL. We often use a parametric function <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> Q </mml:mi><mml:mi> θ </mml:mi></mml:msub><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mo> ⋅ </mml:mo><mml:mo> , </mml:mo><mml:mo> ⋅ </mml:mo></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> to approximate </p>
        <disp-formula id="FD16">
          <label>(15)</label>
          <mml:math>
            <mml:mrow>
              <mml:msup>
                <mml:mi>q</mml:mi>
                <mml:mi>π</mml:mi>
              </mml:msup>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>s</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>a</mml:mi>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>≈</mml:mo>
              <mml:msup>
                <mml:mi>ϕ</mml:mi>
                <mml:mo>⊤</mml:mo>
              </mml:msup>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>s</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>a</mml:mi>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mi>θ</mml:mi>
              <mml:mo>=</mml:mo>
              <mml:mo>:</mml:mo>
              <mml:msub>
                <mml:mi>Q</mml:mi>
                <mml:mi>θ</mml:mi>
              </mml:msub>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>s</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>a</mml:mi>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>where <inline-formula><mml:math><mml:mrow><mml:mi> θ </mml:mi><mml:mo> ∈ </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mi> p </mml:mi></mml:msup></mml:mrow></mml:math></inline-formula> is the parameter need to be learned, <inline-formula><mml:math><mml:mrow><mml:mi> ϕ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> s </mml:mi><mml:mo> , </mml:mo><mml:mi> a </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> φ </mml:mi><mml:mn> 1 </mml:mn></mml:msub><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> s </mml:mi><mml:mo> , </mml:mo><mml:mi> a </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> , </mml:mo><mml:msub><mml:mi> φ </mml:mi><mml:mn> 2 </mml:mn></mml:msub><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> s </mml:mi><mml:mo> , </mml:mo><mml:mi> a </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> , </mml:mo><mml:mo> ⋯ </mml:mo><mml:mo> , </mml:mo><mml:msub><mml:mi> φ </mml:mi><mml:mi> p </mml:mi></mml:msub><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> s </mml:mi><mml:mo> , </mml:mo><mml:mi> a </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> ⊤ </mml:mo></mml:msup></mml:mrow></mml:math></inline-formula> , and each <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> φ </mml:mi><mml:mi> i </mml:mi></mml:msub><mml:mo> : </mml:mo><mml:mi mathvariant="script"> S </mml:mi><mml:mo> × </mml:mo><mml:mi mathvariant="script"> A </mml:mi><mml:mo> → </mml:mo><mml:mi> ℝ </mml:mi></mml:mrow></mml:math></inline-formula> . Furthermore, <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> Q </mml:mi><mml:mi> θ </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> can be rewritten as a version of matrix </p>
        <disp-formula id="FD17">
          <label>(16)</label>
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>Q</mml:mi>
                <mml:mi>θ</mml:mi>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:mi>Φ</mml:mi>
              <mml:mi>θ</mml:mi>
              <mml:mo>≈</mml:mo>
              <mml:msup>
                <mml:mi>q</mml:mi>
                <mml:mi>π</mml:mi>
              </mml:msup>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>where <inline-formula><mml:math><mml:mi> Φ </mml:mi></mml:math></inline-formula> is a matrix whose rows are the state-action feature vectors <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> ϕ </mml:mi><mml:mo> ⊤ </mml:mo></mml:msup><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> s </mml:mi><mml:mo> , </mml:mo><mml:mi> a </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> .</p>
      </sec>
    </sec>
    <sec id="sec3">
      <title>
        3. Divergence of
        <inline-formula>
          <mml:math display="inline">
            <mml:mrow>
              <mml:mi>Q</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>σ</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>λ</mml:mi>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
            </mml:mrow>
          </mml:math>
        </inline-formula>
        with Semi-Gradient
      </title>
      <p>In this section, firstly, we derive the semi-gradient <inline-formula><mml:math><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> algorithm; then we briefly analyze the divergence of extending <inline-formula><mml:math><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> (10) with semi-gradient method. In fact, the divergence of semi-gradient off-policy TD methods are well-documented in the literature (e.g., [<xref ref-type="bibr" rid="B8">8</xref>][<xref ref-type="bibr" rid="B12">12</xref>][<xref ref-type="bibr" rid="B13">13</xref>]), which are not specific to <inline-formula><mml:math><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> .</p>
      <sec id="sec3dot1">
        <title>
          3.1. Semi-Gradient
          <inline-formula>
            <mml:math display="inline">
              <mml:mrow>
                <mml:mi>Q</mml:mi>
                <mml:mrow>
                  <mml:mo>(</mml:mo>
                  <mml:mrow>
                    <mml:mi>σ</mml:mi>
                    <mml:mo>,</mml:mo>
                    <mml:mi>λ</mml:mi>
                  </mml:mrow>
                  <mml:mo>)</mml:mo>
                </mml:mrow>
              </mml:mrow>
            </mml:math>
          </inline-formula>
        </title>
        <p>Recall <inline-formula><mml:math><mml:mrow><mml:mi> τ </mml:mi><mml:mo> = </mml:mo><mml:msub><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> S </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> A </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> R </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> + </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> t </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> is generated by behavior policy <inline-formula><mml:math><mml:mi> μ </mml:mi></mml:math></inline-formula> , let <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> ϕ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> = </mml:mo><mml:mi> ϕ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> S </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> A </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , we define semi-gradient <inline-formula><mml:math><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> as follows: </p>
        <disp-formula id="FD18">
          <label>(17)</label>
          <mml:math>
            <mml:mtable>
              <mml:mtr>
                <mml:mtd>
                  <mml:msub>
                    <mml:mi>θ</mml:mi>
                    <mml:mrow>
                      <mml:mi>t</mml:mi>
                      <mml:mo>+</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                  </mml:msub>
                  <mml:mo>=</mml:mo>
                  <mml:msub>
                    <mml:mi>θ</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>−</mml:mo>
                  <mml:msub>
                    <mml:mrow>
                      <mml:mrow>
                        <mml:msub>
                          <mml:mi>α</mml:mi>
                          <mml:mi>t</mml:mi>
                        </mml:msub>
                        <mml:msub>
                          <mml:mo>∇</mml:mo>
                          <mml:mi>θ</mml:mi>
                        </mml:msub>
                        <mml:msup>
                          <mml:mrow>
                            <mml:mrow>
                              <mml:mo>(</mml:mo>
                              <mml:mrow>
                                <mml:msubsup>
                                  <mml:mi>G</mml:mi>
                                  <mml:mi>t</mml:mi>
                                  <mml:mi>λ</mml:mi>
                                </mml:msubsup>
                                <mml:mrow>
                                  <mml:mo>(</mml:mo>
                                  <mml:mi>θ</mml:mi>
                                  <mml:mo>)</mml:mo>
                                </mml:mrow>
                                <mml:mo>−</mml:mo>
                                <mml:msup>
                                  <mml:mi>θ</mml:mi>
                                  <mml:mo>⊤</mml:mo>
                                </mml:msup>
                                <mml:msub>
                                  <mml:mi>ϕ</mml:mi>
                                  <mml:mi>t</mml:mi>
                                </mml:msub>
                              </mml:mrow>
                              <mml:mo>)</mml:mo>
                            </mml:mrow>
                          </mml:mrow>
                          <mml:mn>2</mml:mn>
                        </mml:msup>
                      </mml:mrow>
                      <mml:mo>|</mml:mo>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mi>θ</mml:mi>
                      <mml:mo>=</mml:mo>
                      <mml:msub>
                        <mml:mi>θ</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                  </mml:msub>
                </mml:mtd>
              </mml:mtr>
              <mml:mtr>
                <mml:mtd>
                  <mml:mo>=</mml:mo>
                  <mml:msub>
                    <mml:mi>θ</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>−</mml:mo>
                  <mml:msub>
                    <mml:mrow>
                      <mml:mrow>
                        <mml:msub>
                          <mml:mi>α</mml:mi>
                          <mml:mi>t</mml:mi>
                        </mml:msub>
                        <mml:mrow>
                          <mml:mo>(</mml:mo>
                          <mml:mrow>
                            <mml:msubsup>
                              <mml:mi>G</mml:mi>
                              <mml:mi>t</mml:mi>
                              <mml:mi>λ</mml:mi>
                            </mml:msubsup>
                            <mml:mrow>
                              <mml:mo>(</mml:mo>
                              <mml:mrow>
                                <mml:msub>
                                  <mml:mi>θ</mml:mi>
                                  <mml:mi>t</mml:mi>
                                </mml:msub>
                              </mml:mrow>
                              <mml:mo>)</mml:mo>
                            </mml:mrow>
                            <mml:mo>−</mml:mo>
                            <mml:msubsup>
                              <mml:mi>θ</mml:mi>
                              <mml:mi>t</mml:mi>
                              <mml:mo>⊤</mml:mo>
                            </mml:msubsup>
                            <mml:msub>
                              <mml:mi>ϕ</mml:mi>
                              <mml:mi>t</mml:mi>
                            </mml:msub>
                          </mml:mrow>
                          <mml:mo>)</mml:mo>
                        </mml:mrow>
                        <mml:msub>
                          <mml:mo>∇</mml:mo>
                          <mml:mi>θ</mml:mi>
                        </mml:msub>
                        <mml:mrow>
                          <mml:mo>(</mml:mo>
                          <mml:mrow>
                            <mml:mo>−</mml:mo>
                            <mml:msub>
                              <mml:mi>Q</mml:mi>
                              <mml:mi>θ</mml:mi>
                            </mml:msub>
                            <mml:mrow>
                              <mml:mo>(</mml:mo>
                              <mml:mrow>
                                <mml:msub>
                                  <mml:mi>S</mml:mi>
                                  <mml:mi>t</mml:mi>
                                </mml:msub>
                                <mml:mo>,</mml:mo>
                                <mml:msub>
                                  <mml:mi>A</mml:mi>
                                  <mml:mi>t</mml:mi>
                                </mml:msub>
                              </mml:mrow>
                              <mml:mo>)</mml:mo>
                            </mml:mrow>
                          </mml:mrow>
                          <mml:mo>)</mml:mo>
                        </mml:mrow>
                      </mml:mrow>
                      <mml:mo>|</mml:mo>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mi>θ</mml:mi>
                      <mml:mo>=</mml:mo>
                      <mml:msub>
                        <mml:mi>θ</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                  </mml:msub>
                </mml:mtd>
              </mml:mtr>
              <mml:mtr>
                <mml:mtd>
                  <mml:mo>=</mml:mo>
                  <mml:msub>
                    <mml:mi>θ</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>+</mml:mo>
                  <mml:msub>
                    <mml:mi>α</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:munderover>
                        <mml:mstyle mathsize="140%" displaystyle="true">
                          <mml:mo>∑</mml:mo>
                        </mml:mstyle>
                        <mml:mrow>
                          <mml:mi>k</mml:mi>
                          <mml:mo>=</mml:mo>
                          <mml:mi>t</mml:mi>
                        </mml:mrow>
                        <mml:mi>∞</mml:mi>
                      </mml:munderover>
                      <mml:mtext>
                         
                      </mml:mtext>
                      <mml:msubsup>
                        <mml:mi>δ</mml:mi>
                        <mml:mi>k</mml:mi>
                        <mml:mrow>
                          <mml:mtext>ES</mml:mtext>
                        </mml:mrow>
                      </mml:msubsup>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mi>θ</mml:mi>
                            <mml:mi>t</mml:mi>
                          </mml:msub>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                      <mml:munderover>
                        <mml:mstyle mathsize="140%" displaystyle="true">
                          <mml:mo>∏</mml:mo>
                        </mml:mstyle>
                        <mml:mrow>
                          <mml:mi>i</mml:mi>
                          <mml:mo>=</mml:mo>
                          <mml:mi>t</mml:mi>
                          <mml:mo>+</mml:mo>
                          <mml:mn>1</mml:mn>
                        </mml:mrow>
                        <mml:mi>k</mml:mi>
                      </mml:munderover>
                      <mml:mtext>
                         
                      </mml:mtext>
                      <mml:mi>γ</mml:mi>
                      <mml:mi>λ</mml:mi>
                      <mml:msub>
                        <mml:mi>c</mml:mi>
                        <mml:mrow>
                          <mml:mi>i</mml:mi>
                          <mml:mo>,</mml:mo>
                          <mml:mi>σ</mml:mi>
                        </mml:mrow>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:msub>
                    <mml:mi>ϕ</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>,</mml:mo>
                </mml:mtd>
              </mml:mtr>
            </mml:mtable>
          </mml:math>
        </disp-formula>
        <p>where </p>
        <disp-formula id="FD19">
          <mml:math>
            <mml:mrow>
              <mml:msubsup>
                <mml:mi>G</mml:mi>
                <mml:mi>t</mml:mi>
                <mml:mi>λ</mml:mi>
              </mml:msubsup>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>θ</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:msubsup>
                <mml:mi>θ</mml:mi>
                <mml:mi>t</mml:mi>
                <mml:mo>⊤</mml:mo>
              </mml:msubsup>
              <mml:msub>
                <mml:mi>ϕ</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>+</mml:mo>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∑</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>k</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mi>t</mml:mi>
                </mml:mrow>
                <mml:mi>∞</mml:mi>
              </mml:munderover>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:msubsup>
                <mml:mi>δ</mml:mi>
                <mml:mi>k</mml:mi>
                <mml:mrow>
                  <mml:mtext>ES</mml:mtext>
                </mml:mrow>
              </mml:msubsup>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>θ</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∏</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>i</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mi>t</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
                <mml:mi>k</mml:mi>
              </mml:munderover>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mi>γ</mml:mi>
              <mml:mi>λ</mml:mi>
              <mml:msub>
                <mml:mi>c</mml:mi>
                <mml:mrow>
                  <mml:mi>i</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>σ</mml:mi>
                </mml:mrow>
              </mml:msub>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>is an off-line estimator of value function according to Equation (10), TD error <inline-formula><mml:math><mml:mrow><mml:msubsup><mml:mi> δ </mml:mi><mml:mi> k </mml:mi><mml:mrow><mml:mtext> ES </mml:mtext></mml:mrow></mml:msubsup><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:msub><mml:mi> R </mml:mi><mml:mrow><mml:mi> k </mml:mi><mml:mo> + </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub><mml:mo> + </mml:mo><mml:mi> γ </mml:mi><mml:msub><mml:mi mathvariant="double-struck"> E </mml:mi><mml:mi> π </mml:mi></mml:msub><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:msubsup><mml:mi> θ </mml:mi><mml:mi> t </mml:mi><mml:mo> ⊤ </mml:mo></mml:msubsup><mml:mi> ϕ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> S </mml:mi><mml:mrow><mml:mi> k </mml:mi><mml:mo> + </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub><mml:mo> , </mml:mo><mml:mo> ⋅ </mml:mo></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> ] </mml:mo></mml:mrow><mml:mo> − </mml:mo><mml:msubsup><mml:mi> θ </mml:mi><mml:mi> t </mml:mi><mml:mo> ⊤ </mml:mo></mml:msubsup><mml:msub><mml:mi> ϕ </mml:mi><mml:mi> k </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> , and <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> α </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> is step-size. Let </p>
        <disp-formula id="FD20">
          <label>(18)</label>
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>A</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>ϕ</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∑</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>k</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mi>t</mml:mi>
                </mml:mrow>
                <mml:mi>∞</mml:mi>
              </mml:munderover>
              <mml:msup>
                <mml:mrow>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mi>γ</mml:mi>
                      <mml:msub>
                        <mml:mi mathvariant="double-struck">E</mml:mi>
                        <mml:mi>π</mml:mi>
                      </mml:msub>
                      <mml:mrow>
                        <mml:mo>[</mml:mo>
                        <mml:mrow>
                          <mml:mi>ϕ</mml:mi>
                          <mml:mrow>
                            <mml:mo>(</mml:mo>
                            <mml:mrow>
                              <mml:msub>
                                <mml:mi>S</mml:mi>
                                <mml:mrow>
                                  <mml:mi>k</mml:mi>
                                  <mml:mo>+</mml:mo>
                                  <mml:mn>1</mml:mn>
                                </mml:mrow>
                              </mml:msub>
                              <mml:mo>,</mml:mo>
                              <mml:mo>⋅</mml:mo>
                            </mml:mrow>
                            <mml:mo>)</mml:mo>
                          </mml:mrow>
                        </mml:mrow>
                        <mml:mo>]</mml:mo>
                      </mml:mrow>
                      <mml:mo>−</mml:mo>
                      <mml:msub>
                        <mml:mi>ϕ</mml:mi>
                        <mml:mi>k</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mo>⊤</mml:mo>
              </mml:msup>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∏</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>i</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mi>t</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
                <mml:mi>k</mml:mi>
              </mml:munderover>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mi>γ</mml:mi>
              <mml:mi>λ</mml:mi>
              <mml:msub>
                <mml:mi>c</mml:mi>
                <mml:mrow>
                  <mml:mi>i</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>σ</mml:mi>
                </mml:mrow>
              </mml:msub>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <disp-formula id="FD21">
          <label>(19)</label>
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>b</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>ϕ</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∑</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>k</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mi>t</mml:mi>
                </mml:mrow>
                <mml:mi>∞</mml:mi>
              </mml:munderover>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:msub>
                <mml:mi>R</mml:mi>
                <mml:mrow>
                  <mml:mi>k</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msub>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∏</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>i</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mi>t</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
                <mml:mi>k</mml:mi>
              </mml:munderover>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mi>γ</mml:mi>
              <mml:mi>λ</mml:mi>
              <mml:msub>
                <mml:mi>c</mml:mi>
                <mml:mrow>
                  <mml:mi>i</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>σ</mml:mi>
                </mml:mrow>
              </mml:msub>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>Then update (17) can be rewritten as follows, </p>
        <disp-formula id="FD22">
          <label>(20)</label>
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>θ</mml:mi>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>θ</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>+</mml:mo>
              <mml:msub>
                <mml:mi>α</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>A</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:msub>
                    <mml:mi>θ</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>+</mml:mo>
                  <mml:msub>
                    <mml:mi>b</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>Furthermore, we have </p>
        <disp-formula id="FD23">
          <label>(21)</label>
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>A</mml:mi>
                <mml:mi>σ</mml:mi>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:mo>:</mml:mo>
              <mml:msub>
                <mml:mi mathvariant="double-struck">E</mml:mi>
                <mml:mi>μ</mml:mi>
              </mml:msub>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>A</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:msup>
                <mml:mi>Φ</mml:mi>
                <mml:mo>⊤</mml:mo>
              </mml:msup>
              <mml:mi>Ξ</mml:mi>
              <mml:msubsup>
                <mml:mi>P</mml:mi>
                <mml:mi>σ</mml:mi>
                <mml:mrow>
                  <mml:mi>π</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>μ</mml:mi>
                </mml:mrow>
              </mml:msubsup>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>γ</mml:mi>
                  <mml:msup>
                    <mml:mi>P</mml:mi>
                    <mml:mi>π</mml:mi>
                  </mml:msup>
                  <mml:mo>−</mml:mo>
                  <mml:mi>I</mml:mi>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mi>Φ</mml:mi>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <disp-formula id="FD24">
          <label>(22)</label>
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>b</mml:mi>
                <mml:mi>σ</mml:mi>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:mo>:</mml:mo>
              <mml:msub>
                <mml:mi mathvariant="double-struck">E</mml:mi>
                <mml:mi>μ</mml:mi>
              </mml:msub>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>b</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:msup>
                <mml:mi>Φ</mml:mi>
                <mml:mo>⊤</mml:mo>
              </mml:msup>
              <mml:mi>Ξ</mml:mi>
              <mml:msubsup>
                <mml:mi>P</mml:mi>
                <mml:mi>σ</mml:mi>
                <mml:mrow>
                  <mml:mi>π</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>μ</mml:mi>
                </mml:mrow>
              </mml:msubsup>
              <mml:mi>R</mml:mi>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <disp-formula id="FD25">
          <mml:math>
            <mml:mrow>
              <mml:msubsup>
                <mml:mi>P</mml:mi>
                <mml:mi>σ</mml:mi>
                <mml:mrow>
                  <mml:mi>π</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>μ</mml:mi>
                </mml:mrow>
              </mml:msubsup>
              <mml:mo>=</mml:mo>
              <mml:mi>σ</mml:mi>
              <mml:msup>
                <mml:mrow>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mi>I</mml:mi>
                      <mml:mo>−</mml:mo>
                      <mml:mi>λ</mml:mi>
                      <mml:mi>γ</mml:mi>
                      <mml:msup>
                        <mml:mi>P</mml:mi>
                        <mml:mi>π</mml:mi>
                      </mml:msup>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mrow>
                  <mml:mo>−</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msup>
              <mml:mo>+</mml:mo>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mn>1</mml:mn>
                  <mml:mo>−</mml:mo>
                  <mml:mi>σ</mml:mi>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:msup>
                <mml:mrow>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mi>I</mml:mi>
                      <mml:mo>−</mml:mo>
                      <mml:mi>λ</mml:mi>
                      <mml:mi>γ</mml:mi>
                      <mml:msup>
                        <mml:mi>P</mml:mi>
                        <mml:mrow>
                          <mml:mi>π</mml:mi>
                          <mml:mo>,</mml:mo>
                          <mml:mi>μ</mml:mi>
                        </mml:mrow>
                      </mml:msup>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mrow>
                  <mml:mo>−</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msup>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
      </sec>
      <sec id="sec3dot2">
        <title>3.2. Divergence Analysis</title>
        <p>Now, we only briefly discuss the divergence lies in the iteration (17). Under the conditions of Proposition 4.8 presented by Bertsekas and Tsitsiklis [<xref ref-type="bibr" rid="B14">14</xref>], <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> t </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> (17) converges to a certain point if and only if <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> A </mml:mi><mml:mi> σ </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> is a negative matrix. Furthermore, if iteration (17) converges, then it converges to its unique <italic>TD fixed point</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mo> ⋆ </mml:mo></mml:msub></mml:mrow></mml:math></inline-formula> that satisfes </p>
        <disp-formula id="FD26">
          <label>(23)</label>
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>A</mml:mi>
                <mml:mi>σ</mml:mi>
              </mml:msub>
              <mml:msub>
                <mml:mi>θ</mml:mi>
                <mml:mo>⋆</mml:mo>
              </mml:msub>
              <mml:mo>+</mml:mo>
              <mml:msub>
                <mml:mi>b</mml:mi>
                <mml:mi>σ</mml:mi>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:mn>0.</mml:mn>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>Unfortunately, since the steady state-action distribution doesn’t match the transition probability during off-policy learning, we can not guarantee the negative definiteness of <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> A </mml:mi><mml:mi> σ </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> , thus <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> t </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> may diverge. To clarify this point, we use the classic counterexample [<xref ref-type="bibr" rid="B12">12</xref>] to show the divergence of semi-gradient TD algorithms (17) for off-policy learning.</p>
        <fig id="fig1">
          <label>Figure 1</label>
          <graphic xlink:href="https://html.scirp.org/file/1724755-rId469.jpeg?20260624025731" />
        </fig>
        <p><bold>Figure 1</bold><bold>.</bold> Counterexample from [<xref ref-type="bibr" rid="B12">12</xref>]: Two-State MDP.</p>
        <p>For the MDP in <xref ref-type="fig" rid="fig1">Figure 1</xref>, the behavior policy <inline-formula><mml:math><mml:mrow><mml:mi> μ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mtext> right </mml:mtext><mml:mo> | </mml:mo><mml:mo> ⋅ </mml:mo></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:mn> 0.5 </mml:mn></mml:mrow></mml:math></inline-formula> , and target policy <inline-formula><mml:math><mml:mrow><mml:mi> π </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mtext> right </mml:mtext><mml:mo> | </mml:mo><mml:mo> ⋅ </mml:mo></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> . We assign the features <inline-formula><mml:math><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 1 </mml:mn><mml:mo> , </mml:mo><mml:mn> 0 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> ⊤ </mml:mo></mml:msup><mml:mo> , </mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 2 </mml:mn><mml:mo> , </mml:mo><mml:mn> 0 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> ⊤ </mml:mo></mml:msup><mml:mo> , </mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> ⊤ </mml:mo></mml:msup><mml:mo> , </mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 2 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> ⊤ </mml:mo></mml:msup></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> to the state-action pairs <inline-formula><mml:math><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> s </mml:mi><mml:mn> 1 </mml:mn></mml:msub><mml:mo> , </mml:mo><mml:mtext> right </mml:mtext></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> , </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> s </mml:mi><mml:mn> 2 </mml:mn></mml:msub><mml:mo> , </mml:mo><mml:mtext> right </mml:mtext></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> , </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> s </mml:mi><mml:mn> 1 </mml:mn></mml:msub><mml:mo> , </mml:mo><mml:mtext> left </mml:mtext></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> , </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> s </mml:mi><mml:mn> 2 </mml:mn></mml:msub><mml:mo> , </mml:mo><mml:mtext> left </mml:mtext></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , From the dynamic transition shown in <xref ref-type="fig" rid="fig1">Figure 1</xref>, we have </p>
        <disp-formula id="FD27">
          <mml:math>
            <mml:mrow>
              <mml:msup>
                <mml:mi>P</mml:mi>
                <mml:mi>π</mml:mi>
              </mml:msup>
              <mml:mo>=</mml:mo>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mtable columnalign="left">
                    <mml:mtr columnalign="left">
                      <mml:mtd columnalign="left">
                        <mml:mn>0</mml:mn>
                      </mml:mtd>
                      <mml:mtd columnalign="left">
                        <mml:mn>1</mml:mn>
                      </mml:mtd>
                      <mml:mtd columnalign="left">
                        <mml:mn>0</mml:mn>
                      </mml:mtd>
                      <mml:mtd columnalign="left">
                        <mml:mn>0</mml:mn>
                      </mml:mtd>
                    </mml:mtr>
                    <mml:mtr columnalign="left">
                      <mml:mtd columnalign="left">
                        <mml:mn>0</mml:mn>
                      </mml:mtd>
                      <mml:mtd columnalign="left">
                        <mml:mn>1</mml:mn>
                      </mml:mtd>
                      <mml:mtd columnalign="left">
                        <mml:mn>0</mml:mn>
                      </mml:mtd>
                      <mml:mtd columnalign="left">
                        <mml:mn>0</mml:mn>
                      </mml:mtd>
                    </mml:mtr>
                    <mml:mtr columnalign="left">
                      <mml:mtd columnalign="left">
                        <mml:mn>1</mml:mn>
                      </mml:mtd>
                      <mml:mtd columnalign="left">
                        <mml:mn>0</mml:mn>
                      </mml:mtd>
                      <mml:mtd columnalign="left">
                        <mml:mn>0</mml:mn>
                      </mml:mtd>
                      <mml:mtd columnalign="left">
                        <mml:mn>0</mml:mn>
                      </mml:mtd>
                    </mml:mtr>
                    <mml:mtr columnalign="left">
                      <mml:mtd columnalign="left">
                        <mml:mn>1</mml:mn>
                      </mml:mtd>
                      <mml:mtd columnalign="left">
                        <mml:mn>0</mml:mn>
                      </mml:mtd>
                      <mml:mtd columnalign="left">
                        <mml:mn>0</mml:mn>
                      </mml:mtd>
                      <mml:mtd columnalign="left">
                        <mml:mn>0</mml:mn>
                      </mml:mtd>
                    </mml:mtr>
                  </mml:mtable>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
              <mml:mi>Φ</mml:mi>
              <mml:mo>=</mml:mo>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mtable columnalign="left">
                    <mml:mtr columnalign="left">
                      <mml:mtd columnalign="left">
                        <mml:mn>1</mml:mn>
                      </mml:mtd>
                      <mml:mtd columnalign="left">
                        <mml:mn>0</mml:mn>
                      </mml:mtd>
                    </mml:mtr>
                    <mml:mtr columnalign="left">
                      <mml:mtd columnalign="left">
                        <mml:mn>2</mml:mn>
                      </mml:mtd>
                      <mml:mtd columnalign="left">
                        <mml:mn>0</mml:mn>
                      </mml:mtd>
                    </mml:mtr>
                    <mml:mtr columnalign="left">
                      <mml:mtd columnalign="left">
                        <mml:mn>0</mml:mn>
                      </mml:mtd>
                      <mml:mtd columnalign="left">
                        <mml:mn>1</mml:mn>
                      </mml:mtd>
                    </mml:mtr>
                    <mml:mtr columnalign="left">
                      <mml:mtd columnalign="left">
                        <mml:mn>0</mml:mn>
                      </mml:mtd>
                      <mml:mtd columnalign="left">
                        <mml:mn>2</mml:mn>
                      </mml:mtd>
                    </mml:mtr>
                  </mml:mtable>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
              <mml:mi>Ξ</mml:mi>
              <mml:mo>=</mml:mo>
              <mml:mfrac>
                <mml:mn>1</mml:mn>
                <mml:mn>2</mml:mn>
              </mml:mfrac>
              <mml:msub>
                <mml:mi>I</mml:mi>
                <mml:mrow>
                  <mml:mn>4</mml:mn>
                  <mml:mo>×</mml:mo>
                  <mml:mn>4</mml:mn>
                </mml:mrow>
              </mml:msub>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>Then, according to (21), we have </p>
        <disp-formula id="FD28">
          <mml:math>
            <mml:mtable>
              <mml:mtr>
                <mml:mtd>
                  <mml:msub>
                    <mml:mi>A</mml:mi>
                    <mml:mi>σ</mml:mi>
                  </mml:msub>
                  <mml:mo>=</mml:mo>
                  <mml:msup>
                    <mml:mi>Φ</mml:mi>
                    <mml:mo>⊤</mml:mo>
                  </mml:msup>
                  <mml:mi>Ξ</mml:mi>
                  <mml:msubsup>
                    <mml:mi>P</mml:mi>
                    <mml:mi>σ</mml:mi>
                    <mml:mrow>
                      <mml:mi>π</mml:mi>
                      <mml:mo>,</mml:mo>
                      <mml:mi>μ</mml:mi>
                    </mml:mrow>
                  </mml:msubsup>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mi>γ</mml:mi>
                      <mml:msup>
                        <mml:mi>P</mml:mi>
                        <mml:mi>π</mml:mi>
                      </mml:msup>
                      <mml:mo>−</mml:mo>
                      <mml:mi>I</mml:mi>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mi>Φ</mml:mi>
                </mml:mtd>
              </mml:mtr>
              <mml:mtr>
                <mml:mtd>
                  <mml:mo>=</mml:mo>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mtable>
                        <mml:mtr>
                          <mml:mtd>
                            <mml:mrow>
                              <mml:mfrac>
                                <mml:mrow>
                                  <mml:mn>6</mml:mn>
                                  <mml:mrow>
                                    <mml:mo>(</mml:mo>
                                    <mml:mrow>
                                      <mml:mn>2</mml:mn>
                                      <mml:mo>−</mml:mo>
                                      <mml:mi>σ</mml:mi>
                                    </mml:mrow>
                                    <mml:mo>)</mml:mo>
                                  </mml:mrow>
                                  <mml:mi>γ</mml:mi>
                                  <mml:mo>−</mml:mo>
                                  <mml:mi>γ</mml:mi>
                                  <mml:mi>λ</mml:mi>
                                  <mml:mo>−</mml:mo>
                                  <mml:mn>5</mml:mn>
                                  <mml:mrow>
                                    <mml:mo>(</mml:mo>
                                    <mml:mrow>
                                      <mml:mn>2</mml:mn>
                                      <mml:mo>−</mml:mo>
                                      <mml:mi>σ</mml:mi>
                                    </mml:mrow>
                                    <mml:mo>)</mml:mo>
                                  </mml:mrow>
                                </mml:mrow>
                                <mml:mrow>
                                  <mml:mn>2</mml:mn>
                                  <mml:mrow>
                                    <mml:mo>(</mml:mo>
                                    <mml:mrow>
                                      <mml:mn>1</mml:mn>
                                      <mml:mo>−</mml:mo>
                                      <mml:mi>γ</mml:mi>
                                      <mml:mi>λ</mml:mi>
                                    </mml:mrow>
                                    <mml:mo>)</mml:mo>
                                  </mml:mrow>
                                </mml:mrow>
                              </mml:mfrac>
                            </mml:mrow>
                          </mml:mtd>
                          <mml:mtd>
                            <mml:mn>0</mml:mn>
                          </mml:mtd>
                        </mml:mtr>
                        <mml:mtr>
                          <mml:mtd>
                            <mml:mrow>
                              <mml:mfrac>
                                <mml:mrow>
                                  <mml:mn>3</mml:mn>
                                  <mml:mi>γ</mml:mi>
                                </mml:mrow>
                                <mml:mn>2</mml:mn>
                              </mml:mfrac>
                            </mml:mrow>
                          </mml:mtd>
                          <mml:mtd>
                            <mml:mrow>
                              <mml:mo>−</mml:mo>
                              <mml:mn>5</mml:mn>
                              <mml:mrow>
                                <mml:mo>(</mml:mo>
                                <mml:mrow>
                                  <mml:mn>1</mml:mn>
                                  <mml:mo>−</mml:mo>
                                  <mml:mfrac>
                                    <mml:mi>σ</mml:mi>
                                    <mml:mn>2</mml:mn>
                                  </mml:mfrac>
                                </mml:mrow>
                                <mml:mo>)</mml:mo>
                              </mml:mrow>
                            </mml:mrow>
                          </mml:mtd>
                        </mml:mtr>
                      </mml:mtable>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mo>,</mml:mo>
                </mml:mtd>
              </mml:mtr>
            </mml:mtable>
          </mml:math>
        </disp-formula>
        <p>and the eigenvalues of <inline-formula><mml:math><mml:mi> A </mml:mi></mml:math></inline-formula> are: <inline-formula><mml:math><mml:mrow><mml:mfrac><mml:mrow><mml:mn> 6 </mml:mn><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 2 </mml:mn><mml:mo> − </mml:mo><mml:mi> σ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mi> γ </mml:mi><mml:mo> − </mml:mo><mml:mi> γ </mml:mi><mml:mi> λ </mml:mi><mml:mo> − </mml:mo><mml:mn> 5 </mml:mn><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 2 </mml:mn><mml:mo> − </mml:mo><mml:mi> σ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mn> 2 </mml:mn><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 1 </mml:mn><mml:mo> − </mml:mo><mml:mi> γ </mml:mi><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:mfrac></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:mo> − </mml:mo><mml:mn> 5 </mml:mn><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 1 </mml:mn><mml:mo> − </mml:mo><mml:mfrac><mml:mi> σ </mml:mi><mml:mn> 2 </mml:mn></mml:mfrac></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> . For any initial <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mn> 0 </mml:mn></mml:msub><mml:mo> = </mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mtable columnalign="left"><mml:mtr columnalign="left"><mml:mtd columnalign="left"><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> θ </mml:mi><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 2 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:mtd></mml:mtr></mml:mtable></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> ⊤ </mml:mo></mml:msup></mml:mrow></mml:math></inline-formula> , let <inline-formula><mml:math><mml:mrow><mml:mi mathvariant="double-struck"> E </mml:mi><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> + </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo> ] </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:mo> : </mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> + </mml:mo><mml:mn> 1 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> θ </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> + </mml:mo><mml:mn> 1 </mml:mn><mml:mo> , </mml:mo><mml:mn> 2 </mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> ⊤ </mml:mo></mml:msup></mml:mrow></mml:math></inline-formula> , according to (20), the first component of the term <inline-formula><mml:math><mml:mrow><mml:mi mathvariant="double-struck"> E </mml:mi><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> + </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub><mml:mo> | </mml:mo><mml:msub><mml:mi> θ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ] </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> is: </p>
        <disp-formula id="FD29">
          <label>(24)</label>
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>θ</mml:mi>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mn>1</mml:mn>
                  <mml:mo>,</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>θ</mml:mi>
                <mml:mrow>
                  <mml:mn>0</mml:mn>
                  <mml:mo>,</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msub>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∏</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>i</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mn>0</mml:mn>
                </mml:mrow>
                <mml:mi>t</mml:mi>
              </mml:munderover>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mn>1</mml:mn>
                  <mml:mo>+</mml:mo>
                  <mml:msub>
                    <mml:mi>α</mml:mi>
                    <mml:mi>i</mml:mi>
                  </mml:msub>
                  <mml:mfrac>
                    <mml:mrow>
                      <mml:mn>6</mml:mn>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:mn>2</mml:mn>
                          <mml:mo>−</mml:mo>
                          <mml:mi>σ</mml:mi>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                      <mml:mi>γ</mml:mi>
                      <mml:mo>−</mml:mo>
                      <mml:mi>γ</mml:mi>
                      <mml:mi>λ</mml:mi>
                      <mml:mo>−</mml:mo>
                      <mml:mn>5</mml:mn>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:mn>2</mml:mn>
                          <mml:mo>−</mml:mo>
                          <mml:mi>σ</mml:mi>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mn>2</mml:mn>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:mn>1</mml:mn>
                          <mml:mo>−</mml:mo>
                          <mml:mi>γ</mml:mi>
                          <mml:mi>λ</mml:mi>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                  </mml:mfrac>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>For any <inline-formula><mml:math><mml:mrow><mml:mi> λ </mml:mi><mml:mo> ∈ </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , if <inline-formula><mml:math><mml:mrow><mml:mi> γ </mml:mi><mml:mo> ∈ </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mfrac><mml:mrow><mml:mn> 10 </mml:mn><mml:mo> − </mml:mo><mml:mn> 5 </mml:mn><mml:mi> σ </mml:mi></mml:mrow><mml:mrow><mml:mn> 12 </mml:mn><mml:mo> − </mml:mo><mml:mn> 6 </mml:mn><mml:mi> σ </mml:mi><mml:mo> − </mml:mo><mml:mi> λ </mml:mi></mml:mrow></mml:mfrac><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , then <inline-formula><mml:math><mml:mrow><mml:mfrac><mml:mrow><mml:mn> 6 </mml:mn><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 2 </mml:mn><mml:mo> − </mml:mo><mml:mi> σ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mi> γ </mml:mi><mml:mo> − </mml:mo><mml:mi> γ </mml:mi><mml:mi> λ </mml:mi><mml:mo> − </mml:mo><mml:mn> 5 </mml:mn><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 2 </mml:mn><mml:mo> − </mml:mo><mml:mi> σ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mn> 2 </mml:mn><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 1 </mml:mn><mml:mo> − </mml:mo><mml:mi> γ </mml:mi><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:mfrac></mml:mrow></mml:math></inline-formula> is a positive scalar, which implies <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> A </mml:mi><mml:mi> σ </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> can not be a negative matrix. Furthermore, if step size <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> α </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> : </mml:mo><mml:mstyle displaystyle="true"><mml:msub><mml:mo> ∑ </mml:mo><mml:mrow><mml:mi> i </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub><mml:mrow><mml:msub><mml:mi> α </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:mstyle><mml:mo> = </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow></mml:math></inline-formula> , we have </p>
        <disp-formula id="FD30">
          <label>(25)</label>
          <mml:math>
            <mml:mrow>
              <mml:mrow>
                <mml:mo>|</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>θ</mml:mi>
                    <mml:mrow>
                      <mml:mi>t</mml:mi>
                      <mml:mo>+</mml:mo>
                      <mml:mn>1</mml:mn>
                      <mml:mo>,</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>|</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mrow>
                <mml:mo>|</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>θ</mml:mi>
                    <mml:mrow>
                      <mml:mn>0</mml:mn>
                      <mml:mo>,</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>|</mml:mo>
              </mml:mrow>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∏</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>i</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mn>0</mml:mn>
                </mml:mrow>
                <mml:mi>t</mml:mi>
              </mml:munderover>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mfrac>
                    <mml:mrow>
                      <mml:mn>6</mml:mn>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:mn>2</mml:mn>
                          <mml:mo>−</mml:mo>
                          <mml:mi>σ</mml:mi>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                      <mml:mi>γ</mml:mi>
                      <mml:mo>−</mml:mo>
                      <mml:mi>γ</mml:mi>
                      <mml:mi>λ</mml:mi>
                      <mml:mo>−</mml:mo>
                      <mml:mn>5</mml:mn>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:mn>2</mml:mn>
                          <mml:mo>−</mml:mo>
                          <mml:mi>σ</mml:mi>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mn>2</mml:mn>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:mn>1</mml:mn>
                          <mml:mo>−</mml:mo>
                          <mml:mi>γ</mml:mi>
                          <mml:mi>λ</mml:mi>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                  </mml:mfrac>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>→</mml:mo>
              <mml:mo>+</mml:mo>
              <mml:mi>∞</mml:mi>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>Equation (25) is a direct result of the following conclusion that could be found in any calculus textbook. Let <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> p </mml:mi><mml:mi> i </mml:mi></mml:msub><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn><mml:mo> + </mml:mo><mml:msub><mml:mi> a </mml:mi><mml:mi> i </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> , where <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> a </mml:mi><mml:mi> i </mml:mi></mml:msub><mml:mo> &gt; </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , if <inline-formula><mml:math><mml:mrow><mml:mstyle displaystyle="true"><mml:msubsup><mml:mo> ∑ </mml:mo><mml:mrow><mml:mi> i </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mi> ∞ </mml:mi></mml:msubsup><mml:mrow><mml:msub><mml:mi> a </mml:mi><mml:mi> i </mml:mi></mml:msub></mml:mrow></mml:mstyle><mml:mo> = </mml:mo><mml:mo> + </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow></mml:math></inline-formula> , then <inline-formula><mml:math><mml:mrow><mml:mstyle displaystyle="true"><mml:msubsup><mml:mo> ∏ </mml:mo><mml:mrow><mml:mi> i </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mi> ∞ </mml:mi></mml:msubsup><mml:mrow><mml:msub><mml:mi> p </mml:mi><mml:mi> i </mml:mi></mml:msub></mml:mrow></mml:mstyle><mml:mo> = </mml:mo><mml:mstyle displaystyle="true"><mml:msubsup><mml:mo> ∏ </mml:mo><mml:mrow><mml:mi> i </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mi> ∞ </mml:mi></mml:msubsup><mml:mrow></mml:mrow></mml:mstyle><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 1 </mml:mn><mml:mo> + </mml:mo><mml:msub><mml:mi> a </mml:mi><mml:mi> i </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:mo> + </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow></mml:math></inline-formula> , which implies the way (17) to extend <inline-formula><mml:math><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> σ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> with linear function approximation via off-line estimate is unstable for off-policy learning.</p>
      </sec>
    </sec>
    <sec id="sec4">
      <title>
        4. Gradient
        <inline-formula>
          <mml:math display="inline">
            <mml:mrow>
              <mml:mi>Q</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>σ</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>λ</mml:mi>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
            </mml:mrow>
          </mml:math>
        </inline-formula>
      </title>
      <p>In this section, we derive the gradient <inline-formula><mml:math><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> (<inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> ) algorithm. The proposed <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> unifies <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> [<xref ref-type="bibr" rid="B11">11</xref>] if <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> . For more discussion, see Remark 2. At another extreme end <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , the proposed <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> | </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> can be seen as a new way to extend <inline-formula><mml:math><mml:mrow><mml:mtext> TB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> (6) with linear function approximation. Although <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> | </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> is a natural algorithm extends <inline-formula><mml:math><mml:mrow><mml:mtext> TB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> (6) with linear function approximation, to the best of our knowledge, the update rule of <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> | </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> has not been proposed in the existing literature. For more discussion, see Remark 3.</p>
      <p>We derive the gradient the <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> algorithm via mean square projected Bellman error (MSPBE) [<xref ref-type="bibr" rid="B9">9</xref>] objective function as follows, </p>
      <disp-formula id="FD31">
        <label>(26)</label>
        <mml:math>
          <mml:mrow>
            <mml:mi>J</mml:mi>
            <mml:mrow>
              <mml:mo>(</mml:mo>
              <mml:mi>θ</mml:mi>
              <mml:mo>)</mml:mo>
            </mml:mrow>
            <mml:mo>=</mml:mo>
            <mml:mfrac>
              <mml:mn>1</mml:mn>
              <mml:mn>2</mml:mn>
            </mml:mfrac>
            <mml:msubsup>
              <mml:mrow>
                <mml:mrow>
                  <mml:mo>‖</mml:mo>
                  <mml:mrow>
                    <mml:mi>Φ</mml:mi>
                    <mml:mi>θ</mml:mi>
                    <mml:mo>−</mml:mo>
                    <mml:mi>Π</mml:mi>
                    <mml:msubsup>
                      <mml:mi>ℬ</mml:mi>
                      <mml:mrow>
                        <mml:mi>σ</mml:mi>
                        <mml:mo>,</mml:mo>
                        <mml:mi>λ</mml:mi>
                      </mml:mrow>
                      <mml:mrow>
                        <mml:mi>π</mml:mi>
                        <mml:mo>,</mml:mo>
                        <mml:mi>μ</mml:mi>
                      </mml:mrow>
                    </mml:msubsup>
                    <mml:mrow>
                      <mml:mo>(</mml:mo>
                      <mml:mrow>
                        <mml:mi>Φ</mml:mi>
                        <mml:mi>θ</mml:mi>
                      </mml:mrow>
                      <mml:mo>)</mml:mo>
                    </mml:mrow>
                  </mml:mrow>
                  <mml:mo>‖</mml:mo>
                </mml:mrow>
              </mml:mrow>
              <mml:mi>Ξ</mml:mi>
              <mml:mn>2</mml:mn>
            </mml:msubsup>
            <mml:mo>,</mml:mo>
          </mml:mrow>
        </mml:math>
      </disp-formula>
      <p>where </p>
      <disp-formula id="FD32">
        <mml:math>
          <mml:mrow>
            <mml:mi>Π</mml:mi>
            <mml:mo>=</mml:mo>
            <mml:mi>Φ</mml:mi>
            <mml:msup>
              <mml:mrow>
                <mml:mrow>
                  <mml:mo>(</mml:mo>
                  <mml:mrow>
                    <mml:msup>
                      <mml:mi>Φ</mml:mi>
                      <mml:mo>⊤</mml:mo>
                    </mml:msup>
                    <mml:mi>Ξ</mml:mi>
                    <mml:mi>Φ</mml:mi>
                  </mml:mrow>
                  <mml:mo>)</mml:mo>
                </mml:mrow>
              </mml:mrow>
              <mml:mrow>
                <mml:mo>−</mml:mo>
                <mml:mn>1</mml:mn>
              </mml:mrow>
            </mml:msup>
            <mml:msup>
              <mml:mi>Φ</mml:mi>
              <mml:mo>⊤</mml:mo>
            </mml:msup>
            <mml:mi>Ξ</mml:mi>
          </mml:mrow>
        </mml:math>
      </disp-formula>
      <p>is an <inline-formula><mml:math><mml:mrow><mml:mrow><mml:mo> | </mml:mo><mml:mi mathvariant="script"> S </mml:mi><mml:mo> | </mml:mo></mml:mrow><mml:mo> × </mml:mo><mml:mrow><mml:mo> | </mml:mo><mml:mi mathvariant="script"> S </mml:mi><mml:mo> | </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>projection matrix</italic>, <inline-formula><mml:math><mml:mrow><mml:msubsup><mml:mrow><mml:mrow><mml:mo> ‖ </mml:mo><mml:mrow><mml:mtext>   </mml:mtext><mml:mo> ⋅ </mml:mo><mml:mtext>   </mml:mtext></mml:mrow><mml:mo> ‖ </mml:mo></mml:mrow></mml:mrow><mml:mtext> Ξ </mml:mtext><mml:mn> 2 </mml:mn></mml:msubsup></mml:mrow></mml:math></inline-formula> is the weighted Euclidean norm: <inline-formula><mml:math><mml:mrow><mml:msubsup><mml:mrow><mml:mrow><mml:mo> ‖ </mml:mo><mml:mi> x </mml:mi><mml:mo> ‖ </mml:mo></mml:mrow></mml:mrow><mml:mi> Ξ </mml:mi><mml:mn> 2 </mml:mn></mml:msubsup><mml:mo> = </mml:mo><mml:msup><mml:mi> x </mml:mi><mml:mo> ⊤ </mml:mo></mml:msup><mml:mi> Ξ </mml:mi><mml:mi> x </mml:mi></mml:mrow></mml:math></inline-formula> . Furthermore, we can rewrite <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mtext> min </mml:mtext></mml:mrow><mml:mi> θ </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula><inline-formula><mml:math><mml:mrow><mml:mi> J </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mi> θ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> as follows, </p>
      <disp-formula id="FD33">
        <label>(27)</label>
        <mml:math>
          <mml:mrow>
            <mml:munder>
              <mml:mrow>
                <mml:mtext>min</mml:mtext>
              </mml:mrow>
              <mml:mi>θ</mml:mi>
            </mml:munder>
            <mml:mi>J</mml:mi>
            <mml:mrow>
              <mml:mo>(</mml:mo>
              <mml:mi>θ</mml:mi>
              <mml:mo>)</mml:mo>
            </mml:mrow>
            <mml:mo>=</mml:mo>
            <mml:munder>
              <mml:mrow>
                <mml:mtext>min</mml:mtext>
              </mml:mrow>
              <mml:mi>θ</mml:mi>
            </mml:munder>
            <mml:mfrac>
              <mml:mn>1</mml:mn>
              <mml:mn>2</mml:mn>
            </mml:mfrac>
            <mml:msubsup>
              <mml:mrow>
                <mml:mrow>
                  <mml:mo>‖</mml:mo>
                  <mml:mrow>
                    <mml:msub>
                      <mml:mi>A</mml:mi>
                      <mml:mi>σ</mml:mi>
                    </mml:msub>
                    <mml:mi>θ</mml:mi>
                    <mml:mo>+</mml:mo>
                    <mml:msub>
                      <mml:mi>b</mml:mi>
                      <mml:mi>σ</mml:mi>
                    </mml:msub>
                  </mml:mrow>
                  <mml:mo>‖</mml:mo>
                </mml:mrow>
              </mml:mrow>
              <mml:mrow>
                <mml:msup>
                  <mml:mi>M</mml:mi>
                  <mml:mrow>
                    <mml:mo>−</mml:mo>
                    <mml:mn>1</mml:mn>
                  </mml:mrow>
                </mml:msup>
              </mml:mrow>
              <mml:mn>2</mml:mn>
            </mml:msubsup>
            <mml:mo>,</mml:mo>
          </mml:mrow>
        </mml:math>
      </disp-formula>
      <disp-formula id="FD34">
        <mml:math>
          <mml:mrow>
            <mml:mi>M</mml:mi>
            <mml:mo>=</mml:mo>
            <mml:msub>
              <mml:mi mathvariant="double-struck">E</mml:mi>
              <mml:mi>μ</mml:mi>
            </mml:msub>
            <mml:mrow>
              <mml:mo>[</mml:mo>
              <mml:mrow>
                <mml:msub>
                  <mml:mi>ϕ</mml:mi>
                  <mml:mi>t</mml:mi>
                </mml:msub>
                <mml:msubsup>
                  <mml:mi>ϕ</mml:mi>
                  <mml:mi>t</mml:mi>
                  <mml:mo>⊤</mml:mo>
                </mml:msubsup>
              </mml:mrow>
              <mml:mo>]</mml:mo>
            </mml:mrow>
            <mml:mo>=</mml:mo>
            <mml:msup>
              <mml:mi>Φ</mml:mi>
              <mml:mo>⊤</mml:mo>
            </mml:msup>
            <mml:mi>Ξ</mml:mi>
            <mml:mi>Φ</mml:mi>
          </mml:mrow>
        </mml:math>
      </disp-formula>
      <p>The gradient method is a natural approach to solve problem (27), however, it is worth to notice that the challenges are two-fold: (I) Firstly, since the invertible matrix <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> M </mml:mi><mml:mrow><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula> is involved in <inline-formula><mml:math><mml:mrow><mml:mo> ∇ </mml:mo><mml:mi> J </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mi> θ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , so it is too expensive to apply stochastic gradient to solve the problem (27) directly. (II) Since <inline-formula><mml:math><mml:mrow><mml:mo> ∇ </mml:mo><mml:mi> J </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mi> θ </mml:mi><mml:mo> ) </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:msubsup><mml:mi> A </mml:mi><mml:mi> σ </mml:mi><mml:mo> ⊤ </mml:mo></mml:msubsup><mml:msup><mml:mi> M </mml:mi><mml:mrow><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msup><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> A </mml:mi><mml:mi> σ </mml:mi></mml:msub><mml:mi> θ </mml:mi><mml:mo> + </mml:mo><mml:msub><mml:mi> b </mml:mi><mml:mi> σ </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> involves the product of expectations, then the unbiased estimate of <inline-formula><mml:math><mml:mrow><mml:mo> ∇ </mml:mo><mml:mi> J </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mi> θ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> cannot be obtained via a single sample. It needs to sample twice, so it is a double-sampling problem, which is the second bottleneck of applying gradient to solve the problem (27). Additionally, <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> M </mml:mi><mml:mrow><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msup><mml:mo> = </mml:mo><mml:mi mathvariant="double-struck"> E </mml:mi><mml:msup><mml:mrow><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:msub><mml:mi> ϕ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:msubsup><mml:mi> ϕ </mml:mi><mml:mi> t </mml:mi><mml:mo> ⊤ </mml:mo></mml:msubsup></mml:mrow><mml:mo> ] </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula> cannot also be estimated via a single sample. The above analysis pushes us to find a new practical way to solve the problem (27).</p>
      <p>Let <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> e </mml:mi><mml:mrow><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn><mml:mo> , </mml:mo><mml:mi> σ </mml:mi></mml:mrow></mml:msub><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> e </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> , </mml:mo><mml:mi> σ </mml:mi></mml:mrow></mml:msub><mml:mo> = </mml:mo><mml:mi> λ </mml:mi><mml:mi> γ </mml:mi><mml:msub><mml:mi> c </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> , </mml:mo><mml:mi> σ </mml:mi></mml:mrow></mml:msub><mml:msub><mml:mi> e </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub><mml:mo> + </mml:mo><mml:msub><mml:mi> ϕ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:msub><mml:mover accent="true"><mml:mi> ϕ </mml:mi><mml:mo> ¯ </mml:mo></mml:mover><mml:mrow><mml:mi> t </mml:mi><mml:mo> + </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub><mml:mo> = </mml:mo><mml:msub><mml:mi mathvariant="double-struck"> E </mml:mi><mml:mi> π </mml:mi></mml:msub><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:mi> ϕ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> S </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> + </mml:mo><mml:mn> 1 </mml:mn><mml:mo> , </mml:mo><mml:mo> ⋅ </mml:mo></mml:mrow></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> ] </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , then we have the following equation: </p>
      <disp-formula id="FD35">
        <label>(28)</label>
        <mml:math>
          <mml:mrow>
            <mml:mo>−</mml:mo>
            <mml:mfrac>
              <mml:mn>1</mml:mn>
              <mml:mn>2</mml:mn>
            </mml:mfrac>
            <mml:mo>∇</mml:mo>
            <mml:mi>J</mml:mi>
            <mml:mrow>
              <mml:mo>(</mml:mo>
              <mml:mrow>
                <mml:msub>
                  <mml:mi>θ</mml:mi>
                  <mml:mi>t</mml:mi>
                </mml:msub>
              </mml:mrow>
              <mml:mo>)</mml:mo>
            </mml:mrow>
            <mml:mo>=</mml:mo>
            <mml:mo>−</mml:mo>
            <mml:msub>
              <mml:mi mathvariant="double-struck">E</mml:mi>
              <mml:mi>μ</mml:mi>
            </mml:msub>
            <mml:mrow>
              <mml:mo>[</mml:mo>
              <mml:mrow>
                <mml:mrow>
                  <mml:mo>(</mml:mo>
                  <mml:mrow>
                    <mml:mi>γ</mml:mi>
                    <mml:msub>
                      <mml:mover accent="true">
                        <mml:mi>ϕ</mml:mi>
                        <mml:mo>¯</mml:mo>
                      </mml:mover>
                      <mml:mrow>
                        <mml:mi>t</mml:mi>
                        <mml:mo>+</mml:mo>
                        <mml:mn>1</mml:mn>
                      </mml:mrow>
                    </mml:msub>
                    <mml:mo>−</mml:mo>
                    <mml:msub>
                      <mml:mi>ϕ</mml:mi>
                      <mml:mi>t</mml:mi>
                    </mml:msub>
                  </mml:mrow>
                  <mml:mo>)</mml:mo>
                </mml:mrow>
                <mml:msubsup>
                  <mml:mi>e</mml:mi>
                  <mml:mrow>
                    <mml:mi>t</mml:mi>
                    <mml:mo>,</mml:mo>
                    <mml:mi>σ</mml:mi>
                  </mml:mrow>
                  <mml:mo>⊤</mml:mo>
                </mml:msubsup>
              </mml:mrow>
              <mml:mo>]</mml:mo>
            </mml:mrow>
            <mml:mi>ϖ</mml:mi>
          </mml:mrow>
        </mml:math>
      </disp-formula>
      <disp-formula id="FD36">
        <label>(29)</label>
        <mml:math>
          <mml:mrow>
            <mml:mo>−</mml:mo>
            <mml:mfrac>
              <mml:mn>1</mml:mn>
              <mml:mn>2</mml:mn>
            </mml:mfrac>
            <mml:mo>∇</mml:mo>
            <mml:mi>J</mml:mi>
            <mml:mrow>
              <mml:mo>(</mml:mo>
              <mml:mrow>
                <mml:msub>
                  <mml:mi>θ</mml:mi>
                  <mml:mi>t</mml:mi>
                </mml:msub>
              </mml:mrow>
              <mml:mo>)</mml:mo>
            </mml:mrow>
            <mml:mo>=</mml:mo>
            <mml:msub>
              <mml:mi mathvariant="double-struck">E</mml:mi>
              <mml:mi>μ</mml:mi>
            </mml:msub>
            <mml:mrow>
              <mml:mo>[</mml:mo>
              <mml:mrow>
                <mml:msubsup>
                  <mml:mi>δ</mml:mi>
                  <mml:mi>t</mml:mi>
                  <mml:mrow>
                    <mml:mtext>ES</mml:mtext>
                  </mml:mrow>
                </mml:msubsup>
                <mml:msub>
                  <mml:mi>e</mml:mi>
                  <mml:mrow>
                    <mml:mi>t</mml:mi>
                    <mml:mo>,</mml:mo>
                    <mml:mi>σ</mml:mi>
                  </mml:mrow>
                </mml:msub>
              </mml:mrow>
              <mml:mo>]</mml:mo>
            </mml:mrow>
            <mml:mo>−</mml:mo>
            <mml:mi mathvariant="double-struck">E</mml:mi>
            <mml:mrow>
              <mml:mo>[</mml:mo>
              <mml:mrow>
                <mml:mi>γ</mml:mi>
                <mml:mrow>
                  <mml:mo>(</mml:mo>
                  <mml:mrow>
                    <mml:mn>1</mml:mn>
                    <mml:mo>−</mml:mo>
                    <mml:mi>λ</mml:mi>
                  </mml:mrow>
                  <mml:mo>)</mml:mo>
                </mml:mrow>
                <mml:msub>
                  <mml:mover accent="true">
                    <mml:mi>ϕ</mml:mi>
                    <mml:mo>¯</mml:mo>
                  </mml:mover>
                  <mml:mrow>
                    <mml:mi>t</mml:mi>
                    <mml:mo>+</mml:mo>
                    <mml:mn>1</mml:mn>
                  </mml:mrow>
                </mml:msub>
                <mml:msubsup>
                  <mml:mi>e</mml:mi>
                  <mml:mrow>
                    <mml:mi>t</mml:mi>
                    <mml:mo>,</mml:mo>
                    <mml:mi>σ</mml:mi>
                  </mml:mrow>
                  <mml:mo>⊤</mml:mo>
                </mml:msubsup>
              </mml:mrow>
              <mml:mo>]</mml:mo>
            </mml:mrow>
            <mml:mi>ϖ</mml:mi>
            <mml:mo>,</mml:mo>
          </mml:mrow>
        </mml:math>
      </disp-formula>
      <p>where </p>
      <disp-formula id="FD37">
        <mml:math>
          <mml:mrow>
            <mml:mi>ϖ</mml:mi>
            <mml:mo>=</mml:mo>
            <mml:msub>
              <mml:mi mathvariant="double-struck">E</mml:mi>
              <mml:mi>μ</mml:mi>
            </mml:msub>
            <mml:msup>
              <mml:mrow>
                <mml:mrow>
                  <mml:mo>[</mml:mo>
                  <mml:mrow>
                    <mml:msub>
                      <mml:mi>ϕ</mml:mi>
                      <mml:mi>t</mml:mi>
                    </mml:msub>
                    <mml:msubsup>
                      <mml:mi>ϕ</mml:mi>
                      <mml:mi>t</mml:mi>
                      <mml:mo>⊤</mml:mo>
                    </mml:msubsup>
                  </mml:mrow>
                  <mml:mo>]</mml:mo>
                </mml:mrow>
              </mml:mrow>
              <mml:mrow>
                <mml:mo>−</mml:mo>
                <mml:mn>1</mml:mn>
              </mml:mrow>
            </mml:msup>
            <mml:mi mathvariant="double-struck">E</mml:mi>
            <mml:mrow>
              <mml:mo>[</mml:mo>
              <mml:mrow>
                <mml:msubsup>
                  <mml:mi>δ</mml:mi>
                  <mml:mi>t</mml:mi>
                  <mml:mrow>
                    <mml:mtext>ES</mml:mtext>
                  </mml:mrow>
                </mml:msubsup>
                <mml:msub>
                  <mml:mi>e</mml:mi>
                  <mml:mrow>
                    <mml:mi>t</mml:mi>
                    <mml:mo>,</mml:mo>
                    <mml:mi>σ</mml:mi>
                  </mml:mrow>
                </mml:msub>
              </mml:mrow>
              <mml:mo>]</mml:mo>
            </mml:mrow>
            <mml:mo>,</mml:mo>
            <mml:msubsup>
              <mml:mi>δ</mml:mi>
              <mml:mi>t</mml:mi>
              <mml:mrow>
                <mml:mtext>ES</mml:mtext>
              </mml:mrow>
            </mml:msubsup>
            <mml:mo>=</mml:mo>
            <mml:msub>
              <mml:mi>R</mml:mi>
              <mml:mrow>
                <mml:mi>t</mml:mi>
                <mml:mo>+</mml:mo>
                <mml:mn>1</mml:mn>
              </mml:mrow>
            </mml:msub>
            <mml:mo>+</mml:mo>
            <mml:mi>γ</mml:mi>
            <mml:msubsup>
              <mml:mi>θ</mml:mi>
              <mml:mi>t</mml:mi>
              <mml:mo>⊤</mml:mo>
            </mml:msubsup>
            <mml:msub>
              <mml:mover accent="true">
                <mml:mi>ϕ</mml:mi>
                <mml:mo>¯</mml:mo>
              </mml:mover>
              <mml:mrow>
                <mml:mi>t</mml:mi>
                <mml:mo>+</mml:mo>
                <mml:mn>1</mml:mn>
              </mml:mrow>
            </mml:msub>
            <mml:mo>−</mml:mo>
            <mml:msubsup>
              <mml:mi>θ</mml:mi>
              <mml:mi>t</mml:mi>
              <mml:mo>⊤</mml:mo>
            </mml:msubsup>
            <mml:msub>
              <mml:mi>ϕ</mml:mi>
              <mml:mi>t</mml:mi>
            </mml:msub>
            <mml:mo>.</mml:mo>
          </mml:mrow>
        </mml:math>
      </disp-formula>
      <p>For the limitation of space, we provide the derivation of (28)-(29) in <bold>Appendix A</bold>. We use the sign convention that the mean update of <inline-formula><mml:math><mml:mi> θ </mml:mi></mml:math></inline-formula> follows the negative gradient <inline-formula><mml:math><mml:mrow><mml:mo> − </mml:mo><mml:mo> ∇ </mml:mo><mml:mi> J </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> . The term (31) provides its unbiased stochastic approximation, while the auxiliary recursion (30) tracks <inline-formula><mml:math><mml:mrow><mml:mi> ϖ </mml:mi><mml:mo> = </mml:mo><mml:msup><mml:mi> M </mml:mi><mml:mrow><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msup><mml:msub><mml:mi mathvariant="double-struck"> E </mml:mi><mml:mi> μ </mml:mi></mml:msub><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:msubsup><mml:mi> δ </mml:mi><mml:mi> t </mml:mi><mml:mrow><mml:mtext> ES </mml:mtext></mml:mrow></mml:msubsup><mml:msub><mml:mi> e </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> , </mml:mo><mml:mi> σ </mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo> ] </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , circumventing the double-sampling issue.</p>
      <p>Let’s consider the term <inline-formula><mml:math><mml:mrow><mml:mi> ϖ </mml:mi><mml:mo> = </mml:mo><mml:msub><mml:mi mathvariant="double-struck"> E </mml:mi><mml:mi> μ </mml:mi></mml:msub><mml:msup><mml:mrow><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:msub><mml:mi> ϕ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:msubsup><mml:mi> ϕ </mml:mi><mml:mi> t </mml:mi><mml:mo> ⊤ </mml:mo></mml:msubsup></mml:mrow><mml:mo> ] </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msup><mml:mi mathvariant="double-struck"> E </mml:mi><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:msubsup><mml:mi> δ </mml:mi><mml:mi> t </mml:mi><mml:mrow><mml:mtext> ES </mml:mtext></mml:mrow></mml:msubsup><mml:msub><mml:mi> e </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> , </mml:mo><mml:mi> σ </mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo> ] </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> that is a solution of a least-squares problem, and a typical least mean square (LMS) update rule to find the vector <inline-formula><mml:math><mml:mi> ϖ </mml:mi></mml:math></inline-formula> is: </p>
      <disp-formula id="FD38">
        <label>(30)</label>
        <mml:math>
          <mml:mrow>
            <mml:msub>
              <mml:mi>ω</mml:mi>
              <mml:mrow>
                <mml:mi>t</mml:mi>
                <mml:mo>+</mml:mo>
                <mml:mn>1</mml:mn>
              </mml:mrow>
            </mml:msub>
            <mml:mo>=</mml:mo>
            <mml:msub>
              <mml:mi>ω</mml:mi>
              <mml:mi>t</mml:mi>
            </mml:msub>
            <mml:mo>+</mml:mo>
            <mml:msub>
              <mml:mi>β</mml:mi>
              <mml:mi>t</mml:mi>
            </mml:msub>
            <mml:mrow>
              <mml:mo>(</mml:mo>
              <mml:mrow>
                <mml:msubsup>
                  <mml:mi>δ</mml:mi>
                  <mml:mi>t</mml:mi>
                  <mml:mrow>
                    <mml:mtext>ES</mml:mtext>
                  </mml:mrow>
                </mml:msubsup>
                <mml:msub>
                  <mml:mi>e</mml:mi>
                  <mml:mrow>
                    <mml:mi>t</mml:mi>
                    <mml:mo>,</mml:mo>
                    <mml:mi>σ</mml:mi>
                  </mml:mrow>
                </mml:msub>
                <mml:mo>−</mml:mo>
                <mml:msub>
                  <mml:mi>ϕ</mml:mi>
                  <mml:mi>t</mml:mi>
                </mml:msub>
                <mml:msubsup>
                  <mml:mi>ω</mml:mi>
                  <mml:mi>t</mml:mi>
                  <mml:mo>⊤</mml:mo>
                </mml:msubsup>
                <mml:msub>
                  <mml:mi>ϕ</mml:mi>
                  <mml:mi>t</mml:mi>
                </mml:msub>
              </mml:mrow>
              <mml:mo>)</mml:mo>
            </mml:mrow>
            <mml:mo>,</mml:mo>
          </mml:mrow>
        </mml:math>
      </disp-formula>
      <p>where <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> β </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> is step-size. Then, by directly sampling from (29) with (30), we define the update rule of <inline-formula><mml:math><mml:mi> θ </mml:mi></mml:math></inline-formula> as follows, </p>
      <disp-formula id="FD39">
        <label>(31)</label>
        <mml:math>
          <mml:mrow>
            <mml:msub>
              <mml:mi>θ</mml:mi>
              <mml:mrow>
                <mml:mi>t</mml:mi>
                <mml:mo>+</mml:mo>
                <mml:mn>1</mml:mn>
              </mml:mrow>
            </mml:msub>
            <mml:mo>=</mml:mo>
            <mml:msub>
              <mml:mi>θ</mml:mi>
              <mml:mi>t</mml:mi>
            </mml:msub>
            <mml:mo>+</mml:mo>
            <mml:msub>
              <mml:mi>α</mml:mi>
              <mml:mi>t</mml:mi>
            </mml:msub>
            <mml:mrow>
              <mml:mo>(</mml:mo>
              <mml:mrow>
                <mml:msubsup>
                  <mml:mi>δ</mml:mi>
                  <mml:mi>t</mml:mi>
                  <mml:mrow>
                    <mml:mtext>ES</mml:mtext>
                  </mml:mrow>
                </mml:msubsup>
                <mml:msub>
                  <mml:mi>e</mml:mi>
                  <mml:mrow>
                    <mml:mi>t</mml:mi>
                    <mml:mo>,</mml:mo>
                    <mml:mi>σ</mml:mi>
                  </mml:mrow>
                </mml:msub>
                <mml:mo>−</mml:mo>
                <mml:mi>γ</mml:mi>
                <mml:mrow>
                  <mml:mo>(</mml:mo>
                  <mml:mrow>
                    <mml:mn>1</mml:mn>
                    <mml:mo>−</mml:mo>
                    <mml:mi>λ</mml:mi>
                  </mml:mrow>
                  <mml:mo>)</mml:mo>
                </mml:mrow>
                <mml:msub>
                  <mml:mover accent="true">
                    <mml:mi>ϕ</mml:mi>
                    <mml:mo>¯</mml:mo>
                  </mml:mover>
                  <mml:mrow>
                    <mml:mi>t</mml:mi>
                    <mml:mo>+</mml:mo>
                    <mml:mn>1</mml:mn>
                  </mml:mrow>
                </mml:msub>
                <mml:msubsup>
                  <mml:mi>e</mml:mi>
                  <mml:mrow>
                    <mml:mi>t</mml:mi>
                    <mml:mo>,</mml:mo>
                    <mml:mi>σ</mml:mi>
                  </mml:mrow>
                  <mml:mo>⊤</mml:mo>
                </mml:msubsup>
                <mml:msub>
                  <mml:mi>ω</mml:mi>
                  <mml:mi>t</mml:mi>
                </mml:msub>
              </mml:mrow>
              <mml:mo>)</mml:mo>
            </mml:mrow>
            <mml:mo>,</mml:mo>
          </mml:mrow>
        </mml:math>
      </disp-formula>
      <p>where <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> α </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> is step-size. We provide the details in <bold>Algorithm 1</bold>.</p>
      <p><bold>Remark 2 (Case of</bold><inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula><bold>).</bold><italic>When</italic><inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula><italic>, we regard</italic><inline-formula><mml:math display="inline"><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> | </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula><italic>as an approach to extend</italic><inline-formula><mml:math><mml:mrow><mml:mtext> Expected Sarsa </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> (7) <italic>with linear function approximation</italic>. <italic>A more interesting result is that the proposed</italic><inline-formula><mml:math display="inline"><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> | </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula><italic>is reduced to</italic><inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> [<xref ref-type="bibr" rid="B12">12</xref>]<italic>exactly</italic>. <italic>Now, we provide two fresh interpretations to the proposed</italic><inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> :</p>
      <p><inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>is at one extreme end</italic> (<inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> )<italic>of the proposed</italic><inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , <italic>i</italic>.<italic>e</italic>., <italic>the proposed</italic><inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>contains</italic><inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> . </p>
      <fig id="fig2">
        <label>Figure 2</label>
        <graphic xlink:href="https://html.scirp.org/file/1724755-rId621.jpeg?20260624025731" />
      </fig>
      <p><italic>Furthermore</italic>, <italic>just because</italic><inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>is same as</italic><inline-formula><mml:math display="inline"><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> | </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>can be seen as an extension of the tabular</italic><inline-formula><mml:math><mml:mrow><mml:mtext> Expected Sarsa </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> (7) <italic>with linear function approximation</italic>,<italic>while the original motivation of</italic><italic>Maei</italic><italic>and Sutton</italic> [<xref ref-type="bibr" rid="B11">11</xref>]<italic>to propose</italic><inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>is to introduce eligibility trace to gradient temporal difference learning for off-policy evaluation</italic>. <italic>Thus, the proposed</italic><inline-formula><mml:math display="inline"><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> | </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula><italic>provides a fresh understanding for the</italic><inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> [<xref ref-type="bibr" rid="B11">11</xref>]. </p>
      <p>Computational complexity. The computational complexity of <bold>Algorithm 1</bold> is <inline-formula><mml:math><mml:mrow><mml:mi> O </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mrow><mml:mo> | </mml:mo><mml:mi mathvariant="script"> A </mml:mi><mml:mo> | </mml:mo></mml:mrow><mml:mi> p </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> per step in time, and <inline-formula><mml:math><mml:mrow><mml:mi> O </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mi> p </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> in memory, where <inline-formula><mml:math><mml:mi> p </mml:mi></mml:math></inline-formula> is the feature dimension and <inline-formula><mml:math><mml:mrow><mml:mrow><mml:mo> | </mml:mo><mml:mi mathvariant="script"> A </mml:mi><mml:mo> | </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> is the number of actions. This maintains the same asymptotic efficiency as the baseline <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> and gradient <inline-formula><mml:math><mml:mrow><mml:mtext> TB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> methods.</p>
      <p><bold>Remark 3 (Case of</bold><inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula><bold>).</bold><italic>When</italic><inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , <italic>the algorithm</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> | </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula><italic>is reduced to a version of extending</italic><inline-formula><mml:math><mml:mrow><mml:mtext> TB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> (6) <italic>with linear function approximation. Although</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> | </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula><italic>is a natural algorithm extends</italic><inline-formula><mml:math><mml:mrow><mml:mtext> TB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> (6) <italic>with linear function approximation</italic>, <italic>to the best of our knowledge</italic>, <italic>the update rule of</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> | </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula><italic>has not been proposed in the existing literatures</italic>. <italic>It is worth to notice that</italic> [<xref ref-type="bibr" rid="B12">12</xref>]<italic>have also proposed another version of gradient</italic><inline-formula><mml:math><mml:mrow><mml:mtext> TB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> (<inline-formula><mml:math><mml:mrow><mml:mtext> GTB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> ), <italic>while the difference between the proposed</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> | </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula><italic>and</italic><inline-formula><mml:math><mml:mrow><mml:mtext> GTB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> [<xref ref-type="bibr" rid="B12">12</xref>]<italic>is reflected at least two aspects</italic>:</p>
      <p><italic>Firstly</italic>, <italic>the proposed gradient</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> | </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula><italic>and</italic><inline-formula><mml:math><mml:mrow><mml:mtext> GTB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> [<xref ref-type="bibr" rid="B12">12</xref>]<italic>share the same update rule of</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> e </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula><italic>and</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> ω </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula><italic>, but instead of</italic> (31), <inline-formula><mml:math><mml:mrow><mml:mtext> GTB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>updates the parameter</italic><inline-formula><mml:math><mml:mi> θ </mml:mi></mml:math></inline-formula><italic>as follows</italic>, </p>
      <disp-formula id="FD40">
        <label>(32)</label>
        <mml:math>
          <mml:mrow>
            <mml:msub>
              <mml:mi>θ</mml:mi>
              <mml:mrow>
                <mml:mi>t</mml:mi>
                <mml:mo>+</mml:mo>
                <mml:mn>1</mml:mn>
              </mml:mrow>
            </mml:msub>
            <mml:mo>=</mml:mo>
            <mml:msub>
              <mml:mi>θ</mml:mi>
              <mml:mi>t</mml:mi>
            </mml:msub>
            <mml:mo>+</mml:mo>
            <mml:msub>
              <mml:mi>α</mml:mi>
              <mml:mi>t</mml:mi>
            </mml:msub>
            <mml:mrow>
              <mml:mo>(</mml:mo>
              <mml:mrow>
                <mml:mo>−</mml:mo>
                <mml:mi>γ</mml:mi>
                <mml:msub>
                  <mml:mover accent="true">
                    <mml:mi>ϕ</mml:mi>
                    <mml:mo>¯</mml:mo>
                  </mml:mover>
                  <mml:mrow>
                    <mml:mi>t</mml:mi>
                    <mml:mo>+</mml:mo>
                    <mml:mn>1</mml:mn>
                  </mml:mrow>
                </mml:msub>
                <mml:mo>+</mml:mo>
                <mml:msub>
                  <mml:mi>ϕ</mml:mi>
                  <mml:mi>t</mml:mi>
                </mml:msub>
              </mml:mrow>
              <mml:mo>)</mml:mo>
            </mml:mrow>
            <mml:msubsup>
              <mml:mi>e</mml:mi>
              <mml:mi>t</mml:mi>
              <mml:mo>⊤</mml:mo>
            </mml:msubsup>
            <mml:msub>
              <mml:mi>ω</mml:mi>
              <mml:mi>t</mml:mi>
            </mml:msub>
            <mml:mo>,</mml:mo>
          </mml:mrow>
        </mml:math>
      </disp-formula>
      <p><italic>where</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> e </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> = </mml:mo><mml:msub><mml:mrow><mml:mrow><mml:mrow><mml:msub><mml:mi> e </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> , </mml:mo><mml:mi> σ </mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo> | </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub><mml:mo> = </mml:mo><mml:mi> λ </mml:mi><mml:mi> γ </mml:mi><mml:mi> π </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> A </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> | </mml:mo><mml:msub><mml:mi> S </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:msub><mml:mi> e </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> .</p>
      <p><italic>Secondly, Touati et al.</italic>, [<xref ref-type="bibr" rid="B12">12</xref>]<italic>derive the update rule</italic> (32) <italic>of their</italic><inline-formula><mml:math><mml:mrow><mml:mtext> GTB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>via the convex-concave saddle-point framework</italic> [<xref ref-type="bibr" rid="B15">15</xref>], <italic>while our</italic><inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>is based on the weight-duplication trick</italic><sup>1</sup><italic>of</italic> (29)-(31). </p>
    </sec>
    <sec id="sec5">
      <title>5. Convergence Analysis</title>
      <p>In this section, we prove the convergence of the proposed <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> . Theorem 1 shows that <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> converges to its TD fixed-point (23) with probability one. Besides, Theorem 1 illustrates the structure of this TD fixed-point: it is the global asymptotically stable equilibrium of its corresponding ordinary differential equation (ODE). For more discussion, we provide in Remark 4. Theorem 2 shows that <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> converges to an arbitrarily small neighborhood of the optimal solution with probability one. While we rely on the standard two-timescale ODE method for the general convergence mechanism, our novel theoretical step is verifying that the proposed <inline-formula><mml:math><mml:mi> σ </mml:mi></mml:math></inline-formula> -dependent trace coefficient <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> c </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> , </mml:mo><mml:mi> σ </mml:mi></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> yields a stable equilibrium structure for the ODEs.</p>
      <sec id="sec5dot1">
        <title>5.1. Additional Assumptions</title>
        <p>We need some additional assumptions to present the convergent of <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , those assumptions are widely used in reinforcement learning [<xref ref-type="bibr" rid="B13">13</xref>][<xref ref-type="bibr" rid="B17">17</xref>]-[<xref ref-type="bibr" rid="B19">19</xref>].</p>
        <p><bold>Assumption 2 (Diminishing Step-size).</bold><italic>The positive sequences</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msub><mml:mi> α </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> t </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msub><mml:mi> β </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> t </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula><italic>satisfy the following conditions with probability one</italic>, </p>
        <disp-formula id="FD41">
          <mml:math>
            <mml:mrow>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∑</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mn>0</mml:mn>
                </mml:mrow>
                <mml:mi>∞</mml:mi>
              </mml:munderover>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:msub>
                <mml:mi>α</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∑</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mn>0</mml:mn>
                </mml:mrow>
                <mml:mi>∞</mml:mi>
              </mml:munderover>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:msub>
                <mml:mi>β</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:mi>∞</mml:mi>
              <mml:mo>,</mml:mo>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∑</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mn>0</mml:mn>
                </mml:mrow>
                <mml:mi>∞</mml:mi>
              </mml:munderover>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:msubsup>
                <mml:mi>α</mml:mi>
                <mml:mi>t</mml:mi>
                <mml:mn>2</mml:mn>
              </mml:msubsup>
              <mml:mo>&lt;</mml:mo>
              <mml:mi>∞</mml:mi>
              <mml:mo>,</mml:mo>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∑</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mn>0</mml:mn>
                </mml:mrow>
                <mml:mi>∞</mml:mi>
              </mml:munderover>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:msubsup>
                <mml:mi>β</mml:mi>
                <mml:mi>t</mml:mi>
                <mml:mn>2</mml:mn>
              </mml:msubsup>
              <mml:mo>&lt;</mml:mo>
              <mml:mi>∞</mml:mi>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p><bold>Assumption 3.</bold><italic>The features</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msub><mml:mi> ϕ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> t </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula><italic>is uniformly bounded by</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> ϕ </mml:mi><mml:mrow><mml:mi> max </mml:mi></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> . <italic>The reward function is uniformly bounded by</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> R </mml:mi><mml:mrow><mml:mi> max </mml:mi></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> . <italic>The importance sampling</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> ρ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> = </mml:mo><mml:mfrac><mml:mrow><mml:mi> π </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> A </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> | </mml:mo><mml:msub><mml:mi> S </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> μ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> A </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> | </mml:mo><mml:msub><mml:mi> S </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:mfrac></mml:mrow></mml:math></inline-formula><italic>is uniformly bounded by</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> ρ </mml:mi><mml:mrow><mml:mi> max </mml:mi></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> . </p>
        <p><bold>Assumption 4 (Solvability of Problem).</bold><italic>The matrix</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> A </mml:mi><mml:mi> σ </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula><italic>is non-singular and</italic><inline-formula><mml:math><mml:mrow><mml:mtext> rank </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> Φ </mml:mi><mml:mo> ) </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:mi> p </mml:mi></mml:mrow></mml:math></inline-formula><italic>.</italic></p>
        <p>Assumption 4 requires the non-singular matrix <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> A </mml:mi><mml:mi> σ </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> , which implies the optimal parameter <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> θ </mml:mi><mml:mo> ⋆ </mml:mo></mml:msup><mml:mo> = </mml:mo><mml:mo> − </mml:mo><mml:msup><mml:mi> A </mml:mi><mml:mrow><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msup><mml:mi> b </mml:mi></mml:mrow></mml:math></inline-formula> is well defined. The feature matrix <inline-formula><mml:math><mml:mi> Φ </mml:mi></mml:math></inline-formula> has linearly independent columns implies the matrix <inline-formula><mml:math><mml:mrow><mml:mi> M </mml:mi><mml:mo> = </mml:mo><mml:msup><mml:mi> Φ </mml:mi><mml:mo> ⊤ </mml:mo></mml:msup><mml:mi> Ξ </mml:mi><mml:mi> Φ </mml:mi></mml:mrow></mml:math></inline-formula> is positive defined.</p>
      </sec>
      <sec id="sec5dot2">
        <title>5.2. Main Results and Discussion</title>
        <p><bold>Theorem 1 (Convergence of</bold><bold>Algorithm 1).</bold><italic>Under Assumption</italic> 1-4, <italic>we consider the iteration</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ω </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> t </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula><italic>that is generated according to</italic> (30)-(31). <italic>The step-size</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> α </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> β </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula><italic>satisfy Assumption</italic>2 <italic>and</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> η </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> = </mml:mo><mml:mfrac><mml:mrow><mml:msub><mml:mi> β </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mrow><mml:msub><mml:mi> α </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:mfrac><mml:mo> → </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , <italic>as</italic><inline-formula><mml:math><mml:mrow><mml:mi> t </mml:mi><mml:mo> → </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow></mml:math></inline-formula> . <italic>We define two functions</italic><inline-formula><mml:math><mml:mrow><mml:mi> G </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mi> θ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:mi> H </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> ω </mml:mi><mml:mo> , </mml:mo><mml:mi> θ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>as follows</italic>, </p>
        <disp-formula id="FD42">
          <label>(33)</label>
          <mml:math>
            <mml:mrow>
              <mml:mi>G</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mi>θ</mml:mi>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mo>−</mml:mo>
              <mml:msubsup>
                <mml:mi>A</mml:mi>
                <mml:mi>σ</mml:mi>
                <mml:mo>⊤</mml:mo>
              </mml:msubsup>
              <mml:msup>
                <mml:mi>M</mml:mi>
                <mml:mrow>
                  <mml:mo>−</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msup>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>A</mml:mi>
                    <mml:mi>σ</mml:mi>
                  </mml:msub>
                  <mml:mi>θ</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:msub>
                    <mml:mi>b</mml:mi>
                    <mml:mi>σ</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <disp-formula id="FD43">
          <label>(34)</label>
          <mml:math>
            <mml:mrow>
              <mml:mi>H</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>ω</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>θ</mml:mi>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>A</mml:mi>
                <mml:mi>σ</mml:mi>
              </mml:msub>
              <mml:mi>θ</mml:mi>
              <mml:mo>+</mml:mo>
              <mml:msub>
                <mml:mi>b</mml:mi>
                <mml:mi>σ</mml:mi>
              </mml:msub>
              <mml:mo>−</mml:mo>
              <mml:mi>M</mml:mi>
              <mml:mi>ω</mml:mi>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>Then <inline-formula><mml:math><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ω </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mover><mml:mo> → </mml:mo><mml:mrow><mml:mi> w </mml:mi><mml:mo> . </mml:mo><mml:mi> p </mml:mi><mml:mn> .1 </mml:mn></mml:mrow></mml:mover><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mo> ⋆ </mml:mo></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ω </mml:mi><mml:mo> ⋆ </mml:mo></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , as <inline-formula><mml:math><mml:mrow><mml:mi> t </mml:mi><mml:mo> → </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow></mml:math></inline-formula> , where <inline-formula><mml:math><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mo> ⋆ </mml:mo></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ω </mml:mi><mml:mo> ⋆ </mml:mo></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> is the unique global asymptotically stable equilibrium with respect to the following ODE correspondingly: </p>
        <disp-formula id="FD44">
          <label>(35)</label>
          <mml:math>
            <mml:mrow>
              <mml:mrow>
                <mml:mo>{</mml:mo>
                <mml:mrow>
                  <mml:mtable columnalign="left">
                    <mml:mtr columnalign="left">
                      <mml:mtd columnalign="left">
                        <mml:mrow>
                          <mml:mover accent="true">
                            <mml:mi>θ</mml:mi>
                            <mml:mo>˙</mml:mo>
                          </mml:mover>
                          <mml:mrow>
                            <mml:mo>(</mml:mo>
                            <mml:mi>t</mml:mi>
                            <mml:mo>)</mml:mo>
                          </mml:mrow>
                          <mml:mo>=</mml:mo>
                          <mml:mo>:</mml:mo>
                          <mml:mfrac>
                            <mml:mtext>d</mml:mtext>
                            <mml:mrow>
                              <mml:mtext>d</mml:mtext>
                              <mml:mi>t</mml:mi>
                            </mml:mrow>
                          </mml:mfrac>
                          <mml:mi>θ</mml:mi>
                          <mml:mrow>
                            <mml:mo>(</mml:mo>
                            <mml:mi>t</mml:mi>
                            <mml:mo>)</mml:mo>
                          </mml:mrow>
                          <mml:mo>=</mml:mo>
                          <mml:mi>G</mml:mi>
                          <mml:mrow>
                            <mml:mo>(</mml:mo>
                            <mml:mrow>
                              <mml:mi>θ</mml:mi>
                              <mml:mrow>
                                <mml:mo>(</mml:mo>
                                <mml:mi>t</mml:mi>
                                <mml:mo>)</mml:mo>
                              </mml:mrow>
                            </mml:mrow>
                            <mml:mo>)</mml:mo>
                          </mml:mrow>
                        </mml:mrow>
                      </mml:mtd>
                    </mml:mtr>
                    <mml:mtr columnalign="left">
                      <mml:mtd columnalign="left">
                        <mml:mrow>
                          <mml:mover accent="true">
                            <mml:mi>ω</mml:mi>
                            <mml:mo>˙</mml:mo>
                          </mml:mover>
                          <mml:mrow>
                            <mml:mo>(</mml:mo>
                            <mml:mi>t</mml:mi>
                            <mml:mo>)</mml:mo>
                          </mml:mrow>
                          <mml:mo>=</mml:mo>
                          <mml:mo>:</mml:mo>
                          <mml:mfrac>
                            <mml:mtext>d</mml:mtext>
                            <mml:mrow>
                              <mml:mtext>d</mml:mtext>
                              <mml:mi>t</mml:mi>
                            </mml:mrow>
                          </mml:mfrac>
                          <mml:mi>ω</mml:mi>
                          <mml:mrow>
                            <mml:mo>(</mml:mo>
                            <mml:mi>t</mml:mi>
                            <mml:mo>)</mml:mo>
                          </mml:mrow>
                          <mml:mo>=</mml:mo>
                          <mml:mi>H</mml:mi>
                          <mml:mrow>
                            <mml:mo>(</mml:mo>
                            <mml:mrow>
                              <mml:mi>ω</mml:mi>
                              <mml:mrow>
                                <mml:mo>(</mml:mo>
                                <mml:mi>t</mml:mi>
                                <mml:mo>)</mml:mo>
                              </mml:mrow>
                              <mml:mo>,</mml:mo>
                              <mml:mi>θ</mml:mi>
                              <mml:mrow>
                                <mml:mo>(</mml:mo>
                                <mml:mi>t</mml:mi>
                                <mml:mo>)</mml:mo>
                              </mml:mrow>
                            </mml:mrow>
                            <mml:mo>)</mml:mo>
                          </mml:mrow>
                          <mml:mo>,</mml:mo>
                        </mml:mrow>
                      </mml:mtd>
                    </mml:mtr>
                  </mml:mtable>
                </mml:mrow>
              </mml:mrow>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>where <inline-formula><mml:math><mml:mrow><mml:mi> θ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mi> t </mml:mi><mml:mo> ) </mml:mo></mml:mrow><mml:mo> , </mml:mo><mml:mi> ω </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mi> t </mml:mi><mml:mo> ) </mml:mo></mml:mrow><mml:mo> ∈ </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mi> p </mml:mi></mml:msup></mml:mrow></mml:math></inline-formula> are the functions are defined on continuous time <inline-formula><mml:math><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> . </p>
        <p><italic>Proof.</italic> We provide its proof in <bold>Appendix B</bold>. □</p>
        <p><bold>Remark 4 (TD-Fixed Point of</bold><inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><bold>).</bold><italic>Theorem</italic>1 <italic>illustrates that the sequence</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ω </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> t </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula><italic>generated by</italic><inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>converges to the global asymptotically stable equilibrium of its corresponding ODE</italic> (35). <italic>Furthermore, from the details of the proof in</italic><italic><bold>Appendix B</bold></italic>, <italic>we know since</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> A </mml:mi><mml:mi> σ </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula><italic>is invertible and</italic><inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> M </mml:mi><mml:mrow><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula><italic>is positive definite, then</italic><inline-formula><mml:math><mml:mrow><mml:msubsup><mml:mi> A </mml:mi><mml:mi> σ </mml:mi><mml:mo> ⊤ </mml:mo></mml:msubsup><mml:msup><mml:mi> M </mml:mi><mml:mrow><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msup><mml:msub><mml:mi> A </mml:mi><mml:mi> σ </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula><italic>is also positive defined. Because the ODE uses the negative MSPBE-gradient direction</italic>, <italic>the Jacobian at the equilibrium is</italic><inline-formula><mml:math><mml:mrow><mml:mo> − </mml:mo><mml:msubsup><mml:mi> A </mml:mi><mml:mi> σ </mml:mi><mml:mo> ⊤ </mml:mo></mml:msubsup><mml:msup><mml:mi> M </mml:mi><mml:mrow><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msup><mml:msub><mml:mi> A </mml:mi><mml:mi> σ </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> , <italic>whose eigenvalues have negative real parts.</italic><italic>So</italic><italic>the following ODE</italic></p>
        <disp-formula id="FD45">
          <label>(36)</label>
          <mml:math>
            <mml:mrow>
              <mml:mover accent="true">
                <mml:mi>θ</mml:mi>
                <mml:mo>˙</mml:mo>
              </mml:mover>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mi>t</mml:mi>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mo>−</mml:mo>
              <mml:msubsup>
                <mml:mi>A</mml:mi>
                <mml:mi>σ</mml:mi>
                <mml:mo>⊤</mml:mo>
              </mml:msubsup>
              <mml:msup>
                <mml:mi>M</mml:mi>
                <mml:mrow>
                  <mml:mo>−</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msup>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>A</mml:mi>
                    <mml:mi>σ</mml:mi>
                  </mml:msub>
                  <mml:mi>θ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mi>t</mml:mi>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mo>+</mml:mo>
                  <mml:msub>
                    <mml:mi>b</mml:mi>
                    <mml:mi>σ</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mi>G</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>θ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mi>t</mml:mi>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>has a unique global asymptotically stable equilibrium <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> θ </mml:mi><mml:mo> ⋆ </mml:mo></mml:msup></mml:mrow></mml:math></inline-formula> satisfies the equation </p>
        <disp-formula id="FD46">
          <label>(37)</label>
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>A</mml:mi>
                <mml:mi>σ</mml:mi>
              </mml:msub>
              <mml:msub>
                <mml:mi>θ</mml:mi>
                <mml:mo>⋆</mml:mo>
              </mml:msub>
              <mml:mo>+</mml:mo>
              <mml:msub>
                <mml:mi>b</mml:mi>
                <mml:mi>σ</mml:mi>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:mn>0</mml:mn>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>which implies the global asymptotically stable equilibrium <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> θ </mml:mi><mml:mo> ⋆ </mml:mo></mml:msup></mml:mrow></mml:math></inline-formula> of the ODE <inline-formula><mml:math><mml:mrow><mml:mover accent="true"><mml:mi> θ </mml:mi><mml:mo> ˙ </mml:mo></mml:mover><mml:mrow><mml:mo> ( </mml:mo><mml:mi> t </mml:mi><mml:mo> ) </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:mi> G </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> θ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mi> t </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> is also the TD fixed point of (23). That means <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> converges to its TD fixed point: </p>
        <disp-formula id="FD47">
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>θ</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>→</mml:mo>
              <mml:msub>
                <mml:mi>θ</mml:mi>
                <mml:mo>⋆</mml:mo>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:mo>−</mml:mo>
              <mml:msubsup>
                <mml:mi>A</mml:mi>
                <mml:mi>σ</mml:mi>
                <mml:mrow>
                  <mml:mo>−</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msubsup>
              <mml:msub>
                <mml:mi>b</mml:mi>
                <mml:mi>σ</mml:mi>
              </mml:msub>
              <mml:mo>,</mml:mo>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mi>w</mml:mi>
              <mml:mo>.</mml:mo>
              <mml:mi>p</mml:mi>
              <mml:mn>.1.</mml:mn>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p><bold>Remark 5 (Unification of TD-Fixed Point).</bold><italic>If</italic><inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula><italic>, the matrix</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> A </mml:mi><mml:mi> σ </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula><italic>is reduced to</italic></p>
        <disp-formula id="FD48">
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mrow>
                  <mml:mrow>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>A</mml:mi>
                        <mml:mi>σ</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>|</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>σ</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mn>0</mml:mn>
                </mml:mrow>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:msup>
                <mml:mi>Φ</mml:mi>
                <mml:mo>⊤</mml:mo>
              </mml:msup>
              <mml:mi>Ξ</mml:mi>
              <mml:msup>
                <mml:mrow>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mi>I</mml:mi>
                      <mml:mo>−</mml:mo>
                      <mml:mi>λ</mml:mi>
                      <mml:mi>γ</mml:mi>
                      <mml:msup>
                        <mml:mi>P</mml:mi>
                        <mml:mrow>
                          <mml:mi>π</mml:mi>
                          <mml:mo>,</mml:mo>
                          <mml:mi>μ</mml:mi>
                        </mml:mrow>
                      </mml:msup>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mrow>
                  <mml:mo>−</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msup>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>γ</mml:mi>
                  <mml:msup>
                    <mml:mi>P</mml:mi>
                    <mml:mi>π</mml:mi>
                  </mml:msup>
                  <mml:mo>−</mml:mo>
                  <mml:mi>I</mml:mi>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mi>Φ</mml:mi>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>which implies <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> | </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> converges to the TD-fixed point of <inline-formula><mml:math><mml:mrow><mml:mtext> GTB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> [<xref ref-type="bibr" rid="B12">12</xref>], <italic>i.e.</italic>, <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> | </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> shares the same TD-fixed point of <inline-formula><mml:math><mml:mrow><mml:mtext> GTB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> [<xref ref-type="bibr" rid="B12">12</xref>] as follows </p>
        <disp-formula id="FD49">
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>θ</mml:mi>
                <mml:mo>⋆</mml:mo>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:mo>−</mml:mo>
              <mml:msub>
                <mml:mrow>
                  <mml:mrow>
                    <mml:mrow>
                      <mml:msubsup>
                        <mml:mi>A</mml:mi>
                        <mml:mi>σ</mml:mi>
                        <mml:mrow>
                          <mml:mo>−</mml:mo>
                          <mml:mn>1</mml:mn>
                        </mml:mrow>
                      </mml:msubsup>
                      <mml:msub>
                        <mml:mi>b</mml:mi>
                        <mml:mi>σ</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>|</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>σ</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mn>0</mml:mn>
                </mml:mrow>
              </mml:msub>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>If <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> , then the key matrix <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> A </mml:mi><mml:mi> σ </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> is reduced to </p>
        <disp-formula id="FD50">
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mrow>
                  <mml:mrow>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>A</mml:mi>
                        <mml:mi>σ</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>|</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>σ</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:msup>
                <mml:mi>Φ</mml:mi>
                <mml:mo>⊤</mml:mo>
              </mml:msup>
              <mml:mi>Ξ</mml:mi>
              <mml:msup>
                <mml:mrow>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mi>I</mml:mi>
                      <mml:mo>−</mml:mo>
                      <mml:mi>λ</mml:mi>
                      <mml:mi>γ</mml:mi>
                      <mml:msup>
                        <mml:mi>P</mml:mi>
                        <mml:mi>π</mml:mi>
                      </mml:msup>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mrow>
                  <mml:mo>−</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msup>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>γ</mml:mi>
                  <mml:msup>
                    <mml:mi>P</mml:mi>
                    <mml:mi>π</mml:mi>
                  </mml:msup>
                  <mml:mo>−</mml:mo>
                  <mml:mi>I</mml:mi>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mi>Φ</mml:mi>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>which illustrates the TD-fixed point of <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> | </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> (<italic>i.e.</italic>, <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> ) algorithm as follows </p>
        <disp-formula id="FD51">
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>θ</mml:mi>
                <mml:mo>⋆</mml:mo>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:mo>−</mml:mo>
              <mml:msub>
                <mml:mrow>
                  <mml:mrow>
                    <mml:mrow>
                      <mml:msubsup>
                        <mml:mi>A</mml:mi>
                        <mml:mi>σ</mml:mi>
                        <mml:mrow>
                          <mml:mo>−</mml:mo>
                          <mml:mn>1</mml:mn>
                        </mml:mrow>
                      </mml:msubsup>
                      <mml:msub>
                        <mml:mi>b</mml:mi>
                        <mml:mi>σ</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>|</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>σ</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msub>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>Theorem 1 presents an asymptotic result, which holds only in the limit as the number of iterations increases to infinity. Now, we present a result shows the distance between <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> and the optimal solution <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> θ </mml:mi><mml:mo> ⋆ </mml:mo></mml:msup></mml:mrow></mml:math></inline-formula> convergence to 0 in probability. For any <inline-formula><mml:math><mml:mrow><mml:mi> T </mml:mi><mml:mo> &gt; </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , and <inline-formula><mml:math><mml:mrow><mml:mi> t </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , we introduce a notation </p>
        <disp-formula id="FD52">
          <mml:math>
            <mml:mrow>
              <mml:mi>κ</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>;</mml:mo>
                  <mml:mi>T</mml:mi>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mtext>min</mml:mtext>
              <mml:mrow>
                <mml:mo>{</mml:mo>
                <mml:mrow>
                  <mml:mi>k</mml:mi>
                  <mml:mo>≥</mml:mo>
                  <mml:mi>t</mml:mi>
                  <mml:mo>|</mml:mo>
                  <mml:munderover>
                    <mml:mstyle mathsize="140%" displaystyle="true">
                      <mml:mo>∑</mml:mo>
                    </mml:mstyle>
                    <mml:mrow>
                      <mml:mi>i</mml:mi>
                      <mml:mo>=</mml:mo>
                      <mml:mi>t</mml:mi>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mi>k</mml:mi>
                      <mml:mo>+</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                  </mml:munderover>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:msub>
                    <mml:mi>α</mml:mi>
                    <mml:mi>i</mml:mi>
                  </mml:msub>
                  <mml:mo>&gt;</mml:mo>
                  <mml:mi>T</mml:mi>
                </mml:mrow>
                <mml:mo>}</mml:mo>
              </mml:mrow>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>to denote the last iteration before the sum of step-size <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> α </mml:mi><mml:mi> i </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> between it and the <inline-formula><mml:math><mml:mi> t </mml:mi></mml:math></inline-formula> -th iteration exceeds <inline-formula><mml:math><mml:mi> T </mml:mi></mml:math></inline-formula> . Since we consider the Assumption 2, the notation <inline-formula><mml:math><mml:mrow><mml:mi> κ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> t </mml:mi><mml:mo> ; </mml:mo><mml:mi> T </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> is well-defined.</p>
        <p><bold>Theorem 2.</bold><italic>Under Assumption</italic> 1-4, <italic>we consider the iteration</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ω </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> t </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula><italic>generated by</italic> (30)-(31). <italic>The step-size</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> α </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> β </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula><italic>satisfy Assumption</italic>2. <italic>Moreover</italic>, <italic>for the integers</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> m </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> → </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:msub><mml:msup><mml:mi> m </mml:mi><mml:mo> ′ </mml:mo></mml:msup><mml:mi> t </mml:mi></mml:msub><mml:mo> → </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow></mml:math></inline-formula> , <italic>as</italic><inline-formula><mml:math><mml:mrow><mml:mi> t </mml:mi><mml:mo> → </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow></mml:math></inline-formula> , </p>
        <disp-formula id="FD53">
          <mml:math display="inline">
            <mml:mrow>
              <mml:munder>
                <mml:mrow>
                  <mml:mtext>lim</mml:mtext>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>→</mml:mo>
                  <mml:mi>∞</mml:mi>
                </mml:mrow>
              </mml:munder>
              <mml:munder>
                <mml:mrow>
                  <mml:mtext>sup</mml:mtext>
                </mml:mrow>
                <mml:mrow>
                  <mml:mn>0</mml:mn>
                  <mml:mo>&lt;</mml:mo>
                  <mml:mi>j</mml:mi>
                  <mml:mo>≤</mml:mo>
                  <mml:msub>
                    <mml:mi>m</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                </mml:mrow>
              </mml:munder>
              <mml:mrow>
                <mml:mo>|</mml:mo>
                <mml:mrow>
                  <mml:mfrac>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>α</mml:mi>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>+</mml:mo>
                          <mml:mi>j</mml:mi>
                        </mml:mrow>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>α</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                  </mml:mfrac>
                  <mml:mo>−</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
                <mml:mo>|</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mn>0</mml:mn>
              <mml:mo>,</mml:mo>
              <mml:munder>
                <mml:mrow>
                  <mml:mtext>lim</mml:mtext>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>→</mml:mo>
                  <mml:mi>∞</mml:mi>
                </mml:mrow>
              </mml:munder>
              <mml:munder>
                <mml:mrow>
                  <mml:mtext>sup</mml:mtext>
                </mml:mrow>
                <mml:mrow>
                  <mml:mn>0</mml:mn>
                  <mml:mo>&lt;</mml:mo>
                  <mml:mi>j</mml:mi>
                  <mml:mo>≤</mml:mo>
                  <mml:msub>
                    <mml:msup>
                      <mml:mi>m</mml:mi>
                      <mml:mo>′</mml:mo>
                    </mml:msup>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                </mml:mrow>
              </mml:munder>
              <mml:mrow>
                <mml:mo>|</mml:mo>
                <mml:mrow>
                  <mml:mfrac>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>β</mml:mi>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>+</mml:mo>
                          <mml:mi>j</mml:mi>
                        </mml:mrow>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>β</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                  </mml:mfrac>
                  <mml:mo>−</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
                <mml:mo>|</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mn>0.</mml:mn>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>Then there exists a sequence of positive numbers <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> T </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> → </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow></mml:math></inline-formula> (as <inline-formula><mml:math><mml:mrow><mml:mi> t </mml:mi><mml:mo> → </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow></mml:math></inline-formula> ) such that for any <inline-formula><mml:math><mml:mrow><mml:mi> ϵ </mml:mi><mml:mo> &gt; </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , </p>
        <disp-formula id="FD54">
          <label>(38)</label>
          <mml:math>
            <mml:mrow>
              <mml:munder>
                <mml:mrow>
                  <mml:mtext>lim</mml:mtext>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>→</mml:mo>
                  <mml:mi>∞</mml:mi>
                </mml:mrow>
              </mml:munder>
              <mml:mi>ℙ</mml:mi>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>θ</mml:mi>
                    <mml:mi>i</mml:mi>
                  </mml:msub>
                  <mml:mo>∉</mml:mo>
                  <mml:msub>
                    <mml:mi>N</mml:mi>
                    <mml:mi>ϵ</mml:mi>
                  </mml:msub>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:msup>
                        <mml:mi>θ</mml:mi>
                        <mml:mo>⋆</mml:mo>
                      </mml:msup>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mo>,</mml:mo>
                  <mml:mo>∃</mml:mo>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mi>i</mml:mi>
                  <mml:mo>∈</mml:mo>
                  <mml:mrow>
                    <mml:mo>[</mml:mo>
                    <mml:mrow>
                      <mml:mi>t</mml:mi>
                      <mml:mo>,</mml:mo>
                      <mml:mi>κ</mml:mi>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>,</mml:mo>
                          <mml:msub>
                            <mml:mi>T</mml:mi>
                            <mml:mi>t</mml:mi>
                          </mml:msub>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                    <mml:mo>]</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mn>0</mml:mn>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>where we use <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> N </mml:mi><mml:mi> ϵ </mml:mi></mml:msub><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msup><mml:mi> θ </mml:mi><mml:mo> ⋆ </mml:mo></mml:msup></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:mi> θ </mml:mi><mml:mo> : </mml:mo><mml:msub><mml:mrow><mml:mrow><mml:mo> ‖ </mml:mo><mml:mrow><mml:mi> θ </mml:mi><mml:mo> − </mml:mo><mml:msup><mml:mi> θ </mml:mi><mml:mo> ⋆ </mml:mo></mml:msup></mml:mrow><mml:mo> ‖ </mml:mo></mml:mrow></mml:mrow><mml:mn> 2 </mml:mn></mml:msub><mml:mo> ≤ </mml:mo><mml:mi> ϵ </mml:mi></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> to denote the <inline-formula><mml:math><mml:mi> ϵ </mml:mi></mml:math></inline-formula> -neighborhood of <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> θ </mml:mi><mml:mo> ⋆ </mml:mo></mml:msup></mml:mrow></mml:math></inline-formula> . </p>
        <p><italic>Proof.</italic> We provide its proof in <bold>Appendix C</bold>. □</p>
        <p><bold>Remark 6</bold><italic>Theorem</italic>2 <italic>shows that as</italic><inline-formula><mml:math><mml:mrow><mml:mi> t </mml:mi><mml:mo> → </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow></mml:math></inline-formula> , <italic>the sequence</italic><inline-formula><mml:math><mml:mrow><mml:msubsup><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> i </mml:mi></mml:msub></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> i </mml:mi><mml:mo> = </mml:mo><mml:mi> t </mml:mi></mml:mrow><mml:mrow><mml:mi> κ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> t </mml:mi><mml:mo> , </mml:mo><mml:msub><mml:mi> T </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:mrow></mml:math></inline-formula><italic>collects to an arbitrarily small neighborhood of the optimal solution</italic><inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> θ </mml:mi><mml:mo> ⋆ </mml:mo></mml:msup></mml:mrow></mml:math></inline-formula><italic>with probability one</italic>, <italic>i.e.</italic>, </p>
        <disp-formula id="FD55">
          <mml:math>
            <mml:mrow>
              <mml:munder>
                <mml:mrow>
                  <mml:mtext>lim</mml:mtext>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>→</mml:mo>
                  <mml:mi>∞</mml:mi>
                </mml:mrow>
              </mml:munder>
              <mml:mi>ℙ</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mstyle displaystyle="true">
                    <mml:msubsup>
                      <mml:mo>∩</mml:mo>
                      <mml:mrow>
                        <mml:mi>i</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mi>t</mml:mi>
                      </mml:mrow>
                      <mml:mrow>
                        <mml:mi>κ</mml:mi>
                        <mml:mrow>
                          <mml:mo>(</mml:mo>
                          <mml:mrow>
                            <mml:mi>t</mml:mi>
                            <mml:mo>,</mml:mo>
                            <mml:msub>
                              <mml:mi>T</mml:mi>
                              <mml:mi>t</mml:mi>
                            </mml:msub>
                          </mml:mrow>
                          <mml:mo>)</mml:mo>
                        </mml:mrow>
                      </mml:mrow>
                    </mml:msubsup>
                    <mml:mrow>
                      <mml:mrow>
                        <mml:mo>{</mml:mo>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mi>θ</mml:mi>
                            <mml:mi>i</mml:mi>
                          </mml:msub>
                          <mml:mo>∈</mml:mo>
                          <mml:msub>
                            <mml:mi>N</mml:mi>
                            <mml:mi>ϵ</mml:mi>
                          </mml:msub>
                          <mml:mrow>
                            <mml:mo>(</mml:mo>
                            <mml:mrow>
                              <mml:msup>
                                <mml:mi>θ</mml:mi>
                                <mml:mo>⋆</mml:mo>
                              </mml:msup>
                            </mml:mrow>
                            <mml:mo>)</mml:mo>
                          </mml:mrow>
                        </mml:mrow>
                        <mml:mo>}</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                  </mml:mstyle>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mn>1.</mml:mn>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>In fact, the results (38) implies </p>
        <disp-formula id="FD56">
          <mml:math>
            <mml:mrow>
              <mml:munder>
                <mml:mrow>
                  <mml:mtext>lim</mml:mtext>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>→</mml:mo>
                  <mml:mi>∞</mml:mi>
                </mml:mrow>
              </mml:munder>
              <mml:mi>ℙ</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>θ</mml:mi>
                    <mml:mi>i</mml:mi>
                  </mml:msub>
                  <mml:mo>∉</mml:mo>
                  <mml:mi mathvariant="script">N</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>θ</mml:mi>
                        <mml:mo>⋆</mml:mo>
                      </mml:msub>
                      <mml:mo>,</mml:mo>
                      <mml:mi>ϵ</mml:mi>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mo>,</mml:mo>
                  <mml:mo>∃</mml:mo>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mi>i</mml:mi>
                  <mml:mo>∈</mml:mo>
                  <mml:mrow>
                    <mml:mo>[</mml:mo>
                    <mml:mrow>
                      <mml:mi>t</mml:mi>
                      <mml:mo>,</mml:mo>
                      <mml:mi>κ</mml:mi>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>,</mml:mo>
                          <mml:msub>
                            <mml:mi>T</mml:mi>
                            <mml:mi>t</mml:mi>
                          </mml:msub>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                    <mml:mo>]</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mn>0</mml:mn>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>then we know </p>
        <disp-formula id="FD57">
          <mml:math>
            <mml:mtable columnalign="left">
              <mml:mtr>
                <mml:mtd>
                  <mml:mn>1</mml:mn>
                  <mml:mo>−</mml:mo>
                  <mml:munder>
                    <mml:mrow>
                      <mml:mtext>lim</mml:mtext>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mi>t</mml:mi>
                      <mml:mo>→</mml:mo>
                      <mml:mi>∞</mml:mi>
                    </mml:mrow>
                  </mml:munder>
                  <mml:mi>ℙ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>θ</mml:mi>
                        <mml:mi>i</mml:mi>
                      </mml:msub>
                      <mml:mo>∉</mml:mo>
                      <mml:mi mathvariant="script">N</mml:mi>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mi>θ</mml:mi>
                            <mml:mo>⋆</mml:mo>
                          </mml:msub>
                          <mml:mo>,</mml:mo>
                          <mml:mi>ϵ</mml:mi>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                      <mml:mo>,</mml:mo>
                      <mml:mo>∃</mml:mo>
                      <mml:mtext>
                         
                      </mml:mtext>
                      <mml:mi>i</mml:mi>
                      <mml:mo>∈</mml:mo>
                      <mml:mrow>
                        <mml:mo>[</mml:mo>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>,</mml:mo>
                          <mml:mi>κ</mml:mi>
                          <mml:mrow>
                            <mml:mo>(</mml:mo>
                            <mml:mrow>
                              <mml:mi>t</mml:mi>
                              <mml:mo>,</mml:mo>
                              <mml:msub>
                                <mml:mi>T</mml:mi>
                                <mml:mi>t</mml:mi>
                              </mml:msub>
                            </mml:mrow>
                            <mml:mo>)</mml:mo>
                          </mml:mrow>
                        </mml:mrow>
                        <mml:mo>]</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mtd>
              </mml:mtr>
              <mml:mtr>
                <mml:mtd>
                  <mml:mo>=</mml:mo>
                  <mml:munder>
                    <mml:mrow>
                      <mml:mtext>lim</mml:mtext>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mi>t</mml:mi>
                      <mml:mo>→</mml:mo>
                      <mml:mi>∞</mml:mi>
                    </mml:mrow>
                  </mml:munder>
                  <mml:mi>ℙ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mover accent="true">
                        <mml:mrow>
                          <mml:msub>
                            <mml:mi>θ</mml:mi>
                            <mml:mi>i</mml:mi>
                          </mml:msub>
                          <mml:mo>∉</mml:mo>
                          <mml:mi mathvariant="script">N</mml:mi>
                          <mml:mrow>
                            <mml:mo>(</mml:mo>
                            <mml:mrow>
                              <mml:msub>
                                <mml:mi>θ</mml:mi>
                                <mml:mo>⋆</mml:mo>
                              </mml:msub>
                              <mml:mo>,</mml:mo>
                              <mml:mi>ϵ</mml:mi>
                            </mml:mrow>
                            <mml:mo>)</mml:mo>
                          </mml:mrow>
                          <mml:mo>,</mml:mo>
                          <mml:mo>∃</mml:mo>
                          <mml:mtext>
                             
                          </mml:mtext>
                          <mml:mi>i</mml:mi>
                          <mml:mo>∈</mml:mo>
                          <mml:mrow>
                            <mml:mo>[</mml:mo>
                            <mml:mrow>
                              <mml:mi>t</mml:mi>
                              <mml:mo>,</mml:mo>
                              <mml:mi>κ</mml:mi>
                              <mml:mrow>
                                <mml:mo>(</mml:mo>
                                <mml:mrow>
                                  <mml:mi>t</mml:mi>
                                  <mml:mo>,</mml:mo>
                                  <mml:msub>
                                    <mml:mi>T</mml:mi>
                                    <mml:mi>t</mml:mi>
                                  </mml:msub>
                                </mml:mrow>
                                <mml:mo>)</mml:mo>
                              </mml:mrow>
                            </mml:mrow>
                            <mml:mo>]</mml:mo>
                          </mml:mrow>
                        </mml:mrow>
                        <mml:mo stretchy="true">¯</mml:mo>
                      </mml:mover>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mtd>
              </mml:mtr>
              <mml:mtr>
                <mml:mtd>
                  <mml:mo>=</mml:mo>
                  <mml:munder>
                    <mml:mrow>
                      <mml:mtext>lim</mml:mtext>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mi>t</mml:mi>
                      <mml:mo>→</mml:mo>
                      <mml:mi>∞</mml:mi>
                    </mml:mrow>
                  </mml:munder>
                  <mml:mi>ℙ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mover accent="true">
                        <mml:mrow>
                          <mml:mstyle displaystyle="true">
                            <mml:msubsup>
                              <mml:mo>∪</mml:mo>
                              <mml:mrow>
                                <mml:mi>i</mml:mi>
                                <mml:mo>=</mml:mo>
                                <mml:mi>t</mml:mi>
                              </mml:mrow>
                              <mml:mrow>
                                <mml:mi>κ</mml:mi>
                                <mml:mrow>
                                  <mml:mo>(</mml:mo>
                                  <mml:mrow>
                                    <mml:mi>t</mml:mi>
                                    <mml:mo>,</mml:mo>
                                    <mml:msub>
                                      <mml:mi>T</mml:mi>
                                      <mml:mi>t</mml:mi>
                                    </mml:msub>
                                  </mml:mrow>
                                  <mml:mo>)</mml:mo>
                                </mml:mrow>
                              </mml:mrow>
                            </mml:msubsup>
                            <mml:mrow>
                              <mml:mrow>
                                <mml:mo>{</mml:mo>
                                <mml:mrow>
                                  <mml:msub>
                                    <mml:mi>θ</mml:mi>
                                    <mml:mi>i</mml:mi>
                                  </mml:msub>
                                  <mml:mo>∉</mml:mo>
                                  <mml:mi mathvariant="script">N</mml:mi>
                                  <mml:mrow>
                                    <mml:mo>(</mml:mo>
                                    <mml:mrow>
                                      <mml:msub>
                                        <mml:mi>θ</mml:mi>
                                        <mml:mo>⋆</mml:mo>
                                      </mml:msub>
                                      <mml:mo>,</mml:mo>
                                      <mml:mi>ϵ</mml:mi>
                                    </mml:mrow>
                                    <mml:mo>)</mml:mo>
                                  </mml:mrow>
                                </mml:mrow>
                                <mml:mo>}</mml:mo>
                              </mml:mrow>
                            </mml:mrow>
                          </mml:mstyle>
                        </mml:mrow>
                        <mml:mo stretchy="true">¯</mml:mo>
                      </mml:mover>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mtd>
              </mml:mtr>
              <mml:mtr>
                <mml:mtd>
                  <mml:mo>=</mml:mo>
                  <mml:munder>
                    <mml:mrow>
                      <mml:mtext>lim</mml:mtext>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mi>t</mml:mi>
                      <mml:mo>→</mml:mo>
                      <mml:mi>∞</mml:mi>
                    </mml:mrow>
                  </mml:munder>
                  <mml:mi>ℙ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mstyle displaystyle="true">
                        <mml:msubsup>
                          <mml:mo>∩</mml:mo>
                          <mml:mrow>
                            <mml:mi>i</mml:mi>
                            <mml:mo>=</mml:mo>
                            <mml:mi>t</mml:mi>
                          </mml:mrow>
                          <mml:mrow>
                            <mml:mi>κ</mml:mi>
                            <mml:mrow>
                              <mml:mo>(</mml:mo>
                              <mml:mrow>
                                <mml:mi>t</mml:mi>
                                <mml:mo>,</mml:mo>
                                <mml:msub>
                                  <mml:mi>T</mml:mi>
                                  <mml:mi>t</mml:mi>
                                </mml:msub>
                              </mml:mrow>
                              <mml:mo>)</mml:mo>
                            </mml:mrow>
                          </mml:mrow>
                        </mml:msubsup>
                        <mml:mrow>
                          <mml:mrow>
                            <mml:mo>{</mml:mo>
                            <mml:mrow>
                              <mml:msub>
                                <mml:mi>θ</mml:mi>
                                <mml:mi>i</mml:mi>
                              </mml:msub>
                              <mml:mo>∈</mml:mo>
                              <mml:mi mathvariant="script">N</mml:mi>
                              <mml:mrow>
                                <mml:mo>(</mml:mo>
                                <mml:mrow>
                                  <mml:msub>
                                    <mml:mi>θ</mml:mi>
                                    <mml:mo>⋆</mml:mo>
                                  </mml:msub>
                                  <mml:mo>,</mml:mo>
                                  <mml:mi>ϵ</mml:mi>
                                </mml:mrow>
                                <mml:mo>)</mml:mo>
                              </mml:mrow>
                            </mml:mrow>
                            <mml:mo>}</mml:mo>
                          </mml:mrow>
                        </mml:mrow>
                      </mml:mstyle>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mo>.</mml:mo>
                </mml:mtd>
              </mml:mtr>
            </mml:mtable>
          </mml:math>
        </disp-formula>
        <p>That is <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mi> lim </mml:mi></mml:mrow><mml:mrow><mml:mi> t </mml:mi><mml:mo> → </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow></mml:msub><mml:mi> ℙ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mstyle displaystyle="true"><mml:msubsup><mml:mo> ∩ </mml:mo><mml:mrow><mml:mi> i </mml:mi><mml:mo> = </mml:mo><mml:mi> t </mml:mi></mml:mrow><mml:mrow><mml:mi> κ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> t </mml:mi><mml:mo> , </mml:mo><mml:msub><mml:mi> T </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> i </mml:mi></mml:msub><mml:mo> ∈ </mml:mo><mml:mi mathvariant="script"> N </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mo> ⋆ </mml:mo></mml:msub><mml:mo> , </mml:mo><mml:mi> ϵ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow></mml:mstyle></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> .</p>
      </sec>
    </sec>
    <sec id="sec6">
      <title>6. Experiments</title>
      <p>In this section, we test the capacity of <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> for two typical tasks: off-policy evaluation and control.</p>
      <p>For off-policy evaluation, we compare <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> with four state-of-art algorithms: <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> [<xref ref-type="bibr" rid="B11">11</xref>], <inline-formula><mml:math><mml:mrow><mml:mtext> ABQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> ζ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> [<xref ref-type="bibr" rid="B20">20</xref>], <inline-formula><mml:math><mml:mrow><mml:mtext> GTB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:mtext> GRetrace </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> [<xref ref-type="bibr" rid="B12">12</xref>] over two typical measurements: MSPBE and mean square error (MSE). It is worth noting that if <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> is reduced to a new version of <inline-formula><mml:math><mml:mrow><mml:mtext> GTB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> (we denote it as <inline-formula><mml:math><mml:mrow><mml:mtext> GTB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> -v0), thus, we also show its comparison to <inline-formula><mml:math><mml:mrow><mml:mtext> GTB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> [<xref ref-type="bibr" rid="B12">12</xref>] (we denote it as <inline-formula><mml:math><mml:mrow><mml:mtext> GTB </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> -v1).For the control task, our goal is to show the the trade-off between <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> . Empirical results show the <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> with a value <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> ∈ </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> that creates a mixture of <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> and gradient <inline-formula><mml:math><mml:mrow><mml:mtext> Tree Backup </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> achieves a better performance than both the extreme end <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> . </p>
      <p>These domains are standard diagnostic benchmarks intended to isolate the off-policy instability under linear function approximation. Scaling to very high-dimensional environments is left as future work.</p>
      <sec id="sec6dot1">
        <title>6.1. Off-Policy Evaluation Experiments</title>
        <p>We present the domains in the experiments as follows.</p>
        <p>(1) <bold>Two State MDP</bold> [<xref ref-type="bibr" rid="B12">12</xref>]. This MDP is shown in <xref ref-type="fig" rid="fig1">Figure 1</xref>, the behavior policy <inline-formula><mml:math><mml:mrow><mml:mi> μ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mtext> right </mml:mtext><mml:mo> | </mml:mo><mml:mo> ⋅ </mml:mo></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:mn> 0.5 </mml:mn></mml:mrow></mml:math></inline-formula> , and target policy <inline-formula><mml:math><mml:mrow><mml:mi> π </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mtext> right </mml:mtext><mml:mo> | </mml:mo><mml:mo> ⋅ </mml:mo></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> . We assign the features <inline-formula><mml:math><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 1 </mml:mn><mml:mo> , </mml:mo><mml:mn> 0 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> ⊤ </mml:mo></mml:msup><mml:mo> , </mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 2 </mml:mn><mml:mo> , </mml:mo><mml:mn> 0 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> ⊤ </mml:mo></mml:msup><mml:mo> , </mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> ⊤ </mml:mo></mml:msup><mml:mo> , </mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 2 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> ⊤ </mml:mo></mml:msup></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> to the state-action pairs <inline-formula><mml:math><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> s </mml:mi><mml:mn> 1 </mml:mn></mml:msub><mml:mo> , </mml:mo><mml:mtext> right </mml:mtext></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> , </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> s </mml:mi><mml:mn> 2 </mml:mn></mml:msub><mml:mo> , </mml:mo><mml:mtext> right </mml:mtext></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> , </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> s </mml:mi><mml:mn> 1 </mml:mn></mml:msub><mml:mo> , </mml:mo><mml:mtext> left </mml:mtext></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> , </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> s </mml:mi><mml:mn> 2 </mml:mn></mml:msub><mml:mo> , </mml:mo><mml:mtext> left </mml:mtext></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , <italic>i.e.</italic>, </p>
        <disp-formula id="FD58">
          <mml:math>
            <mml:mrow>
              <mml:mi>Φ</mml:mi>
              <mml:mo>=</mml:mo>
              <mml:msup>
                <mml:mrow>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mtable columnalign="left">
                        <mml:mtr columnalign="left">
                          <mml:mtd columnalign="left">
                            <mml:mn>1</mml:mn>
                          </mml:mtd>
                          <mml:mtd columnalign="left">
                            <mml:mn>2</mml:mn>
                          </mml:mtd>
                          <mml:mtd columnalign="left">
                            <mml:mn>0</mml:mn>
                          </mml:mtd>
                          <mml:mtd columnalign="left">
                            <mml:mn>0</mml:mn>
                          </mml:mtd>
                        </mml:mtr>
                        <mml:mtr columnalign="left">
                          <mml:mtd columnalign="left">
                            <mml:mn>0</mml:mn>
                          </mml:mtd>
                          <mml:mtd columnalign="left">
                            <mml:mn>0</mml:mn>
                          </mml:mtd>
                          <mml:mtd columnalign="left">
                            <mml:mn>1</mml:mn>
                          </mml:mtd>
                          <mml:mtd columnalign="left">
                            <mml:mn>2</mml:mn>
                          </mml:mtd>
                        </mml:mtr>
                      </mml:mtable>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mo>⊤</mml:mo>
              </mml:msup>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>(2) <bold>Baird Star</bold> [<xref ref-type="bibr" rid="B21">21</xref>]. The Baird Star is an episodic seven states MDP with two actions: dashed action and solid action. In this example, the behavior policy <inline-formula><mml:math><mml:mrow><mml:mi> μ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mo> ⋅ </mml:mo><mml:mo> | </mml:mo><mml:mtext> dashed </mml:mtext></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:mfrac><mml:mn> 6 </mml:mn><mml:mn> 7 </mml:mn></mml:mfrac></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:mi> μ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mo> ⋅ </mml:mo><mml:mo> | </mml:mo><mml:mtext> solid </mml:mtext></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:mfrac><mml:mn> 1 </mml:mn><mml:mn> 7 </mml:mn></mml:mfrac></mml:mrow></mml:math></inline-formula> and target policy <inline-formula><mml:math><mml:mrow><mml:mi> π </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mo> ⋅ </mml:mo><mml:mo> | </mml:mo><mml:mtext> solid </mml:mtext></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> . We choose the feature map matrix as follows </p>
        <disp-formula id="FD59">
          <mml:math display="inline">
            <mml:mrow>
              <mml:mi>Φ</mml:mi>
              <mml:mo>=</mml:mo>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mtable>
                    <mml:mtr>
                      <mml:mtd>
                        <mml:mrow>
                          <mml:mn>2</mml:mn>
                          <mml:msub>
                            <mml:mstyle mathvariant="bold" mathsize="normal">
                              <mml:mi>I</mml:mi>
                            </mml:mstyle>
                            <mml:mrow>
                              <mml:mn>7</mml:mn>
                              <mml:mo>×</mml:mo>
                              <mml:mn>7</mml:mn>
                            </mml:mrow>
                          </mml:msub>
                        </mml:mrow>
                      </mml:mtd>
                      <mml:mtd>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mn>1</mml:mn>
                            <mml:mrow>
                              <mml:mn>7</mml:mn>
                              <mml:mo>×</mml:mo>
                              <mml:mn>1</mml:mn>
                            </mml:mrow>
                          </mml:msub>
                        </mml:mrow>
                      </mml:mtd>
                      <mml:mtd>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mn>0</mml:mn>
                            <mml:mrow>
                              <mml:mn>7</mml:mn>
                              <mml:mo>×</mml:mo>
                              <mml:mn>8</mml:mn>
                            </mml:mrow>
                          </mml:msub>
                        </mml:mrow>
                      </mml:mtd>
                    </mml:mtr>
                    <mml:mtr>
                      <mml:mtd>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mn>0</mml:mn>
                            <mml:mrow>
                              <mml:mn>7</mml:mn>
                              <mml:mo>×</mml:mo>
                              <mml:mn>8</mml:mn>
                            </mml:mrow>
                          </mml:msub>
                        </mml:mrow>
                      </mml:mtd>
                      <mml:mtd>
                        <mml:mrow>
                          <mml:mn>2</mml:mn>
                          <mml:msub>
                            <mml:mstyle mathvariant="bold" mathsize="normal">
                              <mml:mi>I</mml:mi>
                            </mml:mstyle>
                            <mml:mrow>
                              <mml:mn>7</mml:mn>
                              <mml:mo>×</mml:mo>
                              <mml:mn>7</mml:mn>
                            </mml:mrow>
                          </mml:msub>
                        </mml:mrow>
                      </mml:mtd>
                      <mml:mtd>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mn>1</mml:mn>
                            <mml:mrow>
                              <mml:mn>7</mml:mn>
                              <mml:mo>×</mml:mo>
                              <mml:mn>1</mml:mn>
                            </mml:mrow>
                          </mml:msub>
                        </mml:mrow>
                      </mml:mtd>
                    </mml:mtr>
                  </mml:mtable>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>where <inline-formula><mml:math><mml:mstyle mathvariant="bold" mathsize="normal"><mml:mi> I </mml:mi></mml:mstyle></mml:math></inline-formula> denotes the identity matrix, <inline-formula><mml:math display="inline"><mml:mn> 0 </mml:mn></mml:math></inline-formula> denotes a matrix whose elements are all 0, and <inline-formula><mml:math><mml:mrow><mml:msub><mml:mn> 1 </mml:mn><mml:mrow><mml:mn> 7 </mml:mn><mml:mo> × </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> denotes a vector whose elements are all 1. We used <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mn> 0 </mml:mn></mml:msub><mml:mo> = </mml:mo><mml:msup><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 1 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn><mml:mo> , </mml:mo><mml:mn> 10 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mtext> T </mml:mtext></mml:msup></mml:mrow></mml:math></inline-formula> as initial parameter vector for the methods that allow specifying a start estimate, TD-learning is known to diverge for this initialization of the parameter-vector [<xref ref-type="bibr" rid="B3">3</xref>][<xref ref-type="bibr" rid="B22">22</xref>].</p>
        <p>(3) <bold>Cliff</bold><bold>Walking</bold>. This is a standard undiscounted, episodic task, with start and goal states, and the usual actions causing movement up, down, right, and left.</p>
        <p>(4) <bold>Grid World</bold>. This environment from ([<xref ref-type="bibr" rid="B3">3</xref>], Chapter 4), where the agent on an 4 × 4 grid and your goal is to reach the terminal state at the top left or the bottom right corner.</p>
        <p>(5) <bold>Windy</bold><bold>Gridworld</bold>. This environment from ([<xref ref-type="bibr" rid="B3">3</xref>], Chapter 6). Windy Gridworld problem for reinforcement learning. Actions include going up, down, right, and left. In each column the wind pushes you up a specific number of steps (for the next action). If an action would take you off the grid, you remain in the previous state. For each step you get a reward of −1, until the agent reach into a terminal state.</p>
        <p>We summarize the domains, feature settings, target policy and behavior policy below.</p>
        <p><bold>Two Measurements for Off-Policy Evaluation</bold>. In this section, we use empirical <inline-formula><mml:math><mml:mrow><mml:mtext> RMSPBE </mml:mtext><mml:mo> = </mml:mo><mml:mfrac><mml:mn> 1 </mml:mn><mml:mn> 2 </mml:mn></mml:mfrac><mml:msubsup><mml:mrow><mml:mrow><mml:mo> ‖ </mml:mo><mml:mrow><mml:mover accent="true"><mml:mi> b </mml:mi><mml:mo> ^ </mml:mo></mml:mover><mml:mo> + </mml:mo><mml:mover accent="true"><mml:mi> A </mml:mi><mml:mo> ^ </mml:mo></mml:mover><mml:mi> θ </mml:mi></mml:mrow><mml:mo> ‖ </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:msup><mml:mover accent="true"><mml:mi> M </mml:mi><mml:mo> ^ </mml:mo></mml:mover><mml:mrow><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msup></mml:mrow><mml:mn> 2 </mml:mn></mml:msubsup></mml:mrow></mml:math></inline-formula> to evaluate the performance, where we evaluate <inline-formula><mml:math><mml:mover accent="true"><mml:mi> A </mml:mi><mml:mo> ^ </mml:mo></mml:mover></mml:math></inline-formula> , <inline-formula><mml:math><mml:mover accent="true"><mml:mi> b </mml:mi><mml:mo> ^ </mml:mo></mml:mover></mml:math></inline-formula> , and <inline-formula><mml:math><mml:mover accent="true"><mml:mi> M </mml:mi><mml:mo> ^ </mml:mo></mml:mover></mml:math></inline-formula> according to their unbiased estimators. Additionally, we also compare the performance over a common measurement empirical MSE: <inline-formula><mml:math><mml:mrow><mml:mtext> MSE </mml:mtext><mml:mo> = </mml:mo><mml:msubsup><mml:mrow><mml:mrow><mml:mo> ‖ </mml:mo><mml:mrow><mml:mi> Φ </mml:mi><mml:mi> θ </mml:mi><mml:mo> − </mml:mo><mml:msup><mml:mi> q </mml:mi><mml:mi> π </mml:mi></mml:msup></mml:mrow><mml:mo> ‖ </mml:mo></mml:mrow></mml:mrow><mml:mi> Ξ </mml:mi><mml:mn> 2 </mml:mn></mml:msubsup></mml:mrow></mml:math></inline-formula> , where <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> q </mml:mi><mml:mi> π </mml:mi></mml:msup></mml:mrow></mml:math></inline-formula> is estimated by simulating the target policy <inline-formula><mml:math><mml:mi> π </mml:mi></mml:math></inline-formula> and averaging the discounted cumulative rewards over trajectories.</p>
        <p><bold>Hyper-parameter Setting</bold>. We run the hyper parameter <inline-formula><mml:math><mml:mi> σ </mml:mi></mml:math></inline-formula> as follows: <inline-formula><mml:math><mml:mi> σ </mml:mi></mml:math></inline-formula> ranges from 0 to 1 with step of 0.02, <italic>i.e.</italic>, </p>
        <disp-formula id="FD60">
          <mml:math>
            <mml:mrow>
              <mml:mi>Σ</mml:mi>
              <mml:mo>=</mml:mo>
              <mml:mrow>
                <mml:mo>{</mml:mo>
                <mml:mrow>
                  <mml:mn>0</mml:mn>
                  <mml:mo>,</mml:mo>
                  <mml:mn>0.02</mml:mn>
                  <mml:mo>,</mml:mo>
                  <mml:mn>0.04</mml:mn>
                  <mml:mo>,</mml:mo>
                  <mml:mo>⋯</mml:mo>
                  <mml:mo>,</mml:mo>
                  <mml:mn>0.98</mml:mn>
                  <mml:mo>,</mml:mo>
                  <mml:mn>1.0</mml:mn>
                </mml:mrow>
                <mml:mo>}</mml:mo>
              </mml:mrow>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>It collects 51 results w.r.t. <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> . We set <inline-formula><mml:math><mml:mrow><mml:mi> λ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0.99 </mml:mn></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:mi> γ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0.99 </mml:mn></mml:mrow></mml:math></inline-formula> , and run the step-size <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> α </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> = </mml:mo><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mn> 10 </mml:mn></mml:mrow><mml:mrow><mml:mo> − </mml:mo><mml:mn> 2 </mml:mn></mml:mrow></mml:msup><mml:mo> , </mml:mo><mml:mn> 2 </mml:mn><mml:mo> × </mml:mo><mml:msup><mml:mrow><mml:mn> 10 </mml:mn></mml:mrow><mml:mrow><mml:mo> − </mml:mo><mml:mn> 2 </mml:mn></mml:mrow></mml:msup><mml:mo> , </mml:mo><mml:msup><mml:mrow><mml:mn> 10 </mml:mn></mml:mrow><mml:mrow><mml:mo> − </mml:mo><mml:mn> 3 </mml:mn></mml:mrow></mml:msup><mml:mo> , </mml:mo><mml:mn> 2 </mml:mn><mml:mo> × </mml:mo><mml:msup><mml:mrow><mml:mn> 10 </mml:mn></mml:mrow><mml:mrow><mml:mo> − </mml:mo><mml:mn> 3 </mml:mn></mml:mrow></mml:msup></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> η </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> = </mml:mo><mml:msub><mml:mi> β </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> / </mml:mo><mml:msub><mml:mi> α </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> = </mml:mo><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msup><mml:mn> 2 </mml:mn><mml:mn> 0 </mml:mn></mml:msup><mml:mo> , </mml:mo><mml:msup><mml:mn> 2 </mml:mn><mml:mrow><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msup><mml:mo> , </mml:mo><mml:mo> ⋯ </mml:mo><mml:mo> , </mml:mo><mml:msup><mml:mn> 2 </mml:mn><mml:mrow><mml:mo> − </mml:mo><mml:mn> 10 </mml:mn></mml:mrow></mml:msup></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> .</p>
        <p><bold>Results Report</bold>. All the results shown in<xref ref-type="fig" rid="fig2">Figure 2</xref> and <xref ref-type="fig" rid="fig3">Figure 3</xref> are the average of 5 runs, where we choose the best <inline-formula><mml:math><mml:mi> σ </mml:mi></mml:math></inline-formula> among the 51 results w.r.t. the space <inline-formula><mml:math><mml:mi> Σ </mml:mi></mml:math></inline-formula> The results the proposed <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> outperforms the the baseline algorithms. The results of <xref ref-type="fig" rid="fig2">Figure 2</xref> and <xref ref-type="fig" rid="fig3">Figure 3</xref> also show <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> with an intermediate <inline-formula><mml:math><mml:mi> σ </mml:mi></mml:math></inline-formula> (between 0 and 1) has a better performance than the extreme case (<inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> and 1). This experiment further validates that unifying some existing algorithms can create a better algorithm.</p>
        <fig id="fig3">
          <label>Figure 3</label>
          <graphic xlink:href="https://html.scirp.org/file/1724755-rId975.jpeg?20260624025732" />
        </fig>
        <p><bold>Figure 2.</bold>RMSPBE comparison with different baseline algorithms. </p>
        <fig id="fig4">
          <label>Figure 4</label>
          <graphic xlink:href="https://html.scirp.org/file/1724755-rId976.jpeg?20260624025732" />
        </fig>
        <p><bold>Figure 3.</bold>MSE comparison with with different baseline algorithms. </p>
      </sec>
      <sec id="sec6dot2">
        <title>6.2. Control Domain: Off-Policy Evaluation</title>
        <p>In this section, we test the off-policy evaluation behavior of <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> algorithm on mountain car domain, where the agent considers the task of driving an underpowered car up a steep mountain road. The agent receives a reward of -1 at every step until it reaches the goal region at the top of the hill. Since the state space of this domain is continuous, we use the open tile coding software<sup>2</sup> to extract feature of states. Recall the states and actions of <italic>MountainCar</italic>: </p>
        <disp-formula id="FD61">
          <mml:math>
            <mml:mrow>
              <mml:mi mathvariant="script">S</mml:mi>
              <mml:mo>=</mml:mo>
              <mml:mrow>
                <mml:mo>{</mml:mo>
                <mml:mrow>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mtext>Velocity</mml:mtext>
                      <mml:mo>,</mml:mo>
                      <mml:mtext>Position</mml:mtext>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mo>}</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:mo>−</mml:mo>
                  <mml:mn>0.07</mml:mn>
                  <mml:mo>,</mml:mo>
                  <mml:mn>0.07</mml:mn>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>×</mml:mo>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:mo>−</mml:mo>
                  <mml:mn>1.2</mml:mn>
                  <mml:mo>,</mml:mo>
                  <mml:mn>0.6</mml:mn>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <disp-formula id="FD62">
          <mml:math>
            <mml:mrow>
              <mml:mi mathvariant="script">A</mml:mi>
              <mml:mo>=</mml:mo>
              <mml:mrow>
                <mml:mo>{</mml:mo>
                <mml:mrow>
                  <mml:mtext>left</mml:mtext>
                  <mml:mo>,</mml:mo>
                  <mml:mtext>neutral</mml:mtext>
                  <mml:mo>,</mml:mo>
                  <mml:mtext>right</mml:mtext>
                </mml:mrow>
                <mml:mo>}</mml:mo>
              </mml:mrow>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>In this experiment, if <inline-formula><mml:math><mml:mrow><mml:mtext> Velocity </mml:mtext><mml:mo> &gt; </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , we use behavior policy </p>
        <disp-formula id="FD63">
          <mml:math>
            <mml:mrow>
              <mml:mi>μ</mml:mi>
              <mml:mo>=</mml:mo>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mfrac>
                    <mml:mn>1</mml:mn>
                    <mml:mrow>
                      <mml:mn>100</mml:mn>
                    </mml:mrow>
                  </mml:mfrac>
                  <mml:mo>,</mml:mo>
                  <mml:mfrac>
                    <mml:mn>1</mml:mn>
                    <mml:mrow>
                      <mml:mn>100</mml:mn>
                    </mml:mrow>
                  </mml:mfrac>
                  <mml:mo>,</mml:mo>
                  <mml:mfrac>
                    <mml:mrow>
                      <mml:mn>98</mml:mn>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mn>100</mml:mn>
                    </mml:mrow>
                  </mml:mfrac>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
              <mml:mi>π</mml:mi>
              <mml:mo>=</mml:mo>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mfrac>
                    <mml:mn>1</mml:mn>
                    <mml:mrow>
                      <mml:mn>10</mml:mn>
                    </mml:mrow>
                  </mml:mfrac>
                  <mml:mo>,</mml:mo>
                  <mml:mfrac>
                    <mml:mn>1</mml:mn>
                    <mml:mrow>
                      <mml:mn>10</mml:mn>
                    </mml:mrow>
                  </mml:mfrac>
                  <mml:mo>,</mml:mo>
                  <mml:mfrac>
                    <mml:mn>8</mml:mn>
                    <mml:mrow>
                      <mml:mn>10</mml:mn>
                    </mml:mrow>
                  </mml:mfrac>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>;</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>else </p>
        <disp-formula id="FD64">
          <mml:math>
            <mml:mrow>
              <mml:mi>μ</mml:mi>
              <mml:mo>=</mml:mo>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mfrac>
                    <mml:mrow>
                      <mml:mn>98</mml:mn>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mn>100</mml:mn>
                    </mml:mrow>
                  </mml:mfrac>
                  <mml:mo>,</mml:mo>
                  <mml:mfrac>
                    <mml:mn>1</mml:mn>
                    <mml:mrow>
                      <mml:mn>100</mml:mn>
                    </mml:mrow>
                  </mml:mfrac>
                  <mml:mo>,</mml:mo>
                  <mml:mfrac>
                    <mml:mn>1</mml:mn>
                    <mml:mrow>
                      <mml:mn>100</mml:mn>
                    </mml:mrow>
                  </mml:mfrac>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
              <mml:mi>π</mml:mi>
              <mml:mo>=</mml:mo>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mfrac>
                    <mml:mn>8</mml:mn>
                    <mml:mrow>
                      <mml:mn>10</mml:mn>
                    </mml:mrow>
                  </mml:mfrac>
                  <mml:mo>,</mml:mo>
                  <mml:mfrac>
                    <mml:mn>1</mml:mn>
                    <mml:mrow>
                      <mml:mn>10</mml:mn>
                    </mml:mrow>
                  </mml:mfrac>
                  <mml:mo>,</mml:mo>
                  <mml:mfrac>
                    <mml:mn>1</mml:mn>
                    <mml:mrow>
                      <mml:mn>10</mml:mn>
                    </mml:mrow>
                  </mml:mfrac>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>Note that the target policy <inline-formula><mml:math><mml:mi> π </mml:mi></mml:math></inline-formula> is fixed throughout. Thus, this experiment acts as an off-policy evaluation within the Mountain Car domain. In this experiment, we set the number of tilings to be 4, and there are no white noise features. As suggested by Sutton and Barto [<xref ref-type="bibr" rid="B3">3</xref>], we set all the initial parameters to be 0, which is optimistic about causing extensive exploration.</p>
        <p>As before, we run the hyper parameter <inline-formula><mml:math><mml:mi> σ </mml:mi></mml:math></inline-formula> as follows: <inline-formula><mml:math><mml:mi> σ </mml:mi></mml:math></inline-formula> ranges from 0 to 1 with step of 0.02. It collects 51 results w.r.t. <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> . We also set <inline-formula><mml:math><mml:mrow><mml:mi> λ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0.99 </mml:mn></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:mi> γ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0.99 </mml:mn></mml:mrow></mml:math></inline-formula> , and run the step-size <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> α </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> = </mml:mo><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msup><mml:mrow><mml:mn> 10 </mml:mn></mml:mrow><mml:mrow><mml:mo> − </mml:mo><mml:mn> 2 </mml:mn></mml:mrow></mml:msup><mml:mo> , </mml:mo><mml:mn> 2 </mml:mn><mml:mo> × </mml:mo><mml:msup><mml:mrow><mml:mn> 10 </mml:mn></mml:mrow><mml:mrow><mml:mo> − </mml:mo><mml:mn> 2 </mml:mn></mml:mrow></mml:msup><mml:mo> , </mml:mo><mml:msup><mml:mrow><mml:mn> 10 </mml:mn></mml:mrow><mml:mrow><mml:mo> − </mml:mo><mml:mn> 3 </mml:mn></mml:mrow></mml:msup><mml:mo> , </mml:mo><mml:mn> 2 </mml:mn><mml:mo> × </mml:mo><mml:msup><mml:mrow><mml:mn> 10 </mml:mn></mml:mrow><mml:mrow><mml:mo> − </mml:mo><mml:mn> 3 </mml:mn></mml:mrow></mml:msup></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> η </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> = </mml:mo><mml:mrow><mml:mrow><mml:msub><mml:mi> β </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> / </mml:mo><mml:mrow><mml:msub><mml:mi> α </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:mrow><mml:mo> = </mml:mo><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msup><mml:mn> 2 </mml:mn><mml:mn> 0 </mml:mn></mml:msup><mml:mo> , </mml:mo><mml:msup><mml:mn> 2 </mml:mn><mml:mrow><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msup><mml:mo> , </mml:mo><mml:mo> ⋯ </mml:mo><mml:mo> , </mml:mo><mml:msup><mml:mn> 2 </mml:mn><mml:mrow><mml:mo> − </mml:mo><mml:mn> 10 </mml:mn></mml:mrow></mml:msup></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , the dimension of feature <inline-formula><mml:math><mml:mrow><mml:mi> p </mml:mi><mml:mo> = </mml:mo><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:mn> 512 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1024 </mml:mn><mml:mo> , </mml:mo><mml:mn> 2048 </mml:mn></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> .</p>
        <p><bold>Overall Presentation</bold>. We give more comprehensive results of the trade-off between <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> . We statistic of the number of <inline-formula><mml:math><mml:mi> σ </mml:mi></mml:math></inline-formula> happens for the following three case:</p>
        <p><bold>(I)</bold><inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> performs better than both <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> . <bold>(II)</bold><inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> performs better than <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> or <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> . <bold>(III)</bold><inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> performs worse than <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> . </p>
        <p>The setting of <inline-formula><mml:math><mml:mi> σ </mml:mi></mml:math></inline-formula> is the same as the previous section, and the total number of <inline-formula><mml:math><mml:mi> σ </mml:mi></mml:math></inline-formula> reaches 51.</p>
        <p><bold>Table 1.</bold>Returns under various parameters.</p>
        <table-wrap id="tbl1">
          <label>Table 1</label>
          <table>
            <tbody>
              <tr>
                <td colspan="2">Case</td>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>σ</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>0</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>σ</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>1</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>σ</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>0.1</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>σ</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>0.2</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>σ</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>0.3</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>σ</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>0.4</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>σ</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>0.5</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>σ</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>0.6</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>σ</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>0.7</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>σ</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>0.8</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>σ</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>0.9</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
              </tr>
              <tr>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>α</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>0.001</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>p</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>512</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>−122.0</td>
                <td>−123.6</td>
                <td>− 123.5</td>
                <td>
                  <bold>−</bold>
                  <bold>119.8</bold>
                </td>
                <td>
                  <bold>−</bold>
                  <bold>117.4</bold>
                </td>
                <td>
                  <bold>−</bold>
                  <bold>120.8</bold>
                </td>
                <td>
                  <bold>−</bold>
                  <bold>119.1</bold>
                </td>
                <td>−120.5</td>
                <td>
                  <bold>−</bold>
                  <bold>119.2</bold>
                </td>
                <td>
                  <bold>−</bold>
                  <bold>119.3</bold>
                </td>
                <td>
                  <bold>−</bold>
                  <bold>120.1</bold>
                </td>
              </tr>
              <tr>
                <td>
                </td>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>p</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>1024</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>−119.9</td>
                <td>−121.9</td>
                <td>−127.8</td>
                <td>−120.2</td>
                <td>−122.4</td>
                <td>−122.0</td>
                <td>
                  <bold>−</bold>
                  <bold>118.4</bold>
                </td>
                <td>−121.6</td>
                <td>−121.6</td>
                <td>−124.0</td>
                <td>−120.1</td>
              </tr>
              <tr>
                <td>
                </td>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>p</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>2048</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>−122.3</td>
                <td>−121.4</td>
                <td>−122.6</td>
                <td>−121.9</td>
                <td>
                  <bold>−</bold>
                  <bold>120.1</bold>
                </td>
                <td>−122.3</td>
                <td>−122.6</td>
                <td>
                  <bold>−</bold>
                  <bold>119.6</bold>
                </td>
                <td>
                  <bold>−</bold>
                  <bold>120.9</bold>
                </td>
                <td>−121.4</td>
                <td>−122.5</td>
              </tr>
              <tr>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>α</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>0.002</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>p</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>512</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>−126.9</td>
                <td>−124.2</td>
                <td>
                  <bold>−</bold>
                  <bold>124.2</bold>
                </td>
                <td>−127.5</td>
                <td>−125.3</td>
                <td>−125.2</td>
                <td>
                  <bold>−</bold>
                  <bold>124.0</bold>
                </td>
                <td>
                  <bold>−</bold>
                  <bold>121.6</bold>
                </td>
                <td>−125.4</td>
                <td>−125.8</td>
                <td>
                  <bold>−</bold>
                  <bold>120.2</bold>
                </td>
              </tr>
              <tr>
                <td>
                </td>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>p</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>1024</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>−124.1</td>
                <td>−123.1</td>
                <td>−122.4</td>
                <td>−126.3</td>
                <td>−122.3</td>
                <td>−123.0</td>
                <td>−121.4</td>
                <td>−126.2</td>
                <td>
                  <bold>−</bold>
                  <bold>121.3</bold>
                </td>
                <td>−123.6</td>
                <td>−126.0</td>
              </tr>
              <tr>
                <td>
                </td>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>p</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>2048</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>−124.8</td>
                <td>−124.0</td>
                <td>−126.4</td>
                <td>−124.6</td>
                <td>
                  <bold>−</bold>
                  <bold>122.7</bold>
                </td>
                <td>
                  <bold>−</bold>
                  <bold>123.9</bold>
                </td>
                <td>−125.1</td>
                <td>
                  <bold>−</bold>
                  <bold>122.5</bold>
                </td>
                <td>
                  <bold>−</bold>
                  <bold>123.6</bold>
                </td>
                <td>−126.4</td>
                <td>
                  <bold>−</bold>
                  <bold>122.7</bold>
                </td>
              </tr>
            </tbody>
          </table>
        </table-wrap>
        <p><bold>Table 2.</bold>Percentage under various parameters.</p>
        <table-wrap id="tbl2">
          <label>Table 2</label>
          <table>
            <tbody>
              <tr>
                <td colspan="2">Case</td>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>p</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>512</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>p</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>1024</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>p</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>2048</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
              </tr>
              <tr>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>α</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>0.001</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>I</td>
                <td>
                  <bold>69.8%</bold>
                </td>
                <td>20.4%</td>
                <td>
                  <bold>55.1%</bold>
                </td>
              </tr>
              <tr>
                <td>
                </td>
                <td>II</td>
                <td>14.1%</td>
                <td>36.7%</td>
                <td>20.4%</td>
              </tr>
              <tr>
                <td>
                </td>
                <td>III</td>
                <td>16.1%</td>
                <td>
                  <bold>42.9%</bold>
                </td>
                <td>24.5%</td>
              </tr>
              <tr>
                <td>
                  <inline-formula>
                    <mml:math>
                      <mml:mrow>
                        <mml:mi>α</mml:mi>
                        <mml:mo>=</mml:mo>
                        <mml:mn>0.002</mml:mn>
                      </mml:mrow>
                    </mml:math>
                  </inline-formula>
                </td>
                <td>I</td>
                <td>
                  <bold>53.1%</bold>
                </td>
                <td>6.1%</td>
                <td>
                  <bold>49.0%</bold>
                </td>
              </tr>
              <tr>
                <td>
                </td>
                <td>II</td>
                <td>38.8%</td>
                <td>16.3%</td>
                <td>18.4%</td>
              </tr>
              <tr>
                <td>
                </td>
                <td>III</td>
                <td>8.1%</td>
                <td>
                  <bold>77.6%</bold>
                </td>
                <td>32.6%</td>
              </tr>
            </tbody>
          </table>
        </table-wrap>
        <p><bold>Results Report</bold>. The results shown in <xref ref-type="fig" rid="fig2">Figure 2</xref> and <bold>Table 1</bold> are average of 5 runs, and each run contains 400 episodes. The result in <xref ref-type="fig" rid="fig2">Figure 2</xref> shows that <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> with an intermediate <inline-formula><mml:math><mml:mi> σ </mml:mi></mml:math></inline-formula> (between 0 and 1) has a better performance than the extreme case (<inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> and 1). This experiment further validates that unifying some existing algorithms can create a better algorithm for reinforcement. <bold>Table 1</bold> shows the returns mountaincar reaches the goal region at the top of the hill. As shown in <bold>Table 2</bold>, those results also show <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> achieves the best performance at a <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> ∈ </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , which implies the trade-off between <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> . That is to see the <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> with a value <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> ∈ </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> that creates a mixture of <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> and gradient <inline-formula><mml:math><mml:mrow><mml:mtext> Tree Backup </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mi> λ </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> achieves a better performance than both the extreme end <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> .</p>
      </sec>
    </sec>
    <sec id="sec7">
      <title>7. Conclusion</title>
      <p>In this paper, we extend tabular <inline-formula><mml:math><mml:mrow><mml:mtext> Q </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> with function approximation, and propose <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> . We analyze the convergence of <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> . Our theory analysis shows that <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> converges to its TD fixed-point with probability one. Then, we show <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> converges to the optimal solution of the minimizing MSPBE problem. Finally, we conduct experiments on some standard domains to confirm the effectiveness of the proposed <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> . Result show that the best performance of <inline-formula><mml:math><mml:mrow><mml:mtext> GQ </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> σ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> achieved with a <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> ∈ </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mn> 0 </mml:mn><mml:mo> , </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , neither <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , nor <inline-formula><mml:math><mml:mrow><mml:mi> σ </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> . Extending this framework to non-linear function approximation is an important future direction. Such an extension faces theoretical hurdles, such as the parameter-dependence of the Jacobian and the loss of a fixed linear least-squares structure, which may require techniques like target networks or compatible gradients to stabilize.</p>
    </sec>
    <sec id="sec8">
      <title>Funding</title>
      <p>The project was partially supported by Scientific Research Fund of Zhejiang Provincial Education Department under Grant No. Y202456228.</p>
    </sec>
    <sec id="sec9">
      <title>Appendix</title>
      <sec id="sec9dot1">
        <title>A. Derivation of (28)-(29)</title>
        <p><italic>Proof.</italic> Let us calculate <inline-formula><mml:math><mml:mrow><mml:mtext> MSPBE </mml:mtext><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> θ </mml:mi><mml:mo> , </mml:mo><mml:mi> λ </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> directly, </p>
        <disp-formula id="FD65">
          <label>(39)</label>
          <mml:math>
            <mml:mtable>
              <mml:mtr>
                <mml:mtd>
                  <mml:mo>−</mml:mo>
                  <mml:mfrac>
                    <mml:mn>1</mml:mn>
                    <mml:mn>2</mml:mn>
                  </mml:mfrac>
                  <mml:mi>J</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>θ</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mo>=</mml:mo>
                  <mml:mo>−</mml:mo>
                  <mml:mfrac>
                    <mml:mn>1</mml:mn>
                    <mml:mn>2</mml:mn>
                  </mml:mfrac>
                  <mml:msub>
                    <mml:mrow>
                      <mml:mrow>
                        <mml:msub>
                          <mml:mo>∇</mml:mo>
                          <mml:mi>θ</mml:mi>
                        </mml:msub>
                        <mml:mtext>MSPBE</mml:mtext>
                        <mml:mrow>
                          <mml:mo>(</mml:mo>
                          <mml:mrow>
                            <mml:mi>θ</mml:mi>
                            <mml:mo>,</mml:mo>
                            <mml:mi>λ</mml:mi>
                          </mml:mrow>
                          <mml:mo>)</mml:mo>
                        </mml:mrow>
                      </mml:mrow>
                      <mml:mo>|</mml:mo>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mi>θ</mml:mi>
                      <mml:mo>=</mml:mo>
                      <mml:msub>
                        <mml:mi>θ</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                  </mml:msub>
                </mml:mtd>
              </mml:mtr>
              <mml:mtr>
                <mml:mtd>
                  <mml:mo>=</mml:mo>
                  <mml:mo>−</mml:mo>
                  <mml:mfrac>
                    <mml:mn>1</mml:mn>
                    <mml:mn>2</mml:mn>
                  </mml:mfrac>
                  <mml:msub>
                    <mml:mo>∇</mml:mo>
                    <mml:mi>θ</mml:mi>
                  </mml:msub>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mi mathvariant="double-struck">E</mml:mi>
                      <mml:msup>
                        <mml:mrow>
                          <mml:mrow>
                            <mml:mo>[</mml:mo>
                            <mml:mrow>
                              <mml:msub>
                                <mml:mi>δ</mml:mi>
                                <mml:mi>t</mml:mi>
                              </mml:msub>
                              <mml:msub>
                                <mml:mi>e</mml:mi>
                                <mml:mrow>
                                  <mml:mi>t</mml:mi>
                                  <mml:mo>,</mml:mo>
                                  <mml:mi>σ</mml:mi>
                                </mml:mrow>
                              </mml:msub>
                            </mml:mrow>
                            <mml:mo>]</mml:mo>
                          </mml:mrow>
                        </mml:mrow>
                        <mml:mo>⊤</mml:mo>
                      </mml:msup>
                      <mml:mi mathvariant="double-struck">E</mml:mi>
                      <mml:msup>
                        <mml:mrow>
                          <mml:mrow>
                            <mml:mo>[</mml:mo>
                            <mml:mrow>
                              <mml:msub>
                                <mml:mi>ϕ</mml:mi>
                                <mml:mi>t</mml:mi>
                              </mml:msub>
                              <mml:msubsup>
                                <mml:mi>ϕ</mml:mi>
                                <mml:mi>t</mml:mi>
                                <mml:mo>⊤</mml:mo>
                              </mml:msubsup>
                            </mml:mrow>
                            <mml:mo>]</mml:mo>
                          </mml:mrow>
                        </mml:mrow>
                        <mml:mrow>
                          <mml:mo>−</mml:mo>
                          <mml:mn>1</mml:mn>
                        </mml:mrow>
                      </mml:msup>
                      <mml:mi mathvariant="double-struck">E</mml:mi>
                      <mml:mrow>
                        <mml:mo>[</mml:mo>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mi>δ</mml:mi>
                            <mml:mi>t</mml:mi>
                          </mml:msub>
                          <mml:msub>
                            <mml:mi>e</mml:mi>
                            <mml:mrow>
                              <mml:mi>t</mml:mi>
                              <mml:mo>,</mml:mo>
                              <mml:mi>σ</mml:mi>
                            </mml:mrow>
                          </mml:msub>
                        </mml:mrow>
                        <mml:mo>]</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mtd>
              </mml:mtr>
              <mml:mtr>
                <mml:mtd>
                  <mml:mo>=</mml:mo>
                  <mml:mo>−</mml:mo>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mo>∇</mml:mo>
                        <mml:mi>θ</mml:mi>
                      </mml:msub>
                      <mml:mi mathvariant="double-struck">E</mml:mi>
                      <mml:msup>
                        <mml:mrow>
                          <mml:mrow>
                            <mml:mo>[</mml:mo>
                            <mml:mrow>
                              <mml:msub>
                                <mml:mi>δ</mml:mi>
                                <mml:mi>t</mml:mi>
                              </mml:msub>
                              <mml:msub>
                                <mml:mi>e</mml:mi>
                                <mml:mrow>
                                  <mml:mi>t</mml:mi>
                                  <mml:mo>,</mml:mo>
                                  <mml:mi>σ</mml:mi>
                                </mml:mrow>
                              </mml:msub>
                            </mml:mrow>
                            <mml:mo>]</mml:mo>
                          </mml:mrow>
                        </mml:mrow>
                        <mml:mo>⊤</mml:mo>
                      </mml:msup>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mi mathvariant="double-struck">E</mml:mi>
                  <mml:msup>
                    <mml:mrow>
                      <mml:mo>[</mml:mo>
                      <mml:mrow>
                        <mml:msub>
                          <mml:mi>ϕ</mml:mi>
                          <mml:mi>t</mml:mi>
                        </mml:msub>
                        <mml:msubsup>
                          <mml:mi>ϕ</mml:mi>
                          <mml:mi>t</mml:mi>
                          <mml:mo>⊤</mml:mo>
                        </mml:msubsup>
                      </mml:mrow>
                      <mml:mo>]</mml:mo>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mo>−</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                  </mml:msup>
                  <mml:mi mathvariant="double-struck">E</mml:mi>
                  <mml:mrow>
                    <mml:mo>[</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>δ</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                      <mml:msub>
                        <mml:mi>e</mml:mi>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>,</mml:mo>
                          <mml:mi>σ</mml:mi>
                        </mml:mrow>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>]</mml:mo>
                  </mml:mrow>
                </mml:mtd>
              </mml:mtr>
              <mml:mtr>
                <mml:mtd>
                  <mml:mo>=</mml:mo>
                  <mml:mo>−</mml:mo>
                  <mml:mi mathvariant="double-struck">E</mml:mi>
                  <mml:mrow>
                    <mml:mo>[</mml:mo>
                    <mml:mrow>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:mi>γ</mml:mi>
                          <mml:msub>
                            <mml:mi mathvariant="double-struck">E</mml:mi>
                            <mml:mi>π</mml:mi>
                          </mml:msub>
                          <mml:mi>ϕ</mml:mi>
                          <mml:mrow>
                            <mml:mo>(</mml:mo>
                            <mml:mrow>
                              <mml:msub>
                                <mml:mi>S</mml:mi>
                                <mml:mrow>
                                  <mml:mi>t</mml:mi>
                                  <mml:mo>+</mml:mo>
                                  <mml:mn>1</mml:mn>
                                </mml:mrow>
                              </mml:msub>
                              <mml:mo>,</mml:mo>
                              <mml:mo>⋅</mml:mo>
                            </mml:mrow>
                            <mml:mo>)</mml:mo>
                          </mml:mrow>
                          <mml:mo>−</mml:mo>
                          <mml:msub>
                            <mml:mi>ϕ</mml:mi>
                            <mml:mi>t</mml:mi>
                          </mml:msub>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                      <mml:msubsup>
                        <mml:mi>e</mml:mi>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>,</mml:mo>
                          <mml:mi>σ</mml:mi>
                        </mml:mrow>
                        <mml:mo>⊤</mml:mo>
                      </mml:msubsup>
                    </mml:mrow>
                    <mml:mo>]</mml:mo>
                  </mml:mrow>
                  <mml:mi mathvariant="double-struck">E</mml:mi>
                  <mml:msup>
                    <mml:mrow>
                      <mml:mo>[</mml:mo>
                      <mml:mrow>
                        <mml:msub>
                          <mml:mi>ϕ</mml:mi>
                          <mml:mi>t</mml:mi>
                        </mml:msub>
                        <mml:msubsup>
                          <mml:mi>ϕ</mml:mi>
                          <mml:mi>t</mml:mi>
                          <mml:mo>⊤</mml:mo>
                        </mml:msubsup>
                      </mml:mrow>
                      <mml:mo>]</mml:mo>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mo>−</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                  </mml:msup>
                  <mml:mi mathvariant="double-struck">E</mml:mi>
                  <mml:mrow>
                    <mml:mo>[</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>δ</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                      <mml:msub>
                        <mml:mi>e</mml:mi>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>,</mml:mo>
                          <mml:mi>σ</mml:mi>
                        </mml:mrow>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>]</mml:mo>
                  </mml:mrow>
                </mml:mtd>
              </mml:mtr>
              <mml:mtr>
                <mml:mtd>
                  <mml:mo>=</mml:mo>
                  <mml:mo>−</mml:mo>
                  <mml:mi mathvariant="double-struck">E</mml:mi>
                  <mml:mrow>
                    <mml:mo>[</mml:mo>
                    <mml:mrow>
                      <mml:mi>γ</mml:mi>
                      <mml:msub>
                        <mml:mi mathvariant="double-struck">E</mml:mi>
                        <mml:mi>π</mml:mi>
                      </mml:msub>
                      <mml:mi>ϕ</mml:mi>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mi>S</mml:mi>
                            <mml:mrow>
                              <mml:mi>t</mml:mi>
                              <mml:mo>+</mml:mo>
                              <mml:mn>1</mml:mn>
                            </mml:mrow>
                          </mml:msub>
                          <mml:mo>,</mml:mo>
                          <mml:mo>⋅</mml:mo>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                      <mml:msubsup>
                        <mml:mi>e</mml:mi>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>,</mml:mo>
                          <mml:mi>σ</mml:mi>
                        </mml:mrow>
                        <mml:mo>⊤</mml:mo>
                      </mml:msubsup>
                      <mml:mo>−</mml:mo>
                      <mml:msub>
                        <mml:mi>ϕ</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                      <mml:msubsup>
                        <mml:mi>e</mml:mi>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>,</mml:mo>
                          <mml:mi>σ</mml:mi>
                        </mml:mrow>
                        <mml:mo>⊤</mml:mo>
                      </mml:msubsup>
                    </mml:mrow>
                    <mml:mo>]</mml:mo>
                  </mml:mrow>
                  <mml:mi mathvariant="double-struck">E</mml:mi>
                  <mml:msup>
                    <mml:mrow>
                      <mml:mo>[</mml:mo>
                      <mml:mrow>
                        <mml:msub>
                          <mml:mi>ϕ</mml:mi>
                          <mml:mi>t</mml:mi>
                        </mml:msub>
                        <mml:msubsup>
                          <mml:mi>ϕ</mml:mi>
                          <mml:mi>t</mml:mi>
                          <mml:mo>⊤</mml:mo>
                        </mml:msubsup>
                      </mml:mrow>
                      <mml:mo>]</mml:mo>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mo>−</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                  </mml:msup>
                  <mml:mi mathvariant="double-struck">E</mml:mi>
                  <mml:mrow>
                    <mml:mo>[</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>δ</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                      <mml:msub>
                        <mml:mi>e</mml:mi>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>,</mml:mo>
                          <mml:mi>σ</mml:mi>
                        </mml:mrow>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>]</mml:mo>
                  </mml:mrow>
                </mml:mtd>
              </mml:mtr>
              <mml:mtr>
                <mml:mtd>
                  <mml:mo>=</mml:mo>
                  <mml:mi mathvariant="double-struck">E</mml:mi>
                  <mml:mrow>
                    <mml:mo>[</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>ϕ</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                      <mml:msubsup>
                        <mml:mi>ϕ</mml:mi>
                        <mml:mi>t</mml:mi>
                        <mml:mo>⊤</mml:mo>
                      </mml:msubsup>
                      <mml:mo>+</mml:mo>
                      <mml:msub>
                        <mml:mi>ϕ</mml:mi>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>+</mml:mo>
                          <mml:mn>1</mml:mn>
                        </mml:mrow>
                      </mml:msub>
                      <mml:mi>γ</mml:mi>
                      <mml:mi>λ</mml:mi>
                      <mml:msubsup>
                        <mml:mi>e</mml:mi>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>,</mml:mo>
                          <mml:mi>σ</mml:mi>
                        </mml:mrow>
                        <mml:mo>⊤</mml:mo>
                      </mml:msubsup>
                      <mml:mo>−</mml:mo>
                      <mml:mi>γ</mml:mi>
                      <mml:msub>
                        <mml:mi mathvariant="double-struck">E</mml:mi>
                        <mml:mi>π</mml:mi>
                      </mml:msub>
                      <mml:mi>ϕ</mml:mi>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mi>S</mml:mi>
                            <mml:mrow>
                              <mml:mi>t</mml:mi>
                              <mml:mo>+</mml:mo>
                              <mml:mn>1</mml:mn>
                            </mml:mrow>
                          </mml:msub>
                          <mml:mo>,</mml:mo>
                          <mml:mo>⋅</mml:mo>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                      <mml:msubsup>
                        <mml:mi>e</mml:mi>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>,</mml:mo>
                          <mml:mi>σ</mml:mi>
                        </mml:mrow>
                        <mml:mo>⊤</mml:mo>
                      </mml:msubsup>
                    </mml:mrow>
                    <mml:mo>]</mml:mo>
                  </mml:mrow>
                  <mml:munder>
                    <mml:munder>
                      <mml:mrow>
                        <mml:mi mathvariant="double-struck">E</mml:mi>
                        <mml:msup>
                          <mml:mrow>
                            <mml:mrow>
                              <mml:mo>[</mml:mo>
                              <mml:mrow>
                                <mml:msub>
                                  <mml:mi>ϕ</mml:mi>
                                  <mml:mi>t</mml:mi>
                                </mml:msub>
                                <mml:msubsup>
                                  <mml:mi>ϕ</mml:mi>
                                  <mml:mi>t</mml:mi>
                                  <mml:mo>⊤</mml:mo>
                                </mml:msubsup>
                              </mml:mrow>
                              <mml:mo>]</mml:mo>
                            </mml:mrow>
                          </mml:mrow>
                          <mml:mrow>
                            <mml:mo>−</mml:mo>
                            <mml:mn>1</mml:mn>
                          </mml:mrow>
                        </mml:msup>
                        <mml:mi mathvariant="double-struck">E</mml:mi>
                        <mml:mrow>
                          <mml:mo>[</mml:mo>
                          <mml:mrow>
                            <mml:msub>
                              <mml:mi>δ</mml:mi>
                              <mml:mi>t</mml:mi>
                            </mml:msub>
                            <mml:msub>
                              <mml:mi>e</mml:mi>
                              <mml:mrow>
                                <mml:mi>t</mml:mi>
                                <mml:mo>,</mml:mo>
                                <mml:mi>σ</mml:mi>
                              </mml:mrow>
                            </mml:msub>
                          </mml:mrow>
                          <mml:mo>]</mml:mo>
                        </mml:mrow>
                      </mml:mrow>
                      <mml:mo stretchy="true">︸</mml:mo>
                    </mml:munder>
                    <mml:mrow>
                      <mml:mo>=</mml:mo>
                      <mml:mo>:</mml:mo>
                      <mml:mi>ϖ</mml:mi>
                    </mml:mrow>
                  </mml:munder>
                </mml:mtd>
              </mml:mtr>
              <mml:mtr>
                <mml:mtd>
                  <mml:mo>=</mml:mo>
                  <mml:mi mathvariant="double-struck">E</mml:mi>
                  <mml:mrow>
                    <mml:mo>[</mml:mo>
                    <mml:mrow>
                      <mml:msubsup>
                        <mml:mi>δ</mml:mi>
                        <mml:mi>t</mml:mi>
                        <mml:mrow>
                          <mml:mtext>ES</mml:mtext>
                        </mml:mrow>
                      </mml:msubsup>
                      <mml:msub>
                        <mml:mi>e</mml:mi>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>,</mml:mo>
                          <mml:mi>σ</mml:mi>
                        </mml:mrow>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>]</mml:mo>
                  </mml:mrow>
                  <mml:mo>−</mml:mo>
                  <mml:mi mathvariant="double-struck">E</mml:mi>
                  <mml:mrow>
                    <mml:mo>[</mml:mo>
                    <mml:mrow>
                      <mml:mi>γ</mml:mi>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:mn>1</mml:mn>
                          <mml:mo>−</mml:mo>
                          <mml:mi>λ</mml:mi>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                      <mml:msub>
                        <mml:mover accent="true">
                          <mml:mi>ϕ</mml:mi>
                          <mml:mo>¯</mml:mo>
                        </mml:mover>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>+</mml:mo>
                          <mml:mn>1</mml:mn>
                        </mml:mrow>
                      </mml:msub>
                      <mml:msubsup>
                        <mml:mi>e</mml:mi>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>,</mml:mo>
                          <mml:mi>σ</mml:mi>
                        </mml:mrow>
                        <mml:mo>⊤</mml:mo>
                      </mml:msubsup>
                    </mml:mrow>
                    <mml:mo>]</mml:mo>
                  </mml:mrow>
                  <mml:mi>ϖ</mml:mi>
                  <mml:mo>.</mml:mo>
                </mml:mtd>
              </mml:mtr>
            </mml:mtable>
          </mml:math>
        </disp-formula>
        <p>□</p>
      </sec>
      <sec id="sec9dot2">
        <title>B. Proof of Theorem 1</title>
        <p>The ODE method (see Lemma 1) is our is our main tool to prove Theorem 1. We refer the reader to that reference for further technical details.</p>
        <p><bold>Lemma 1 (</bold>[<xref ref-type="bibr" rid="B25">25</xref>]<bold>).</bold><italic>For the stochastic recursion of</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> x </mml:mi><mml:mi> n </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> y </mml:mi><mml:mi> n </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula><italic>given by</italic></p>
        <disp-formula id="FD66">
          <label>(40)</label>
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>x</mml:mi>
                <mml:mrow>
                  <mml:mi>n</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>x</mml:mi>
                <mml:mi>n</mml:mi>
              </mml:msub>
              <mml:mo>+</mml:mo>
              <mml:msub>
                <mml:mi>a</mml:mi>
                <mml:mi>n</mml:mi>
              </mml:msub>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:mi>g</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>x</mml:mi>
                        <mml:mi>n</mml:mi>
                      </mml:msub>
                      <mml:mo>,</mml:mo>
                      <mml:msub>
                        <mml:mi>y</mml:mi>
                        <mml:mi>n</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mo>+</mml:mo>
                  <mml:msubsup>
                    <mml:mi>M</mml:mi>
                    <mml:mrow>
                      <mml:mi>n</mml:mi>
                      <mml:mo>+</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mn>1</mml:mn>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                  </mml:msubsup>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <disp-formula id="FD67">
          <label>(41)</label>
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>y</mml:mi>
                <mml:mrow>
                  <mml:mi>n</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>y</mml:mi>
                <mml:mi>n</mml:mi>
              </mml:msub>
              <mml:mo>+</mml:mo>
              <mml:msub>
                <mml:mi>b</mml:mi>
                <mml:mi>n</mml:mi>
              </mml:msub>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:mi>h</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>x</mml:mi>
                        <mml:mi>n</mml:mi>
                      </mml:msub>
                      <mml:mo>,</mml:mo>
                      <mml:msub>
                        <mml:mi>y</mml:mi>
                        <mml:mi>n</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mo>+</mml:mo>
                  <mml:msubsup>
                    <mml:mi>M</mml:mi>
                    <mml:mrow>
                      <mml:mi>n</mml:mi>
                      <mml:mo>+</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mn>2</mml:mn>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                  </mml:msubsup>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
              <mml:mi>n</mml:mi>
              <mml:mo>∈</mml:mo>
              <mml:mi>ℕ</mml:mi>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p><italic>if the following assumptions are satisfied</italic>:</p>
        <p>(A1) <italic>Step-sizes</italic><inline-formula><mml:math><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msub><mml:mi> a </mml:mi><mml:mi> n </mml:mi></mml:msub></mml:mrow><mml:mo> } </mml:mo></mml:mrow><mml:mo> , </mml:mo><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msub><mml:mi> b </mml:mi><mml:mi> n </mml:mi></mml:msub></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>are positive, satisfying</italic></p>
        <disp-formula id="FD68">
          <mml:math>
            <mml:mrow>
              <mml:munder>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∑</mml:mo>
                </mml:mstyle>
                <mml:mi>n</mml:mi>
              </mml:munder>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:msub>
                <mml:mi>a</mml:mi>
                <mml:mi>n</mml:mi>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:munder>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∑</mml:mo>
                </mml:mstyle>
                <mml:mi>n</mml:mi>
              </mml:munder>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:msub>
                <mml:mi>b</mml:mi>
                <mml:mi>n</mml:mi>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:mi>∞</mml:mi>
              <mml:mo>,</mml:mo>
              <mml:munder>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∑</mml:mo>
                </mml:mstyle>
                <mml:mi>n</mml:mi>
              </mml:munder>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:msubsup>
                <mml:mi>a</mml:mi>
                <mml:mi>n</mml:mi>
                <mml:mn>2</mml:mn>
              </mml:msubsup>
              <mml:mo>+</mml:mo>
              <mml:msubsup>
                <mml:mi>b</mml:mi>
                <mml:mi>n</mml:mi>
                <mml:mn>2</mml:mn>
              </mml:msubsup>
              <mml:mo>&lt;</mml:mo>
              <mml:mi>∞</mml:mi>
              <mml:mo>,</mml:mo>
              <mml:mfrac>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>b</mml:mi>
                    <mml:mi>n</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>a</mml:mi>
                    <mml:mi>n</mml:mi>
                  </mml:msub>
                </mml:mrow>
              </mml:mfrac>
              <mml:mo>→</mml:mo>
              <mml:mn>0</mml:mn>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mtext>as</mml:mtext>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mi>n</mml:mi>
              <mml:mo>→</mml:mo>
              <mml:mi>∞</mml:mi>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>(A2) <italic>The map</italic><inline-formula><mml:math><mml:mrow><mml:mi> g </mml:mi><mml:mo> : </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mrow><mml:mi> d </mml:mi><mml:mo> + </mml:mo><mml:mi> k </mml:mi></mml:mrow></mml:msup><mml:mo> → </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mi> d </mml:mi></mml:msup><mml:mo> , </mml:mo><mml:mi> h </mml:mi><mml:mo> : </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mrow><mml:mi> d </mml:mi><mml:mo> + </mml:mo><mml:mi> k </mml:mi></mml:mrow></mml:msup><mml:mo> → </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mi> k </mml:mi></mml:msup></mml:mrow></mml:math></inline-formula><italic>are Lipschitz</italic>. (A3) <italic>The sequence</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msubsup><mml:mi> M </mml:mi><mml:mrow><mml:mi> n </mml:mi><mml:mo> + </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mn> 1 </mml:mn><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> n </mml:mi><mml:mo> ∈ </mml:mo><mml:mi> ℕ </mml:mi></mml:mrow></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msubsup><mml:mi> M </mml:mi><mml:mrow><mml:mi> n </mml:mi><mml:mo> + </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mn> 2 </mml:mn><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> n </mml:mi><mml:mo> ∈ </mml:mo><mml:mi> ℕ </mml:mi></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula><italic>are martingale difference sequences</italic><italic>w.r.t.</italic><italic>the increasing</italic><inline-formula><mml:math><mml:mi> σ </mml:mi></mml:math></inline-formula><italic>-fields</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> ℱ </mml:mi><mml:mi> n </mml:mi></mml:msub><mml:mover><mml:mo> = </mml:mo><mml:mrow><mml:mtext> def </mml:mtext></mml:mrow></mml:mover><mml:mi> σ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> x </mml:mi><mml:mi> m </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> y </mml:mi><mml:mi> m </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msubsup><mml:mi> M </mml:mi><mml:mi> m </mml:mi><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mn> 1 </mml:mn><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo> , </mml:mo><mml:msubsup><mml:mi> M </mml:mi><mml:mi> m </mml:mi><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mn> 2 </mml:mn><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:msubsup><mml:mo> , </mml:mo><mml:mi> m </mml:mi><mml:mo> ≤ </mml:mo><mml:mi> n </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> , </mml:mo><mml:mi> n </mml:mi><mml:mo> ∈ </mml:mo><mml:mi> ℕ </mml:mi><mml:mo> , </mml:mo></mml:mrow></mml:math></inline-formula><italic>satisfying</italic></p>
        <disp-formula id="FD69">
          <mml:math>
            <mml:mrow>
              <mml:mi mathvariant="double-struck">E</mml:mi>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:msubsup>
                    <mml:mi>M</mml:mi>
                    <mml:mrow>
                      <mml:mi>n</mml:mi>
                      <mml:mo>+</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mi>i</mml:mi>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                  </mml:msubsup>
                  <mml:mo>|</mml:mo>
                  <mml:msub>
                    <mml:mi>ℱ</mml:mi>
                    <mml:mi>n</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mn>0</mml:mn>
              <mml:mo>,</mml:mo>
              <mml:mi>i</mml:mi>
              <mml:mo>=</mml:mo>
              <mml:mn>1</mml:mn>
              <mml:mo>,</mml:mo>
              <mml:mn>2</mml:mn>
              <mml:mo>,</mml:mo>
              <mml:mi>n</mml:mi>
              <mml:mo>∈</mml:mo>
              <mml:mi>ℕ</mml:mi>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p><italic>Furthermore</italic>, <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msubsup><mml:mi> M </mml:mi><mml:mrow><mml:mi> n </mml:mi><mml:mo> + </mml:mo><mml:mn> 1 </mml:mn></mml:mrow><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mi> i </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:msubsup></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> n </mml:mi><mml:mo> ∈ </mml:mo><mml:mi> ℕ </mml:mi></mml:mrow></mml:msub><mml:mo> , </mml:mo><mml:mi> i </mml:mi><mml:mo> = </mml:mo><mml:mn> 1 </mml:mn><mml:mo> , </mml:mo><mml:mn> 2 </mml:mn></mml:mrow></mml:math></inline-formula> , <italic>are square-integrable with</italic></p>
        <disp-formula id="FD70">
          <mml:math>
            <mml:mrow>
              <mml:mi mathvariant="double-struck">E</mml:mi>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:msup>
                    <mml:mrow>
                      <mml:mrow>
                        <mml:mo>‖</mml:mo>
                        <mml:mrow>
                          <mml:msubsup>
                            <mml:mi>M</mml:mi>
                            <mml:mrow>
                              <mml:mi>n</mml:mi>
                              <mml:mo>+</mml:mo>
                              <mml:mn>1</mml:mn>
                            </mml:mrow>
                            <mml:mrow>
                              <mml:mrow>
                                <mml:mo>(</mml:mo>
                                <mml:mi>i</mml:mi>
                                <mml:mo>)</mml:mo>
                              </mml:mrow>
                            </mml:mrow>
                          </mml:msubsup>
                        </mml:mrow>
                        <mml:mo>‖</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                    <mml:mn>2</mml:mn>
                  </mml:msup>
                  <mml:mo>|</mml:mo>
                  <mml:msub>
                    <mml:mi>ℱ</mml:mi>
                    <mml:mi>n</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>≤</mml:mo>
              <mml:mi>K</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mn>1</mml:mn>
                  <mml:mo>+</mml:mo>
                  <mml:msup>
                    <mml:mrow>
                      <mml:mrow>
                        <mml:mo>‖</mml:mo>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mi>x</mml:mi>
                            <mml:mi>n</mml:mi>
                          </mml:msub>
                        </mml:mrow>
                        <mml:mo>‖</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                    <mml:mn>2</mml:mn>
                  </mml:msup>
                  <mml:mo>+</mml:mo>
                  <mml:msup>
                    <mml:mrow>
                      <mml:mrow>
                        <mml:mo>‖</mml:mo>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mi>y</mml:mi>
                            <mml:mi>n</mml:mi>
                          </mml:msub>
                        </mml:mrow>
                        <mml:mo>‖</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                    <mml:mn>2</mml:mn>
                  </mml:msup>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p><italic>for some constant</italic><inline-formula><mml:math><mml:mrow><mml:mi> K </mml:mi><mml:mo> &gt; </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula><italic>.</italic></p>
        <p>(A4) <italic>For each</italic><inline-formula><mml:math><mml:mrow><mml:mi> x </mml:mi><mml:mo> ∈ </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mi> d </mml:mi></mml:msup></mml:mrow></mml:math></inline-formula> , <italic>the</italic><italic>o.d.e</italic><italic>.</italic></p>
        <disp-formula id="FD71">
          <mml:math>
            <mml:mrow>
              <mml:mover accent="true">
                <mml:mi>y</mml:mi>
                <mml:mo>˙</mml:mo>
              </mml:mover>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mi>t</mml:mi>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mi>h</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>x</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>y</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mi>t</mml:mi>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p><italic>has a global asymptotically stable equilibrium</italic><inline-formula><mml:math><mml:mrow><mml:mi> Ω </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mi> x </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>such that</italic>: <inline-formula><mml:math><mml:mrow><mml:mi> Ω </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mi> x </mml:mi><mml:mo> ) </mml:mo></mml:mrow><mml:mo> : </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mi> d </mml:mi></mml:msup><mml:mo> → </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mi> k </mml:mi></mml:msup></mml:mrow></mml:math></inline-formula><italic>is Lipschitz.</italic></p>
        <p>(A5) <italic>The</italic><italic>o.d.e</italic><italic>.</italic></p>
        <disp-formula id="FD72">
          <mml:math>
            <mml:mrow>
              <mml:mover accent="true">
                <mml:mi>x</mml:mi>
                <mml:mo>˙</mml:mo>
              </mml:mover>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mi>t</mml:mi>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mi>g</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>x</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mi>t</mml:mi>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mo>,</mml:mo>
                  <mml:mi>Ω</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mi>x</mml:mi>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mi>t</mml:mi>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p><italic>has a global asymptotically stable equilibrium</italic><inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> x </mml:mi><mml:mtext> * </mml:mtext></mml:msup></mml:mrow></mml:math></inline-formula> . </p>
        <p><italic>Then, the iterates</italic> (40), (41) <italic>converge to</italic><inline-formula><mml:math><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msup><mml:mi> x </mml:mi><mml:mo> * </mml:mo></mml:msup><mml:mo> , </mml:mo><mml:mi> Ω </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msup><mml:mi> x </mml:mi><mml:mo> * </mml:mo></mml:msup></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>a.s.</italic><italic>on the set</italic><inline-formula><mml:math><mml:mrow><mml:mi> Q </mml:mi><mml:mover><mml:mo> = </mml:mo><mml:mrow><mml:mtext> def </mml:mtext></mml:mrow></mml:mover><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mi> sup </mml:mi></mml:mrow><mml:mi> n </mml:mi></mml:msub><mml:msub><mml:mi> x </mml:mi><mml:mi> n </mml:mi></mml:msub><mml:mo> &lt; </mml:mo><mml:mi> ∞ </mml:mi><mml:mo> , </mml:mo><mml:msub><mml:mrow><mml:mi> sup </mml:mi></mml:mrow><mml:mi> n </mml:mi></mml:msub><mml:msub><mml:mi> y </mml:mi><mml:mi> n </mml:mi></mml:msub><mml:mo> &lt; </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula>.</p>
        <p><italic>Proof.</italic> Now, we apply Lemma 1 to prove results.</p>
        <p><underline><bold>Step 1: On Convergence of</bold></underline><underline><italic><bold>ω</bold></italic></underline><underline><italic><bold><sub>t</sub></bold></italic></underline><underline><bold>.</bold></underline></p>
        <p>We consider the following ODE: </p>
        <disp-formula id="FD73">
          <mml:math>
            <mml:mrow>
              <mml:mover accent="true">
                <mml:mi>θ</mml:mi>
                <mml:mo>˙</mml:mo>
              </mml:mover>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mi>t</mml:mi>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mn>0</mml:mn>
              <mml:mo>,</mml:mo>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mover accent="true">
                <mml:mi>ω</mml:mi>
                <mml:mo>˙</mml:mo>
              </mml:mover>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mi>t</mml:mi>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mi mathvariant="double-struck">E</mml:mi>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:msubsup>
                    <mml:mi>δ</mml:mi>
                    <mml:mi>t</mml:mi>
                    <mml:mrow>
                      <mml:mtext>ES</mml:mtext>
                    </mml:mrow>
                  </mml:msubsup>
                  <mml:msub>
                    <mml:mi>e</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>|</mml:mo>
                  <mml:mi>θ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mi>t</mml:mi>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>−</mml:mo>
              <mml:mi>M</mml:mi>
              <mml:mi>ω</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mi>t</mml:mi>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>The equation <inline-formula><mml:math><mml:mrow><mml:mover accent="true"><mml:mi> θ </mml:mi><mml:mo> ˙ </mml:mo></mml:mover><mml:mrow><mml:mo> ( </mml:mo><mml:mi> t </mml:mi><mml:mo> ) </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> implies there exists a constant vector <inline-formula><mml:math><mml:mi> θ </mml:mi></mml:math></inline-formula> such that: <inline-formula><mml:math><mml:mrow><mml:mi> θ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mi> t </mml:mi><mml:mo> ) </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:mi> θ </mml:mi></mml:mrow></mml:math></inline-formula> , thus we can rewrite the above ODE associated <inline-formula><mml:math><mml:mrow><mml:mi> ω </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mi> t </mml:mi><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> as follows, </p>
        <disp-formula id="FD74">
          <label>(42)</label>
          <mml:math>
            <mml:mrow>
              <mml:mover accent="true">
                <mml:mi>ω</mml:mi>
                <mml:mo>˙</mml:mo>
              </mml:mover>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mi>t</mml:mi>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mi mathvariant="double-struck">E</mml:mi>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:msubsup>
                    <mml:mi>δ</mml:mi>
                    <mml:mi>t</mml:mi>
                    <mml:mrow>
                      <mml:mtext>ES</mml:mtext>
                    </mml:mrow>
                  </mml:msubsup>
                  <mml:msub>
                    <mml:mi>e</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>|</mml:mo>
                  <mml:mi>θ</mml:mi>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>−</mml:mo>
              <mml:mi>M</mml:mi>
              <mml:mi>ω</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mi>t</mml:mi>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>A</mml:mi>
                <mml:mi>σ</mml:mi>
              </mml:msub>
              <mml:mi>θ</mml:mi>
              <mml:mo>+</mml:mo>
              <mml:msub>
                <mml:mi>b</mml:mi>
                <mml:mi>σ</mml:mi>
              </mml:msub>
              <mml:mo>−</mml:mo>
              <mml:mi>M</mml:mi>
              <mml:mi>ω</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mi>t</mml:mi>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>Then, for any given <inline-formula><mml:math><mml:mi> θ </mml:mi></mml:math></inline-formula> , </p>
        <disp-formula id="FD75">
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>ω</mml:mi>
                <mml:mo>⋆</mml:mo>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:msup>
                <mml:mi>M</mml:mi>
                <mml:mrow>
                  <mml:mo>−</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msup>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>A</mml:mi>
                    <mml:mi>σ</mml:mi>
                  </mml:msub>
                  <mml:mi>θ</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:msub>
                    <mml:mi>b</mml:mi>
                    <mml:mi>σ</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>is the unique globally asymptotically stable equilibrium for the ODE (42). Let </p>
        <disp-formula id="FD76">
          <mml:math>
            <mml:mrow>
              <mml:mi>H</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>ω</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>θ</mml:mi>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>A</mml:mi>
                <mml:mi>σ</mml:mi>
              </mml:msub>
              <mml:mi>θ</mml:mi>
              <mml:mo>+</mml:mo>
              <mml:msub>
                <mml:mi>b</mml:mi>
                <mml:mi>σ</mml:mi>
              </mml:msub>
              <mml:mo>−</mml:mo>
              <mml:mi>M</mml:mi>
              <mml:mi>ω</mml:mi>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>for a fixed <inline-formula><mml:math><mml:mi> θ </mml:mi></mml:math></inline-formula> , let </p>
        <disp-formula id="FD77">
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>H</mml:mi>
                <mml:mi>∞</mml:mi>
              </mml:msub>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>ω</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>θ</mml:mi>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:munder>
                <mml:mrow>
                  <mml:mtext>lim</mml:mtext>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>r</mml:mi>
                  <mml:mo>→</mml:mo>
                  <mml:mi>∞</mml:mi>
                </mml:mrow>
              </mml:munder>
              <mml:mfrac>
                <mml:mrow>
                  <mml:mi>H</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mi>r</mml:mi>
                      <mml:mi>ω</mml:mi>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mi>t</mml:mi>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                      <mml:mo>,</mml:mo>
                      <mml:mi>θ</mml:mi>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mi>r</mml:mi>
              </mml:mfrac>
              <mml:mo>=</mml:mo>
              <mml:mo>−</mml:mo>
              <mml:mi>M</mml:mi>
              <mml:mi>ω</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mi>t</mml:mi>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>Since <inline-formula><mml:math><mml:mi> M </mml:mi></mml:math></inline-formula> is a positive definite matrix, then 0 is a globally asymptotically stable equilibrium for the following ODE </p>
        <disp-formula id="FD78">
          <mml:math>
            <mml:mrow>
              <mml:mover accent="true">
                <mml:mi>ω</mml:mi>
                <mml:mo>˙</mml:mo>
              </mml:mover>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mi>t</mml:mi>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>H</mml:mi>
                <mml:mi>∞</mml:mi>
              </mml:msub>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>ω</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mi>t</mml:mi>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mo>,</mml:mo>
                  <mml:mi>θ</mml:mi>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>Let the <inline-formula><mml:math><mml:mi> σ </mml:mi></mml:math></inline-formula> -field <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> ℱ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> = </mml:mo><mml:mi> σ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> k </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ω </mml:mi><mml:mi> k </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ϕ </mml:mi><mml:mi> k </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> R </mml:mi><mml:mi> k </mml:mi></mml:msub></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> k </mml:mi><mml:mo> &lt; </mml:mo><mml:mi> t </mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> be generated by the set <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> k </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ω </mml:mi><mml:mi> k </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ϕ </mml:mi><mml:mi> k </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> R </mml:mi><mml:mi> k </mml:mi></mml:msub></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> k </mml:mi><mml:mo> &lt; </mml:mo><mml:mi> t </mml:mi></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> , where <inline-formula><mml:math><mml:mrow><mml:mi> t </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> . Let </p>
        <disp-formula id="FD79">
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>M</mml:mi>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:msubsup>
                <mml:mi>δ</mml:mi>
                <mml:mi>t</mml:mi>
                <mml:mrow>
                  <mml:mtext>ES</mml:mtext>
                </mml:mrow>
              </mml:msubsup>
              <mml:msub>
                <mml:mi>e</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>−</mml:mo>
              <mml:msub>
                <mml:mi>ϕ</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:msubsup>
                <mml:mi>ω</mml:mi>
                <mml:mi>t</mml:mi>
                <mml:mo>⊤</mml:mo>
              </mml:msubsup>
              <mml:msub>
                <mml:mi>ϕ</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>−</mml:mo>
              <mml:mi mathvariant="double-struck">E</mml:mi>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:msubsup>
                    <mml:mi>δ</mml:mi>
                    <mml:mi>t</mml:mi>
                    <mml:mrow>
                      <mml:mtext>ES</mml:mtext>
                    </mml:mrow>
                  </mml:msubsup>
                  <mml:msub>
                    <mml:mi>e</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>−</mml:mo>
                  <mml:msub>
                    <mml:mi>ϕ</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:msubsup>
                    <mml:mi>ω</mml:mi>
                    <mml:mi>t</mml:mi>
                    <mml:mo>⊤</mml:mo>
                  </mml:msubsup>
                  <mml:msub>
                    <mml:mi>ϕ</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>|</mml:mo>
                  <mml:msub>
                    <mml:mi>ℱ</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>then for each <inline-formula><mml:math><mml:mrow><mml:mi> t </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , we have <inline-formula><mml:math><mml:mrow><mml:mi mathvariant="double-struck"> E </mml:mi><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:msub><mml:mi> M </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> + </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub><mml:mo> | </mml:mo><mml:msub><mml:mi> ℱ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ] </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> . Furthermore, since Assumption 3 holds, there exists a non-negative constant <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> K </mml:mi><mml:mn> 1 </mml:mn></mml:msub><mml:mo> &gt; </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , s.t. <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msub><mml:mi> M </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> t </mml:mi><mml:mo> ∈ </mml:mo><mml:mi> ℕ </mml:mi></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> is square-integrable with </p>
        <disp-formula id="FD80">
          <mml:math>
            <mml:mrow>
              <mml:mi mathvariant="double-struck">E</mml:mi>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:msup>
                    <mml:mrow>
                      <mml:mrow>
                        <mml:mo>‖</mml:mo>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mi>M</mml:mi>
                            <mml:mi>t</mml:mi>
                          </mml:msub>
                        </mml:mrow>
                        <mml:mo>‖</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                    <mml:mn>2</mml:mn>
                  </mml:msup>
                  <mml:mo>|</mml:mo>
                  <mml:msub>
                    <mml:mi>ℱ</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>≤</mml:mo>
              <mml:msub>
                <mml:mi>K</mml:mi>
                <mml:mn>1</mml:mn>
              </mml:msub>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mn>1</mml:mn>
                  <mml:mo>+</mml:mo>
                  <mml:msup>
                    <mml:mrow>
                      <mml:mrow>
                        <mml:mo>‖</mml:mo>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mi>θ</mml:mi>
                            <mml:mi>t</mml:mi>
                          </mml:msub>
                        </mml:mrow>
                        <mml:mo>‖</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                    <mml:mn>2</mml:mn>
                  </mml:msup>
                  <mml:mo>+</mml:mo>
                  <mml:msup>
                    <mml:mrow>
                      <mml:mrow>
                        <mml:mo>‖</mml:mo>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mi>ω</mml:mi>
                            <mml:mi>t</mml:mi>
                          </mml:msub>
                        </mml:mrow>
                        <mml:mo>‖</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                    <mml:mn>2</mml:mn>
                  </mml:msup>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>Since then, we have verified the conditions (A2)-(A5) of Lemma 1, thus </p>
        <disp-formula id="FD81">
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>ω</mml:mi>
                <mml:mi>k</mml:mi>
              </mml:msub>
              <mml:mo>−</mml:mo>
              <mml:msub>
                <mml:mi>ω</mml:mi>
                <mml:mo>⋆</mml:mo>
              </mml:msub>
              <mml:mo>→</mml:mo>
              <mml:mn>0</mml:mn>
              <mml:mo>,</mml:mo>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mi>w</mml:mi>
              <mml:mo>.</mml:mo>
              <mml:mi>p</mml:mi>
              <mml:mn>.1</mml:mn>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>where <inline-formula><mml:math><mml:mrow><mml:mi> w </mml:mi><mml:mo> . </mml:mo><mml:mi> p </mml:mi><mml:mn> .1 </mml:mn></mml:mrow></mml:math></inline-formula> is short for with probability one.</p>
        <p><underline><bold>Step 2: On Convergence of</bold></underline><underline><italic><bold>θ</bold></italic></underline><underline><italic><bold><sub>t</sub></bold></italic></underline><underline><bold>.</bold></underline></p>
        <p>Let the <inline-formula><mml:math><mml:mi> σ </mml:mi></mml:math></inline-formula> -field <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi mathvariant="script"> G </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> = </mml:mo><mml:mi> σ </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> k </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ϕ </mml:mi><mml:mi> k </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> R </mml:mi><mml:mi> k </mml:mi></mml:msub></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> k </mml:mi><mml:mo> &lt; </mml:mo><mml:mi> t </mml:mi></mml:mrow></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> be generated by the set <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msub><mml:mi> ω </mml:mi><mml:mi> k </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ϕ </mml:mi><mml:mi> k </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> R </mml:mi><mml:mi> k </mml:mi></mml:msub></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> k </mml:mi><mml:mo> &lt; </mml:mo><mml:mi> t </mml:mi></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> , where <inline-formula><mml:math><mml:mrow><mml:mi> t </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:math></inline-formula> . The iteration (31) that can be rewritten as: </p>
        <disp-formula id="FD82">
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>θ</mml:mi>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>θ</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>+</mml:mo>
              <mml:msub>
                <mml:mi>α</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:msubsup>
                    <mml:mi>δ</mml:mi>
                    <mml:mi>t</mml:mi>
                    <mml:mrow>
                      <mml:mtext>ES</mml:mtext>
                    </mml:mrow>
                  </mml:msubsup>
                  <mml:msub>
                    <mml:mi>e</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>−</mml:mo>
                  <mml:mi>γ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mn>1</mml:mn>
                      <mml:mo>−</mml:mo>
                      <mml:mi>λ</mml:mi>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:msub>
                    <mml:mover accent="true">
                      <mml:mi>ϕ</mml:mi>
                      <mml:mo>¯</mml:mo>
                    </mml:mover>
                    <mml:mrow>
                      <mml:mi>t</mml:mi>
                      <mml:mo>+</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                  </mml:msub>
                  <mml:msubsup>
                    <mml:mi>e</mml:mi>
                    <mml:mi>t</mml:mi>
                    <mml:mo>⊤</mml:mo>
                  </mml:msubsup>
                  <mml:msup>
                    <mml:mi>M</mml:mi>
                    <mml:mrow>
                      <mml:mo>−</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                  </mml:msup>
                  <mml:mi mathvariant="double-struck">E</mml:mi>
                  <mml:mrow>
                    <mml:mo>[</mml:mo>
                    <mml:mrow>
                      <mml:msubsup>
                        <mml:mi>δ</mml:mi>
                        <mml:mi>t</mml:mi>
                        <mml:mrow>
                          <mml:mtext>ES</mml:mtext>
                        </mml:mrow>
                      </mml:msubsup>
                      <mml:msub>
                        <mml:mi>e</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                      <mml:mo>|</mml:mo>
                      <mml:msub>
                        <mml:mi>θ</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>]</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>Furthermore, we define a random variable <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> N </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> as follows, </p>
        <disp-formula id="FD83">
          <mml:math display="inline">
            <mml:mtable>
              <mml:mtr>
                <mml:mtd>
                  <mml:msub>
                    <mml:mi>N</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>=</mml:mo>
                  <mml:msubsup>
                    <mml:mi>δ</mml:mi>
                    <mml:mi>t</mml:mi>
                    <mml:mrow>
                      <mml:mtext>ES</mml:mtext>
                    </mml:mrow>
                  </mml:msubsup>
                  <mml:msub>
                    <mml:mi>e</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>−</mml:mo>
                  <mml:mi>γ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mn>1</mml:mn>
                      <mml:mo>−</mml:mo>
                      <mml:mi>λ</mml:mi>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:msub>
                    <mml:mover accent="true">
                      <mml:mi>ϕ</mml:mi>
                      <mml:mo>¯</mml:mo>
                    </mml:mover>
                    <mml:mrow>
                      <mml:mi>t</mml:mi>
                      <mml:mo>+</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                  </mml:msub>
                  <mml:msubsup>
                    <mml:mi>e</mml:mi>
                    <mml:mi>t</mml:mi>
                    <mml:mo>⊤</mml:mo>
                  </mml:msubsup>
                  <mml:msup>
                    <mml:mi>M</mml:mi>
                    <mml:mrow>
                      <mml:mo>−</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                  </mml:msup>
                  <mml:mi mathvariant="double-struck">E</mml:mi>
                  <mml:mrow>
                    <mml:mo>[</mml:mo>
                    <mml:mrow>
                      <mml:msubsup>
                        <mml:mi>δ</mml:mi>
                        <mml:mi>t</mml:mi>
                        <mml:mrow>
                          <mml:mtext>ES</mml:mtext>
                        </mml:mrow>
                      </mml:msubsup>
                      <mml:msub>
                        <mml:mi>e</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                      <mml:mo>|</mml:mo>
                      <mml:msub>
                        <mml:mi>θ</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>]</mml:mo>
                  </mml:mrow>
                </mml:mtd>
              </mml:mtr>
              <mml:mtr>
                <mml:mtd>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mo>−</mml:mo>
                  <mml:mi mathvariant="double-struck">E</mml:mi>
                  <mml:mrow>
                    <mml:mo>[</mml:mo>
                    <mml:mrow>
                      <mml:msubsup>
                        <mml:mi>δ</mml:mi>
                        <mml:mi>t</mml:mi>
                        <mml:mrow>
                          <mml:mtext>ES</mml:mtext>
                        </mml:mrow>
                      </mml:msubsup>
                      <mml:msub>
                        <mml:mi>e</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                      <mml:mo>−</mml:mo>
                      <mml:mi>γ</mml:mi>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:mn>1</mml:mn>
                          <mml:mo>−</mml:mo>
                          <mml:mi>λ</mml:mi>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                      <mml:msub>
                        <mml:mover accent="true">
                          <mml:mi>ϕ</mml:mi>
                          <mml:mo>¯</mml:mo>
                        </mml:mover>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>+</mml:mo>
                          <mml:mn>1</mml:mn>
                        </mml:mrow>
                      </mml:msub>
                      <mml:msubsup>
                        <mml:mi>e</mml:mi>
                        <mml:mi>t</mml:mi>
                        <mml:mo>⊤</mml:mo>
                      </mml:msubsup>
                      <mml:msup>
                        <mml:mi>M</mml:mi>
                        <mml:mrow>
                          <mml:mo>−</mml:mo>
                          <mml:mn>1</mml:mn>
                        </mml:mrow>
                      </mml:msup>
                      <mml:mi mathvariant="double-struck">E</mml:mi>
                      <mml:mrow>
                        <mml:mo>[</mml:mo>
                        <mml:mrow>
                          <mml:msubsup>
                            <mml:mi>δ</mml:mi>
                            <mml:mi>t</mml:mi>
                            <mml:mrow>
                              <mml:mtext>ES</mml:mtext>
                            </mml:mrow>
                          </mml:msubsup>
                          <mml:msub>
                            <mml:mi>e</mml:mi>
                            <mml:mi>t</mml:mi>
                          </mml:msub>
                          <mml:mo>|</mml:mo>
                          <mml:msub>
                            <mml:mi>θ</mml:mi>
                            <mml:mi>t</mml:mi>
                          </mml:msub>
                        </mml:mrow>
                        <mml:mo>]</mml:mo>
                      </mml:mrow>
                      <mml:mo>|</mml:mo>
                      <mml:msub>
                        <mml:mi mathvariant="script">G</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>]</mml:mo>
                  </mml:mrow>
                  <mml:mo>,</mml:mo>
                </mml:mtd>
              </mml:mtr>
            </mml:mtable>
          </mml:math>
        </disp-formula>
        <p>then for each <inline-formula><mml:math><mml:mrow><mml:mi> t </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , we have <inline-formula><mml:math><mml:mrow><mml:mi mathvariant="double-struck"> E </mml:mi><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:msub><mml:mi> N </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> + </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub><mml:mo> | </mml:mo><mml:msub><mml:mi mathvariant="script"> G </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ] </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> . Now, we rewrite <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> N </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> as follows, </p>
        <disp-formula id="FD84">
          <mml:math>
            <mml:mtable>
              <mml:mtr>
                <mml:mtd>
                  <mml:msub>
                    <mml:mi>N</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>=</mml:mo>
                  <mml:msubsup>
                    <mml:mi>δ</mml:mi>
                    <mml:mi>t</mml:mi>
                    <mml:mrow>
                      <mml:mtext>ES</mml:mtext>
                    </mml:mrow>
                  </mml:msubsup>
                  <mml:msub>
                    <mml:mi>e</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>−</mml:mo>
                  <mml:mi>γ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mn>1</mml:mn>
                      <mml:mo>−</mml:mo>
                      <mml:mi>λ</mml:mi>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:msub>
                    <mml:mover accent="true">
                      <mml:mi>ϕ</mml:mi>
                      <mml:mo>¯</mml:mo>
                    </mml:mover>
                    <mml:mrow>
                      <mml:mi>t</mml:mi>
                      <mml:mo>+</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                  </mml:msub>
                  <mml:msubsup>
                    <mml:mi>e</mml:mi>
                    <mml:mi>t</mml:mi>
                    <mml:mo>⊤</mml:mo>
                  </mml:msubsup>
                  <mml:msup>
                    <mml:mi>M</mml:mi>
                    <mml:mrow>
                      <mml:mo>−</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                  </mml:msup>
                  <mml:mi mathvariant="double-struck">E</mml:mi>
                  <mml:mrow>
                    <mml:mo>[</mml:mo>
                    <mml:mrow>
                      <mml:msubsup>
                        <mml:mi>δ</mml:mi>
                        <mml:mi>t</mml:mi>
                        <mml:mrow>
                          <mml:mtext>ES</mml:mtext>
                        </mml:mrow>
                      </mml:msubsup>
                      <mml:msub>
                        <mml:mi>e</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                      <mml:msub>
                        <mml:mi>θ</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>]</mml:mo>
                  </mml:mrow>
                  <mml:mo>−</mml:mo>
                  <mml:mi mathvariant="double-struck">E</mml:mi>
                  <mml:mrow>
                    <mml:mo>[</mml:mo>
                    <mml:mrow>
                      <mml:msubsup>
                        <mml:mi>δ</mml:mi>
                        <mml:mi>t</mml:mi>
                        <mml:mrow>
                          <mml:mtext>ES</mml:mtext>
                        </mml:mrow>
                      </mml:msubsup>
                      <mml:msub>
                        <mml:mi>e</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                      <mml:msub>
                        <mml:mi>θ</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>]</mml:mo>
                  </mml:mrow>
                </mml:mtd>
              </mml:mtr>
              <mml:mtr>
                <mml:mtd>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mtext>
                     
                  </mml:mtext>
                  <mml:mo>+</mml:mo>
                  <mml:mi>γ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mn>1</mml:mn>
                      <mml:mo>−</mml:mo>
                      <mml:mi>λ</mml:mi>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mi mathvariant="double-struck">E</mml:mi>
                  <mml:mrow>
                    <mml:mo>[</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mover accent="true">
                          <mml:mi>ϕ</mml:mi>
                          <mml:mo>¯</mml:mo>
                        </mml:mover>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>+</mml:mo>
                          <mml:mn>1</mml:mn>
                        </mml:mrow>
                      </mml:msub>
                      <mml:msubsup>
                        <mml:mi>e</mml:mi>
                        <mml:mi>t</mml:mi>
                        <mml:mo>⊤</mml:mo>
                      </mml:msubsup>
                    </mml:mrow>
                    <mml:mo>]</mml:mo>
                  </mml:mrow>
                  <mml:msup>
                    <mml:mi>M</mml:mi>
                    <mml:mrow>
                      <mml:mo>−</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                  </mml:msup>
                  <mml:mi mathvariant="double-struck">E</mml:mi>
                  <mml:mrow>
                    <mml:mo>[</mml:mo>
                    <mml:mrow>
                      <mml:msubsup>
                        <mml:mi>δ</mml:mi>
                        <mml:mi>t</mml:mi>
                        <mml:mrow>
                          <mml:mtext>ES</mml:mtext>
                        </mml:mrow>
                      </mml:msubsup>
                      <mml:msub>
                        <mml:mi>e</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                      <mml:mo>|</mml:mo>
                      <mml:msub>
                        <mml:mi>θ</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>]</mml:mo>
                  </mml:mrow>
                  <mml:mo>.</mml:mo>
                </mml:mtd>
              </mml:mtr>
            </mml:mtable>
          </mml:math>
        </disp-formula>
        <p>Under Assumption 3, for each <inline-formula><mml:math><mml:mrow><mml:mi> t </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , there exists a non-negative constant <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> K </mml:mi><mml:mn> 2 </mml:mn></mml:msub><mml:mo> &gt; </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> such that, </p>
        <disp-formula id="FD85">
          <mml:math>
            <mml:mrow>
              <mml:mi mathvariant="double-struck">E</mml:mi>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:msup>
                    <mml:mrow>
                      <mml:mrow>
                        <mml:mo>‖</mml:mo>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mi>N</mml:mi>
                            <mml:mi>t</mml:mi>
                          </mml:msub>
                        </mml:mrow>
                        <mml:mo>‖</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                    <mml:mn>2</mml:mn>
                  </mml:msup>
                  <mml:mo>|</mml:mo>
                  <mml:msub>
                    <mml:mi mathvariant="script">G</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>≤</mml:mo>
              <mml:msub>
                <mml:mi>K</mml:mi>
                <mml:mn>2</mml:mn>
              </mml:msub>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mn>1</mml:mn>
                  <mml:mo>+</mml:mo>
                  <mml:msup>
                    <mml:mrow>
                      <mml:mrow>
                        <mml:mo>‖</mml:mo>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mi>θ</mml:mi>
                            <mml:mi>t</mml:mi>
                          </mml:msub>
                        </mml:mrow>
                        <mml:mo>‖</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                    <mml:mn>2</mml:mn>
                  </mml:msup>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>We consider the iteration (31) associated with the ODE </p>
        <disp-formula id="FD86">
          <label>(43)</label>
          <mml:math>
            <mml:mrow>
              <mml:mover accent="true">
                <mml:mi>θ</mml:mi>
                <mml:mo>˙</mml:mo>
              </mml:mover>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mi>t</mml:mi>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>I</mml:mi>
                  <mml:mo>−</mml:mo>
                  <mml:mi>γ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mn>1</mml:mn>
                      <mml:mo>−</mml:mo>
                      <mml:mi>λ</mml:mi>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mi mathvariant="double-struck">E</mml:mi>
                  <mml:mrow>
                    <mml:mo>[</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mover accent="true">
                          <mml:mi>ϕ</mml:mi>
                          <mml:mo>¯</mml:mo>
                        </mml:mover>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>+</mml:mo>
                          <mml:mn>1</mml:mn>
                        </mml:mrow>
                      </mml:msub>
                      <mml:msubsup>
                        <mml:mi>e</mml:mi>
                        <mml:mi>t</mml:mi>
                        <mml:mo>⊤</mml:mo>
                      </mml:msubsup>
                    </mml:mrow>
                    <mml:mo>]</mml:mo>
                  </mml:mrow>
                  <mml:msup>
                    <mml:mi>M</mml:mi>
                    <mml:mrow>
                      <mml:mo>−</mml:mo>
                      <mml:mn>1</mml:mn>
                    </mml:mrow>
                  </mml:msup>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mi mathvariant="double-struck">E</mml:mi>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:msubsup>
                    <mml:mi>δ</mml:mi>
                    <mml:mi>t</mml:mi>
                    <mml:mrow>
                      <mml:mtext>ES</mml:mtext>
                    </mml:mrow>
                  </mml:msubsup>
                  <mml:msub>
                    <mml:mi>e</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>|</mml:mo>
                  <mml:mi>θ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mi>t</mml:mi>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>Recall <inline-formula><mml:math><mml:mrow><mml:mi> M </mml:mi><mml:mo> = </mml:mo><mml:mi mathvariant="double-struck"> E </mml:mi><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:msub><mml:mi> ϕ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:msubsup><mml:mi> ϕ </mml:mi><mml:mi> t </mml:mi><mml:mo> ⊤ </mml:mo></mml:msubsup></mml:mrow><mml:mo> ] </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , from Equation (28), the ODE (43) can be rewritten as follows, </p>
        <disp-formula id="FD87">
          <label>(44)</label>
          <mml:math>
            <mml:mrow>
              <mml:mover accent="true">
                <mml:mi>θ</mml:mi>
                <mml:mo>˙</mml:mo>
              </mml:mover>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mi>t</mml:mi>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mo>−</mml:mo>
              <mml:msubsup>
                <mml:mi>A</mml:mi>
                <mml:mi>σ</mml:mi>
                <mml:mo>⊤</mml:mo>
              </mml:msubsup>
              <mml:msup>
                <mml:mi>M</mml:mi>
                <mml:mrow>
                  <mml:mo>−</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msup>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>A</mml:mi>
                    <mml:mi>σ</mml:mi>
                  </mml:msub>
                  <mml:mi>θ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mi>t</mml:mi>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mo>+</mml:mo>
                  <mml:msub>
                    <mml:mi>b</mml:mi>
                    <mml:mi>σ</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mover>
                <mml:mo>=</mml:mo>
                <mml:mrow>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mn>33</mml:mn>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
              </mml:mover>
              <mml:mi>G</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>θ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mi>t</mml:mi>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>Since <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> A </mml:mi><mml:mi> σ </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> is invertible, then <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mo> ⋆ </mml:mo></mml:msub><mml:mo> = </mml:mo><mml:mo> − </mml:mo><mml:msubsup><mml:mi> A </mml:mi><mml:mi> σ </mml:mi><mml:mrow><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msubsup><mml:msub><mml:mi> b </mml:mi><mml:mi> σ </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> is the unique global asymptotically stable equilibrium of ODE (44). Let </p>
        <disp-formula id="FD88">
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>G</mml:mi>
                <mml:mi>∞</mml:mi>
              </mml:msub>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mi>θ</mml:mi>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:munder>
                <mml:mrow>
                  <mml:mtext>lim</mml:mtext>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>r</mml:mi>
                  <mml:mo>→</mml:mo>
                  <mml:mi>∞</mml:mi>
                </mml:mrow>
              </mml:munder>
              <mml:mfrac>
                <mml:mrow>
                  <mml:mi>G</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mi>r</mml:mi>
                      <mml:mi>θ</mml:mi>
                      <mml:mo>,</mml:mo>
                      <mml:mi>ω</mml:mi>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mi>r</mml:mi>
              </mml:mfrac>
              <mml:mo>=</mml:mo>
              <mml:mo>−</mml:mo>
              <mml:msubsup>
                <mml:mi>A</mml:mi>
                <mml:mi>σ</mml:mi>
                <mml:mo>⊤</mml:mo>
              </mml:msubsup>
              <mml:msup>
                <mml:mi>M</mml:mi>
                <mml:mrow>
                  <mml:mo>−</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msup>
              <mml:msub>
                <mml:mi>A</mml:mi>
                <mml:mi>σ</mml:mi>
              </mml:msub>
              <mml:mi>θ</mml:mi>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>We consider the following ODE </p>
        <disp-formula id="FD89">
          <label>(45)</label>
          <mml:math>
            <mml:mrow>
              <mml:mover accent="true">
                <mml:mi>θ</mml:mi>
                <mml:mo>˙</mml:mo>
              </mml:mover>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mi>t</mml:mi>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>G</mml:mi>
                <mml:mi>∞</mml:mi>
              </mml:msub>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>θ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mi>t</mml:mi>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mo>−</mml:mo>
              <mml:msubsup>
                <mml:mi>A</mml:mi>
                <mml:mi>σ</mml:mi>
                <mml:mo>⊤</mml:mo>
              </mml:msubsup>
              <mml:msup>
                <mml:mi>M</mml:mi>
                <mml:mrow>
                  <mml:mo>−</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msup>
              <mml:msub>
                <mml:mi>A</mml:mi>
                <mml:mi>σ</mml:mi>
              </mml:msub>
              <mml:mi>θ</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mi>t</mml:mi>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>Since <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> A </mml:mi><mml:mi> σ </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> is invertible and <inline-formula><mml:math><mml:mrow><mml:msup><mml:mi> M </mml:mi><mml:mrow><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msup></mml:mrow></mml:math></inline-formula> is positive definite, then <inline-formula><mml:math><mml:mrow><mml:msubsup><mml:mi> A </mml:mi><mml:mi> σ </mml:mi><mml:mo> ⊤ </mml:mo></mml:msubsup><mml:msup><mml:mi> M </mml:mi><mml:mrow><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msup><mml:msub><mml:mi> A </mml:mi><mml:mi> σ </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> is a positive defined matrix. Equivalently, <inline-formula><mml:math><mml:mrow><mml:mo> − </mml:mo><mml:msubsup><mml:mi> A </mml:mi><mml:mi> σ </mml:mi><mml:mo> ⊤ </mml:mo></mml:msubsup><mml:msup><mml:mi> M </mml:mi><mml:mrow><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msup><mml:msub><mml:mi> A </mml:mi><mml:mi> σ </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> is negative definite. Thus the vector 0 is the unique global asymptotically stable equilibrium of (45). According to Lemma 1, </p>
        <disp-formula id="FD90">
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>θ</mml:mi>
                <mml:mi>k</mml:mi>
              </mml:msub>
              <mml:mo>−</mml:mo>
              <mml:msub>
                <mml:mi>θ</mml:mi>
                <mml:mo>⋆</mml:mo>
              </mml:msub>
              <mml:mo>→</mml:mo>
              <mml:mn>0</mml:mn>
              <mml:mo>,</mml:mo>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mi>w</mml:mi>
              <mml:mo>.</mml:mo>
              <mml:mi>p</mml:mi>
              <mml:mn>.1.</mml:mn>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>Therefore the proof is completed. □</p>
      </sec>
      <sec id="sec9dot3">
        <title>C. Proof of Theorem 2</title>
        <p><italic>Proof.</italic> Let <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> ζ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> = </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> e </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> S </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> A </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> S </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> + </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> ∈ </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mi> p </mml:mi></mml:msup><mml:mo> × </mml:mo><mml:mi mathvariant="script"> S </mml:mi><mml:mo> × </mml:mo><mml:mi mathvariant="script"> A </mml:mi><mml:mo> × </mml:mo><mml:mi mathvariant="script"> S </mml:mi></mml:mrow></mml:math></inline-formula> , then we rewrite the iteration (31) and (30) as follows </p>
        <disp-formula id="FD91">
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>θ</mml:mi>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>θ</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>+</mml:mo>
              <mml:msub>
                <mml:mi>α</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>g</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>θ</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                      <mml:mo>,</mml:mo>
                      <mml:msub>
                        <mml:mi>ω</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                      <mml:mo>,</mml:mo>
                      <mml:msub>
                        <mml:mi>ζ</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mo>+</mml:mo>
                  <mml:msub>
                    <mml:mi>e</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:msub>
                    <mml:mi>ι</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <disp-formula id="FD92">
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>ω</mml:mi>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>ω</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>+</mml:mo>
              <mml:msub>
                <mml:mi>β</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>h</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>θ</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                      <mml:mo>,</mml:mo>
                      <mml:msub>
                        <mml:mi>ω</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                      <mml:mo>,</mml:mo>
                      <mml:msub>
                        <mml:mi>ζ</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mo>+</mml:mo>
                  <mml:msub>
                    <mml:mi>e</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:msub>
                    <mml:mi>ν</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>where </p>
        <disp-formula id="FD93">
          <mml:math>
            <mml:mrow>
              <mml:mi>g</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>θ</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>,</mml:mo>
                  <mml:msub>
                    <mml:mi>ω</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>,</mml:mo>
                  <mml:msub>
                    <mml:mi>ζ</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mi mathvariant="double-struck">E</mml:mi>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:msubsup>
                    <mml:mi>δ</mml:mi>
                    <mml:mi>t</mml:mi>
                    <mml:mrow>
                      <mml:mtext>ES</mml:mtext>
                    </mml:mrow>
                  </mml:msubsup>
                  <mml:msub>
                    <mml:mi>e</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>−</mml:mo>
                  <mml:mi>γ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mn>1</mml:mn>
                      <mml:mo>−</mml:mo>
                      <mml:mi>λ</mml:mi>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:msub>
                    <mml:mi mathvariant="double-struck">E</mml:mi>
                    <mml:mi>π</mml:mi>
                  </mml:msub>
                  <mml:mrow>
                    <mml:mo>[</mml:mo>
                    <mml:mrow>
                      <mml:mi>ϕ</mml:mi>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mi>S</mml:mi>
                            <mml:mrow>
                              <mml:mi>t</mml:mi>
                              <mml:mo>+</mml:mo>
                              <mml:mn>1</mml:mn>
                              <mml:mo>,</mml:mo>
                              <mml:mo>⋅</mml:mo>
                            </mml:mrow>
                          </mml:msub>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                    <mml:mo>]</mml:mo>
                  </mml:mrow>
                  <mml:msubsup>
                    <mml:mi>e</mml:mi>
                    <mml:mi>t</mml:mi>
                    <mml:mo>⊤</mml:mo>
                  </mml:msubsup>
                  <mml:msub>
                    <mml:mi>ω</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <disp-formula id="FD94">
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>e</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:msub>
                <mml:mi>ι</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:msubsup>
                <mml:mi>δ</mml:mi>
                <mml:mi>t</mml:mi>
                <mml:mrow>
                  <mml:mtext>ES</mml:mtext>
                </mml:mrow>
              </mml:msubsup>
              <mml:msub>
                <mml:mi>e</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>−</mml:mo>
              <mml:mi>γ</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mn>1</mml:mn>
                  <mml:mo>−</mml:mo>
                  <mml:mi>λ</mml:mi>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:msub>
                <mml:mi mathvariant="double-struck">E</mml:mi>
                <mml:mi>π</mml:mi>
              </mml:msub>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:mi>ϕ</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>S</mml:mi>
                        <mml:mrow>
                          <mml:mi>t</mml:mi>
                          <mml:mo>+</mml:mo>
                          <mml:mn>1</mml:mn>
                          <mml:mo>,</mml:mo>
                          <mml:mo>⋅</mml:mo>
                        </mml:mrow>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:msubsup>
                <mml:mi>e</mml:mi>
                <mml:mi>t</mml:mi>
                <mml:mo>⊤</mml:mo>
              </mml:msubsup>
              <mml:msub>
                <mml:mi>ω</mml:mi>
                <mml:mi>t</mml:mi>
              </mml:msub>
              <mml:mo>−</mml:mo>
              <mml:mi>g</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>θ</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>,</mml:mo>
                  <mml:msub>
                    <mml:mi>ω</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>,</mml:mo>
                  <mml:msub>
                    <mml:mi>ζ</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>satisfies <inline-formula><mml:math><mml:mrow><mml:mi mathvariant="double-struck"> E </mml:mi><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:msub><mml:mi> e </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:msub><mml:mi> ι </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ] </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> ; <inline-formula><mml:math><mml:mrow><mml:mi> h </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ω </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ζ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> = </mml:mo><mml:mi mathvariant="double-struck"> E </mml:mi><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:msubsup><mml:mi> δ </mml:mi><mml:mi> t </mml:mi><mml:mrow><mml:mtext> ES </mml:mtext></mml:mrow></mml:msubsup><mml:msub><mml:mi> e </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> − </mml:mo><mml:msub><mml:mi> ϕ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:msubsup><mml:mi> ω </mml:mi><mml:mi> t </mml:mi><mml:mo> ⊤ </mml:mo></mml:msubsup><mml:msub><mml:mi> ϕ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ] </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> e </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:msub><mml:mi> ν </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> = </mml:mo><mml:msubsup><mml:mi> δ </mml:mi><mml:mi> t </mml:mi><mml:mrow><mml:mtext> ES </mml:mtext></mml:mrow></mml:msubsup><mml:msub><mml:mi> e </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> − </mml:mo><mml:msub><mml:mi> ϕ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:msubsup><mml:mi> ω </mml:mi><mml:mi> t </mml:mi><mml:mo> ⊤ </mml:mo></mml:msubsup><mml:msub><mml:mi> ϕ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> − </mml:mo><mml:mi> h </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ω </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ζ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> .</p>
        <p>Now, we apply ([<xref ref-type="bibr" rid="B26">26</xref>], Theorem 2.3 of Chapter 8) twice, once for each time-scale. We refer the reader to that reference for further technical details in ([<xref ref-type="bibr" rid="B26">26</xref>], Theorem 2.3 of Chapter 8), which requires us to verify the following conditions of <bold>(</bold><bold>i</bold><bold>)</bold>-<bold>(iv)</bold>:</p>
        <p><bold>(</bold><bold>i</bold><bold>)</bold><italic>The random variables</italic><inline-formula><mml:math><mml:mrow><mml:mi> g </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ω </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ζ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>and</italic><inline-formula><mml:math><mml:mrow><mml:mi> h </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ω </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ζ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>are uniformly integrable</italic> (<italic>UI</italic>), <italic>i.e.</italic>, </p>
        <disp-formula id="FD95">
          <mml:math>
            <mml:mrow>
              <mml:munder>
                <mml:mrow>
                  <mml:mtext>lim</mml:mtext>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>a</mml:mi>
                  <mml:mo>→</mml:mo>
                  <mml:mi>∞</mml:mi>
                </mml:mrow>
              </mml:munder>
              <mml:munder>
                <mml:mrow>
                  <mml:mtext>sup</mml:mtext>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>∈</mml:mo>
                  <mml:mi>ℕ</mml:mi>
                </mml:mrow>
              </mml:munder>
              <mml:mi mathvariant="double-struck">E</mml:mi>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:mrow>
                    <mml:mo>‖</mml:mo>
                    <mml:mrow>
                      <mml:mi>g</mml:mi>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mi>θ</mml:mi>
                            <mml:mi>t</mml:mi>
                          </mml:msub>
                          <mml:mo>,</mml:mo>
                          <mml:msub>
                            <mml:mi>ω</mml:mi>
                            <mml:mi>t</mml:mi>
                          </mml:msub>
                          <mml:mo>,</mml:mo>
                          <mml:msub>
                            <mml:mi>ζ</mml:mi>
                            <mml:mi>t</mml:mi>
                          </mml:msub>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                    <mml:mo>‖</mml:mo>
                  </mml:mrow>
                  <mml:mi mathvariant="double-struck">I</mml:mi>
                  <mml:mrow>
                    <mml:mo>{</mml:mo>
                    <mml:mrow>
                      <mml:mrow>
                        <mml:mo>‖</mml:mo>
                        <mml:mrow>
                          <mml:mi>g</mml:mi>
                          <mml:mrow>
                            <mml:mo>(</mml:mo>
                            <mml:mrow>
                              <mml:msub>
                                <mml:mi>θ</mml:mi>
                                <mml:mi>t</mml:mi>
                              </mml:msub>
                              <mml:mo>,</mml:mo>
                              <mml:msub>
                                <mml:mi>ω</mml:mi>
                                <mml:mi>t</mml:mi>
                              </mml:msub>
                              <mml:mo>,</mml:mo>
                              <mml:msub>
                                <mml:mi>ζ</mml:mi>
                                <mml:mi>t</mml:mi>
                              </mml:msub>
                            </mml:mrow>
                            <mml:mo>)</mml:mo>
                          </mml:mrow>
                        </mml:mrow>
                        <mml:mo>‖</mml:mo>
                      </mml:mrow>
                      <mml:mo>≥</mml:mo>
                      <mml:mi>a</mml:mi>
                    </mml:mrow>
                    <mml:mo>}</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mn>0</mml:mn>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <disp-formula id="FD96">
          <mml:math>
            <mml:mrow>
              <mml:munder>
                <mml:mrow>
                  <mml:mtext>lim</mml:mtext>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>a</mml:mi>
                  <mml:mo>→</mml:mo>
                  <mml:mi>∞</mml:mi>
                </mml:mrow>
              </mml:munder>
              <mml:munder>
                <mml:mrow>
                  <mml:mtext>sup</mml:mtext>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>∈</mml:mo>
                  <mml:mi>ℕ</mml:mi>
                </mml:mrow>
              </mml:munder>
              <mml:mi mathvariant="double-struck">E</mml:mi>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:mrow>
                    <mml:mo>‖</mml:mo>
                    <mml:mrow>
                      <mml:mi>h</mml:mi>
                      <mml:mrow>
                        <mml:mo>(</mml:mo>
                        <mml:mrow>
                          <mml:msub>
                            <mml:mi>θ</mml:mi>
                            <mml:mi>t</mml:mi>
                          </mml:msub>
                          <mml:mo>,</mml:mo>
                          <mml:msub>
                            <mml:mi>ω</mml:mi>
                            <mml:mi>t</mml:mi>
                          </mml:msub>
                          <mml:mo>,</mml:mo>
                          <mml:msub>
                            <mml:mi>ζ</mml:mi>
                            <mml:mi>t</mml:mi>
                          </mml:msub>
                        </mml:mrow>
                        <mml:mo>)</mml:mo>
                      </mml:mrow>
                    </mml:mrow>
                    <mml:mo>‖</mml:mo>
                  </mml:mrow>
                  <mml:mi mathvariant="double-struck">I</mml:mi>
                  <mml:mrow>
                    <mml:mo>{</mml:mo>
                    <mml:mrow>
                      <mml:mrow>
                        <mml:mo>‖</mml:mo>
                        <mml:mrow>
                          <mml:mi>h</mml:mi>
                          <mml:mrow>
                            <mml:mo>(</mml:mo>
                            <mml:mrow>
                              <mml:msub>
                                <mml:mi>θ</mml:mi>
                                <mml:mi>t</mml:mi>
                              </mml:msub>
                              <mml:mo>,</mml:mo>
                              <mml:msub>
                                <mml:mi>ω</mml:mi>
                                <mml:mi>t</mml:mi>
                              </mml:msub>
                              <mml:mo>,</mml:mo>
                              <mml:msub>
                                <mml:mi>ζ</mml:mi>
                                <mml:mi>t</mml:mi>
                              </mml:msub>
                            </mml:mrow>
                            <mml:mo>)</mml:mo>
                          </mml:mrow>
                        </mml:mrow>
                        <mml:mo>‖</mml:mo>
                      </mml:mrow>
                      <mml:mo>≥</mml:mo>
                      <mml:mi>a</mml:mi>
                    </mml:mrow>
                    <mml:mo>}</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mn>0</mml:mn>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>where <inline-formula><mml:math><mml:mrow><mml:mi mathvariant="double-struck"> I </mml:mi><mml:mrow><mml:mo> { </mml:mo><mml:mo> ⋅ </mml:mo><mml:mo> } </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> is the indicator function. </p>
        <p>In fact, the uniform integrability of both <inline-formula><mml:math><mml:mrow><mml:mi> g </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ω </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ζ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:mi> h </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ω </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ζ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> are ensured by the the UI property of <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> e </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> = </mml:mo><mml:mi> λ </mml:mi><mml:mi> γ </mml:mi><mml:msub><mml:mi> c </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> , </mml:mo><mml:mi> σ </mml:mi></mml:mrow></mml:msub><mml:msub><mml:mi> e </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub><mml:mo> + </mml:mo><mml:msub><mml:mi> ϕ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> , and according to the same analysis of Proposition 2 from [27], we have <inline-formula><mml:math><mml:mrow><mml:mi> g </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ω </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ζ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:mi> h </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> θ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ω </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> ζ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> are UI.</p>
        <p><bold>(ii)</bold><italic>The set of random variables</italic><inline-formula><mml:math><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msub><mml:mi> ζ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>is tight,</italic><italic>i.e</italic><italic>, for each positive scalar</italic><inline-formula><mml:math><mml:mi> δ </mml:mi></mml:math></inline-formula><italic>, there exists a compact set</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> D </mml:mi><mml:mi> δ </mml:mi></mml:msub><mml:mo> ∈ </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mi> p </mml:mi></mml:msup><mml:mo> × </mml:mo><mml:mi mathvariant="script"> S </mml:mi><mml:mo> × </mml:mo><mml:mi mathvariant="script"> A </mml:mi><mml:mo> × </mml:mo><mml:mi mathvariant="script"> S </mml:mi></mml:mrow></mml:math></inline-formula><italic>such that</italic></p>
        <disp-formula id="FD97">
          <mml:math>
            <mml:mrow>
              <mml:munder>
                <mml:mrow>
                  <mml:mtext>inf</mml:mtext>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>∈</mml:mo>
                  <mml:mi>ℕ</mml:mi>
                </mml:mrow>
              </mml:munder>
              <mml:mi>ℙ</mml:mi>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>ζ</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>∈</mml:mo>
                  <mml:msub>
                    <mml:mi>D</mml:mi>
                    <mml:mi>δ</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>≥</mml:mo>
              <mml:mn>1</mml:mn>
              <mml:mo>−</mml:mo>
              <mml:mi>δ</mml:mi>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>In fact, recall the Assumption 3 implies the trace vector <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> e </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> satisfies <inline-formula><mml:math display="inline"><mml:mrow><mml:msub><mml:mrow><mml:mtext> sup </mml:mtext></mml:mrow><mml:mrow><mml:mi> t </mml:mi><mml:mo> ∈ </mml:mo><mml:mi> ℕ </mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo> ‖ </mml:mo><mml:mrow><mml:msub><mml:mi> e </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ‖ </mml:mo></mml:mrow><mml:mo> &lt; </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow></mml:math></inline-formula> , <italic>i.e.</italic>, </p>
        <disp-formula id="FD98">
          <label>(46)</label>
          <mml:math>
            <mml:mtable>
              <mml:mtr>
                <mml:mtd>
                  <mml:msubsup>
                    <mml:mrow>
                      <mml:mo>‖</mml:mo>
                      <mml:mrow>
                        <mml:msub>
                          <mml:mi>e</mml:mi>
                          <mml:mi>t</mml:mi>
                        </mml:msub>
                      </mml:mrow>
                      <mml:mo>‖</mml:mo>
                    </mml:mrow>
                    <mml:mn>2</mml:mn>
                    <mml:mn>2</mml:mn>
                  </mml:msubsup>
                  <mml:mo>=</mml:mo>
                  <mml:msubsup>
                    <mml:mrow>
                      <mml:mo>‖</mml:mo>
                      <mml:mrow>
                        <mml:munderover>
                          <mml:mstyle mathsize="140%" displaystyle="true">
                            <mml:mo>∑</mml:mo>
                          </mml:mstyle>
                          <mml:mrow>
                            <mml:mi>k</mml:mi>
                            <mml:mo>=</mml:mo>
                            <mml:mn>0</mml:mn>
                          </mml:mrow>
                          <mml:mi>t</mml:mi>
                        </mml:munderover>
                        <mml:msup>
                          <mml:mrow>
                            <mml:mrow>
                              <mml:mo>(</mml:mo>
                              <mml:mrow>
                                <mml:mi>γ</mml:mi>
                                <mml:mi>λ</mml:mi>
                              </mml:mrow>
                              <mml:mo>)</mml:mo>
                            </mml:mrow>
                          </mml:mrow>
                          <mml:mrow>
                            <mml:mi>t</mml:mi>
                            <mml:mo>−</mml:mo>
                            <mml:mi>k</mml:mi>
                          </mml:mrow>
                        </mml:msup>
                        <mml:munderover>
                          <mml:mstyle mathsize="140%" displaystyle="true">
                            <mml:mo>∏</mml:mo>
                          </mml:mstyle>
                          <mml:mrow>
                            <mml:mi>i</mml:mi>
                            <mml:mo>=</mml:mo>
                            <mml:mi>k</mml:mi>
                            <mml:mo>+</mml:mo>
                            <mml:mn>1</mml:mn>
                          </mml:mrow>
                          <mml:mi>t</mml:mi>
                        </mml:munderover>
                        <mml:mtext>
                           
                        </mml:mtext>
                        <mml:msub>
                          <mml:mi>c</mml:mi>
                          <mml:mrow>
                            <mml:mi>i</mml:mi>
                            <mml:mo>,</mml:mo>
                            <mml:mi>σ</mml:mi>
                          </mml:mrow>
                        </mml:msub>
                        <mml:msub>
                          <mml:mi>ϕ</mml:mi>
                          <mml:mi>k</mml:mi>
                        </mml:msub>
                      </mml:mrow>
                      <mml:mo>‖</mml:mo>
                    </mml:mrow>
                    <mml:mn>2</mml:mn>
                    <mml:mn>2</mml:mn>
                  </mml:msubsup>
                </mml:mtd>
              </mml:mtr>
              <mml:mtr>
                <mml:mtd>
                  <mml:mo>≤</mml:mo>
                  <mml:mfrac>
                    <mml:mrow>
                      <mml:msubsup>
                        <mml:mi>ϕ</mml:mi>
                        <mml:mrow>
                          <mml:mtext>max</mml:mtext>
                        </mml:mrow>
                        <mml:mn>2</mml:mn>
                      </mml:msubsup>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mn>1</mml:mn>
                      <mml:mo>−</mml:mo>
                      <mml:msup>
                        <mml:mrow>
                          <mml:mrow>
                            <mml:mo>(</mml:mo>
                            <mml:mrow>
                              <mml:mi>γ</mml:mi>
                              <mml:mi>λ</mml:mi>
                              <mml:mrow>
                                <mml:mo>(</mml:mo>
                                <mml:mrow>
                                  <mml:mrow>
                                    <mml:mo>(</mml:mo>
                                    <mml:mrow>
                                      <mml:mn>1</mml:mn>
                                      <mml:mo>−</mml:mo>
                                      <mml:mi>σ</mml:mi>
                                    </mml:mrow>
                                    <mml:mo>)</mml:mo>
                                  </mml:mrow>
                                  <mml:mo>+</mml:mo>
                                  <mml:mi>σ</mml:mi>
                                  <mml:msub>
                                    <mml:mi>ρ</mml:mi>
                                    <mml:mrow>
                                      <mml:mtext>max</mml:mtext>
                                    </mml:mrow>
                                  </mml:msub>
                                </mml:mrow>
                                <mml:mo>)</mml:mo>
                              </mml:mrow>
                            </mml:mrow>
                            <mml:mo>)</mml:mo>
                          </mml:mrow>
                        </mml:mrow>
                        <mml:mn>2</mml:mn>
                      </mml:msup>
                    </mml:mrow>
                  </mml:mfrac>
                  <mml:mo>.</mml:mo>
                </mml:mtd>
              </mml:mtr>
            </mml:mtable>
          </mml:math>
        </disp-formula>
        <p>For each <inline-formula><mml:math><mml:mrow><mml:mi> a </mml:mi><mml:mo> &gt; </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , according to Markov inequality, we have </p>
        <disp-formula id="FD99">
          <mml:math>
            <mml:mrow>
              <mml:mi>ℙ</mml:mi>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:mrow>
                    <mml:mo>‖</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>e</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>‖</mml:mo>
                  </mml:mrow>
                  <mml:mo>≥</mml:mo>
                  <mml:mi>a</mml:mi>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>≤</mml:mo>
              <mml:mfrac>
                <mml:mrow>
                  <mml:munder>
                    <mml:mrow>
                      <mml:mtext>sup</mml:mtext>
                    </mml:mrow>
                    <mml:mrow>
                      <mml:mi>t</mml:mi>
                      <mml:mo>∈</mml:mo>
                      <mml:mi>ℕ</mml:mi>
                    </mml:mrow>
                  </mml:munder>
                  <mml:mrow>
                    <mml:mo>‖</mml:mo>
                    <mml:mrow>
                      <mml:msub>
                        <mml:mi>e</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>‖</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mi>a</mml:mi>
              </mml:mfrac>
              <mml:mo>→</mml:mo>
              <mml:mn>0</mml:mn>
              <mml:mo>,</mml:mo>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mtext>
                 
              </mml:mtext>
              <mml:mi>a</mml:mi>
              <mml:mo>→</mml:mo>
              <mml:mi>∞</mml:mi>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>which implies <inline-formula><mml:math><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msub><mml:mi> e </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> is tight. Since we consider the MDPs with finite state space and action space, so the sequence <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mrow><mml:mo> { </mml:mo><mml:mrow><mml:msub><mml:mi> ζ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> = </mml:mo><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:msub><mml:mi> e </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> S </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> A </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:msub><mml:mi> S </mml:mi><mml:mrow><mml:mi> t </mml:mi><mml:mo> + </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> } </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mi> t </mml:mi><mml:mo> ≥ </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:msub></mml:mrow></mml:math></inline-formula> is also tight.</p>
        <p><bold>(iii)</bold><italic>Let</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> D </mml:mi><mml:mi> ζ </mml:mi></mml:msub><mml:mo> ∈ </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mi> p </mml:mi></mml:msup><mml:mo> × </mml:mo><mml:mi mathvariant="script"> S </mml:mi><mml:mo> × </mml:mo><mml:mi mathvariant="script"> A </mml:mi><mml:mo> × </mml:mo><mml:mi mathvariant="script"> S </mml:mi></mml:mrow></mml:math></inline-formula><italic>be a compact set, for each</italic><inline-formula><mml:math><mml:mrow><mml:mi> ζ </mml:mi><mml:mo> ∈ </mml:mo><mml:msub><mml:mi> D </mml:mi><mml:mi> ζ </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> , <italic>both</italic><inline-formula><mml:math><mml:mrow><mml:mi> g </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> θ </mml:mi><mml:mo> , </mml:mo><mml:mi> ω </mml:mi><mml:mo> , </mml:mo><mml:msub><mml:mi> ζ </mml:mi><mml:mn> 0 </mml:mn></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>and</italic><inline-formula><mml:math><mml:mrow><mml:mi> h </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> θ </mml:mi><mml:mo> , </mml:mo><mml:mi> ω </mml:mi><mml:mo> , </mml:mo><mml:msub><mml:mi> ζ </mml:mi><mml:mn> 0 </mml:mn></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula><italic>are continuous with respect to</italic><inline-formula><mml:math><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> θ </mml:mi><mml:mo> , </mml:mo><mml:mi> ω </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> . </p>
        <p>Recall the definitions of <inline-formula><mml:math><mml:mrow><mml:mi> g </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> θ </mml:mi><mml:mo> , </mml:mo><mml:mi> ω </mml:mi><mml:mo> , </mml:mo><mml:msub><mml:mi> ζ </mml:mi><mml:mn> 0 </mml:mn></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:mi> h </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> θ </mml:mi><mml:mo> , </mml:mo><mml:mi> ω </mml:mi><mml:mo> , </mml:mo><mml:msub><mml:mi> ζ </mml:mi><mml:mn> 0 </mml:mn></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , then we have </p>
        <disp-formula id="FD100">
          <mml:math>
            <mml:mrow>
              <mml:mi>g</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>θ</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>ω</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:msub>
                    <mml:mi>ζ</mml:mi>
                    <mml:mn>0</mml:mn>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:msubsup>
                <mml:mi>A</mml:mi>
                <mml:mi>σ</mml:mi>
                <mml:mo>⊤</mml:mo>
              </mml:msubsup>
              <mml:msup>
                <mml:mi>M</mml:mi>
                <mml:mrow>
                  <mml:mo>−</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:msup>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>A</mml:mi>
                    <mml:mi>σ</mml:mi>
                  </mml:msub>
                  <mml:mi>θ</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:msub>
                    <mml:mi>b</mml:mi>
                    <mml:mi>σ</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <disp-formula id="FD101">
          <mml:math>
            <mml:mrow>
              <mml:mi>h</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>θ</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>ω</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:msub>
                    <mml:mi>ζ</mml:mi>
                    <mml:mn>0</mml:mn>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>A</mml:mi>
                <mml:mi>σ</mml:mi>
              </mml:msub>
              <mml:mi>θ</mml:mi>
              <mml:mo>+</mml:mo>
              <mml:msub>
                <mml:mi>b</mml:mi>
                <mml:mi>σ</mml:mi>
              </mml:msub>
              <mml:mo>−</mml:mo>
              <mml:mi>M</mml:mi>
              <mml:mi>ω</mml:mi>
              <mml:mo>.</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>The Assumption 3 implies <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> A </mml:mi><mml:mi> σ </mml:mi></mml:msub><mml:mo> , </mml:mo><mml:mi> M </mml:mi></mml:mrow></mml:math></inline-formula> , and <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> b </mml:mi><mml:mi> σ </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> are bounded, thus both <inline-formula><mml:math><mml:mrow><mml:mi> g </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> θ </mml:mi><mml:mo> , </mml:mo><mml:mi> ω </mml:mi><mml:mo> , </mml:mo><mml:msub><mml:mi> ζ </mml:mi><mml:mn> 0 </mml:mn></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:mi> h </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> θ </mml:mi><mml:mo> , </mml:mo><mml:mi> ω </mml:mi><mml:mo> , </mml:mo><mml:msub><mml:mi> ζ </mml:mi><mml:mn> 0 </mml:mn></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> are continuous with respect to <inline-formula><mml:math><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> θ </mml:mi><mml:mo> , </mml:mo><mml:mi> ω </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> .</p>
        <p><bold>(iv)</bold><italic>Recall the notation</italic><inline-formula><mml:math><mml:mrow><mml:mi> ϖ </mml:mi><mml:mo> = </mml:mo><mml:mi mathvariant="double-struck"> E </mml:mi><mml:msup><mml:mrow><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:msub><mml:mi> ϕ </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:msubsup><mml:mi> ϕ </mml:mi><mml:mi> t </mml:mi><mml:mo> ⊤ </mml:mo></mml:msubsup></mml:mrow><mml:mo> ] </mml:mo></mml:mrow></mml:mrow><mml:mrow><mml:mo> − </mml:mo><mml:mn> 1 </mml:mn></mml:mrow></mml:msup><mml:mi mathvariant="double-struck"> E </mml:mi><mml:mrow><mml:mo> [ </mml:mo><mml:mrow><mml:msubsup><mml:mi> δ </mml:mi><mml:mi> t </mml:mi><mml:mrow><mml:mi> E </mml:mi><mml:mi> S </mml:mi></mml:mrow></mml:msubsup><mml:msub><mml:mi> e </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ] </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> , <italic>for each compact set</italic><inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> D </mml:mi><mml:mi> ζ </mml:mi></mml:msub><mml:mo> ∈ </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mi> p </mml:mi></mml:msup><mml:mo> × </mml:mo><mml:mi mathvariant="script"> S </mml:mi><mml:mo> × </mml:mo><mml:mi mathvariant="script"> A </mml:mi><mml:mo> × </mml:mo><mml:mi mathvariant="script"> S </mml:mi></mml:mrow></mml:math></inline-formula> , <italic>let</italic></p>
        <disp-formula id="FD102">
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>H</mml:mi>
                <mml:mrow>
                  <mml:mi>m</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>n</mml:mi>
                </mml:mrow>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:mfrac>
                <mml:mn>1</mml:mn>
                <mml:mi>m</mml:mi>
              </mml:mfrac>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∑</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mi>n</mml:mi>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>n</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mi>m</mml:mi>
                  <mml:mo>−</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:munderover>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>h</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mi>θ</mml:mi>
                      <mml:mo>,</mml:mo>
                      <mml:mi>ω</mml:mi>
                      <mml:mo>,</mml:mo>
                      <mml:msub>
                        <mml:mi>ζ</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mo>−</mml:mo>
                  <mml:mi>H</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mi>θ</mml:mi>
                      <mml:mo>,</mml:mo>
                      <mml:mi>ω</mml:mi>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mi mathvariant="double-struck">I</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>ζ</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>∈</mml:mo>
                  <mml:msub>
                    <mml:mi>D</mml:mi>
                    <mml:mi>ζ</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <disp-formula id="FD103">
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>G</mml:mi>
                <mml:mrow>
                  <mml:mi>m</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>n</mml:mi>
                </mml:mrow>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:mfrac>
                <mml:mn>1</mml:mn>
                <mml:mi>m</mml:mi>
              </mml:mfrac>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∑</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mi>n</mml:mi>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>n</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mi>m</mml:mi>
                  <mml:mo>−</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:munderover>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>g</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mi>θ</mml:mi>
                      <mml:mo>,</mml:mo>
                      <mml:mi>ϖ</mml:mi>
                      <mml:mo>,</mml:mo>
                      <mml:msub>
                        <mml:mi>ζ</mml:mi>
                        <mml:mi>t</mml:mi>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                  <mml:mo>−</mml:mo>
                  <mml:mi>G</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mi>θ</mml:mi>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mi mathvariant="double-struck">I</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>ζ</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                  <mml:mo>∈</mml:mo>
                  <mml:msub>
                    <mml:mi>D</mml:mi>
                    <mml:mi>ζ</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <disp-formula id="FD104">
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>X</mml:mi>
                <mml:mrow>
                  <mml:mi>m</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>n</mml:mi>
                </mml:mrow>
              </mml:msub>
              <mml:mo>=</mml:mo>
              <mml:mfrac>
                <mml:mn>1</mml:mn>
                <mml:mi>m</mml:mi>
              </mml:mfrac>
              <mml:munderover>
                <mml:mstyle mathsize="140%" displaystyle="true">
                  <mml:mo>∑</mml:mo>
                </mml:mstyle>
                <mml:mrow>
                  <mml:mi>t</mml:mi>
                  <mml:mo>=</mml:mo>
                  <mml:mi>n</mml:mi>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>n</mml:mi>
                  <mml:mo>+</mml:mo>
                  <mml:mi>m</mml:mi>
                  <mml:mo>−</mml:mo>
                  <mml:mn>1</mml:mn>
                </mml:mrow>
              </mml:munderover>
              <mml:mfrac>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>α</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>β</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                </mml:mrow>
              </mml:mfrac>
              <mml:mi>g</mml:mi>
              <mml:mrow>
                <mml:mo>(</mml:mo>
                <mml:mrow>
                  <mml:mi>θ</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>ω</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:msub>
                    <mml:mi>ζ</mml:mi>
                    <mml:mi>t</mml:mi>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>)</mml:mo>
              </mml:mrow>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>then for each <inline-formula><mml:math><mml:mrow><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> θ </mml:mi><mml:mo> , </mml:mo><mml:mi> ω </mml:mi></mml:mrow><mml:mo> ) </mml:mo></mml:mrow><mml:mo> ∈ </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mi> p </mml:mi></mml:msup><mml:mo> × </mml:mo><mml:msup><mml:mi> ℝ </mml:mi><mml:mi> p </mml:mi></mml:msup></mml:mrow></mml:math></inline-formula> , we have: </p>
        <disp-formula id="FD105">
          <mml:math>
            <mml:mrow>
              <mml:munder>
                <mml:mrow>
                  <mml:mtext>lim</mml:mtext>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>m</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>n</mml:mi>
                  <mml:mo>→</mml:mo>
                  <mml:mi>∞</mml:mi>
                </mml:mrow>
              </mml:munder>
              <mml:mi mathvariant="double-struck">E</mml:mi>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>H</mml:mi>
                    <mml:mrow>
                      <mml:mi>m</mml:mi>
                      <mml:mo>,</mml:mo>
                      <mml:mi>n</mml:mi>
                    </mml:mrow>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:munder>
                <mml:mrow>
                  <mml:mtext>lim</mml:mtext>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>m</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>n</mml:mi>
                  <mml:mo>→</mml:mo>
                  <mml:mi>∞</mml:mi>
                </mml:mrow>
              </mml:munder>
              <mml:mi mathvariant="double-struck">E</mml:mi>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>G</mml:mi>
                    <mml:mrow>
                      <mml:mi>m</mml:mi>
                      <mml:mo>,</mml:mo>
                      <mml:mi>n</mml:mi>
                    </mml:mrow>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:munder>
                <mml:mrow>
                  <mml:mtext>lim</mml:mtext>
                </mml:mrow>
                <mml:mrow>
                  <mml:mi>m</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>n</mml:mi>
                  <mml:mo>→</mml:mo>
                  <mml:mi>∞</mml:mi>
                </mml:mrow>
              </mml:munder>
              <mml:mi mathvariant="double-struck">E</mml:mi>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:msub>
                    <mml:mi>X</mml:mi>
                    <mml:mrow>
                      <mml:mi>m</mml:mi>
                      <mml:mo>,</mml:mo>
                      <mml:mi>n</mml:mi>
                    </mml:mrow>
                  </mml:msub>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:mn>0.</mml:mn>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>By the Jensen’s inequality, it is sufficient that </p>
        <disp-formula id="FD106">
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>H</mml:mi>
                <mml:mrow>
                  <mml:mi>m</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>n</mml:mi>
                </mml:mrow>
              </mml:msub>
              <mml:mo>→</mml:mo>
              <mml:mn>0</mml:mn>
              <mml:mo>,</mml:mo>
              <mml:msub>
                <mml:mi>G</mml:mi>
                <mml:mrow>
                  <mml:mi>m</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>n</mml:mi>
                </mml:mrow>
              </mml:msub>
              <mml:mo>→</mml:mo>
              <mml:mn>0</mml:mn>
              <mml:mo>,</mml:mo>
              <mml:msub>
                <mml:mi>X</mml:mi>
                <mml:mrow>
                  <mml:mi>m</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>n</mml:mi>
                </mml:mrow>
              </mml:msub>
              <mml:mo>→</mml:mo>
              <mml:mn>0</mml:mn>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>as <inline-formula><mml:math><mml:mrow><mml:mi> m </mml:mi><mml:mo> , </mml:mo><mml:mi> n </mml:mi><mml:mo> → </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow></mml:math></inline-formula> . With the fact </p>
        <disp-formula id="FD107">
          <mml:math>
            <mml:mrow>
              <mml:mi mathvariant="double-struck">E</mml:mi>
              <mml:mrow>
                <mml:mo>[</mml:mo>
                <mml:mrow>
                  <mml:mi>h</mml:mi>
                  <mml:mrow>
                    <mml:mo>(</mml:mo>
                    <mml:mrow>
                      <mml:mi>θ</mml:mi>
                      <mml:mo>,</mml:mo>
                      <mml:mi>ω</mml:mi>
                      <mml:mo>,</mml:mo>
                      <mml:msub>
                        <mml:mi>ζ</mml:mi>
                        <mml:mn>0</mml:mn>
                      </mml:msub>
                    </mml:mrow>
                    <mml:mo>)</mml:mo>
                  </mml:mrow>
                </mml:mrow>
                <mml:mo>]</mml:mo>
              </mml:mrow>
              <mml:mo>=</mml:mo>
              <mml:msub>
                <mml:mi>A</mml:mi>
                <mml:mi>σ</mml:mi>
              </mml:msub>
              <mml:mi>θ</mml:mi>
              <mml:mo>+</mml:mo>
              <mml:msub>
                <mml:mi>b</mml:mi>
                <mml:mi>σ</mml:mi>
              </mml:msub>
              <mml:mo>−</mml:mo>
              <mml:mi>M</mml:mi>
              <mml:mi>ω</mml:mi>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>and following the same analysis of Proposition 2.3 in [28], we have <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> H </mml:mi><mml:mrow><mml:mi> m </mml:mi><mml:mo> , </mml:mo><mml:mi> n </mml:mi></mml:mrow></mml:msub><mml:mo> → </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , as <inline-formula><mml:math><mml:mrow><mml:mi> m </mml:mi><mml:mo> , </mml:mo><mml:mi> n </mml:mi><mml:mo> → </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow></mml:math></inline-formula> . Similarly, we have <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> G </mml:mi><mml:mrow><mml:mi> m </mml:mi><mml:mo> , </mml:mo><mml:mi> n </mml:mi></mml:mrow></mml:msub><mml:mo> → </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , as <inline-formula><mml:math><mml:mrow><mml:mi> m </mml:mi><mml:mo> , </mml:mo><mml:mi> n </mml:mi><mml:mo> → </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow></mml:math></inline-formula> .</p>
        <p>Note that <inline-formula><mml:math><mml:mrow><mml:mi> g </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> θ </mml:mi><mml:mo> , </mml:mo><mml:mi> ω </mml:mi><mml:mo> , </mml:mo><mml:msub><mml:mi> ζ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> is Lipschitz continuous with respect to the trace variable <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> e </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> , where <inline-formula><mml:math><mml:mrow><mml:msub><mml:mi> e </mml:mi><mml:mi> t </mml:mi></mml:msub><mml:mo> ∈ </mml:mo><mml:msub><mml:mi> ζ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:math></inline-formula> . Thus, there exists a positive scalar <inline-formula><mml:math><mml:mi> L </mml:mi></mml:math></inline-formula> such that <inline-formula><mml:math><mml:mrow><mml:mrow><mml:mo> ‖ </mml:mo><mml:mrow><mml:mi> g </mml:mi><mml:mrow><mml:mo> ( </mml:mo><mml:mrow><mml:mi> θ </mml:mi><mml:mo> , </mml:mo><mml:mi> ω </mml:mi><mml:mo> , </mml:mo><mml:msub><mml:mi> ζ </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ) </mml:mo></mml:mrow></mml:mrow><mml:mo> ‖ </mml:mo></mml:mrow><mml:mo> ≤ </mml:mo><mml:mi> L </mml:mi><mml:mrow><mml:mo> ‖ </mml:mo><mml:mrow><mml:msub><mml:mi> e </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ‖ </mml:mo></mml:mrow></mml:mrow></mml:math></inline-formula> . From Assumption 3, we have <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mtext> sup </mml:mtext></mml:mrow><mml:mrow><mml:mi> t </mml:mi><mml:mo> ∈ </mml:mo><mml:mi> ℕ </mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mo> ‖ </mml:mo><mml:mrow><mml:msub><mml:mi> e </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> ‖ </mml:mo></mml:mrow><mml:mo> &lt; </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow></mml:math></inline-formula> and <inline-formula><mml:math><mml:mrow><mml:msub><mml:mrow><mml:mi> lim </mml:mi></mml:mrow><mml:mrow><mml:mi> t </mml:mi><mml:mo> → </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow></mml:msub><mml:mrow><mml:mrow><mml:msub><mml:mi> α </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow><mml:mo> / </mml:mo><mml:mrow><mml:msub><mml:mi> β </mml:mi><mml:mi> t </mml:mi></mml:msub></mml:mrow></mml:mrow><mml:mo> = </mml:mo><mml:mn> 0 </mml:mn></mml:mrow></mml:math></inline-formula> , then we have </p>
        <disp-formula id="FD108">
          <mml:math>
            <mml:mrow>
              <mml:msub>
                <mml:mi>X</mml:mi>
                <mml:mrow>
                  <mml:mi>m</mml:mi>
                  <mml:mo>,</mml:mo>
                  <mml:mi>n</mml:mi>
                </mml:mrow>
              </mml:msub>
              <mml:mo>→</mml:mo>
              <mml:mn>0</mml:mn>
              <mml:mo>,</mml:mo>
            </mml:mrow>
          </mml:math>
        </disp-formula>
        <p>as <inline-formula><mml:math><mml:mrow><mml:mi> m </mml:mi><mml:mo> , </mml:mo><mml:mi> n </mml:mi><mml:mo> → </mml:mo><mml:mi> ∞ </mml:mi></mml:mrow></mml:math></inline-formula> . □</p>
      </sec>
    </sec>
    <sec id="sec10">
      <title>NOTES</title>
      <p><sup>1</sup>The term “weight-duplication trick” we use here is coming from [<xref ref-type="bibr" rid="B10">10</xref>][<xref ref-type="bibr" rid="B11">11</xref>], while some other literatures may call it “two-timescale stochastic approximation”, e.g., [<xref ref-type="bibr" rid="B18">18</xref>]. </p>
      <p><sup>2</sup><ext-link ext-link-type="uri" xlink:href="http://incompleteideas.net/rlai.cs.ualberta.ca/RLAI/RLtoolkit/tilecoding.html">http://incompleteideas.net/rlai.cs.ualberta.ca/RLAI/RLtoolkit/tilecoding.html</ext-link></p>
    </sec>
  </body>
  <back>
    <ref-list>
      <title>References</title>
      <ref id="B1">
        <label>1.</label>
        <citation-alternatives>
          <mixed-citation publication-type="journal">Sutton, R.S. (1988) Learning to Predict by the Methods of Temporal Differences. <italic>Machine</italic><italic>Learning</italic>, 3, 9-44. https://doi.org/10.1023/a:1022633531479 <pub-id pub-id-type="doi">10.1023/a:1022633531479</pub-id><ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1023/a:1022633531479">https://doi.org/10.1023/a:1022633531479</ext-link></mixed-citation>
          <element-citation publication-type="journal">
            <person-group person-group-type="author">
              <string-name>Sutton, R.S.</string-name>
            </person-group>
            <year>1988</year>
            <article-title>Learning to Predict by the Methods of Temporal Differences</article-title>
            <source>Machine Learning</source>
            <volume>3</volume>
            <fpage>102263</fpage>
            <pub-id pub-id-type="doi">10.1023/a:1022633531479</pub-id>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B2">
        <label>2.</label>
        <citation-alternatives>
          <mixed-citation publication-type="confproc">De Asis, K., Hernandez-Garcia, J., Holland, G. and Sutton, R. (2018) Multi-Step Reinforcement Learning: A Unifying Algorithm. <italic>Proceedings</italic><italic>of</italic><italic>the</italic><italic>AAAI</italic><italic>Conference</italic><italic>on</italic><italic>Artificial</italic><italic>Intelligence</italic>, 32, 2902-2909. https://doi.org/10.1609/aaai.v32i1.11631 <pub-id pub-id-type="doi">10.1609/aaai.v32i1.11631</pub-id><ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1609/aaai.v32i1.11631">https://doi.org/10.1609/aaai.v32i1.11631</ext-link></mixed-citation>
          <element-citation publication-type="confproc">
            <person-group person-group-type="author">
              <string-name>Asis, K.</string-name>
              <string-name>Hernandez-Garcia, J.</string-name>
              <string-name>Holland, G.</string-name>
              <string-name>Sutton, R.</string-name>
            </person-group>
            <year>2018</year>
            <article-title>Multi-Step Reinforcement Learning: A Unifying Algorithm</article-title>
            <source>Proceedings of the AAAI Conference on Artificial Intelligence</source>
            <volume>32</volume>
            <pub-id pub-id-type="doi">10.1609/aaai.v32i1.11631</pub-id>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B3">
        <label>3.</label>
        <citation-alternatives>
          <mixed-citation publication-type="book">Sutton, R.S. and Barto, A.G. (2018) Reinforcement Learning: An Introduction. MIT Press.</mixed-citation>
          <element-citation publication-type="book">
            <person-group person-group-type="author">
              <string-name>Sutton, R.S.</string-name>
              <string-name>Barto, A.G.</string-name>
            </person-group>
            <year>2018</year>
            <article-title>Reinforcement Learning: An Introduction</article-title>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B4">
        <label>4.</label>
        <citation-alternatives>
          <mixed-citation publication-type="other">Rummery, G.A. and Niranjan, M. (1994) Online Q-Learning Using Connectionist Systems, Volume 37. University of Cambridge, Department of Engineering.</mixed-citation>
          <element-citation publication-type="other">
            <person-group person-group-type="author">
              <string-name>Rummery, G.A.</string-name>
              <string-name>Niranjan, M.</string-name>
              <string-name>Systems, V</string-name>
              <string-name>Cambridge, D</string-name>
            </person-group>
            <year>1994</year>
            <article-title>Online Q-Learning Using Connectionist Systems, Volume 37</article-title>
            <source>University of Cambridge</source>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B5">
        <label>5.</label>
        <citation-alternatives>
          <mixed-citation publication-type="confproc">Precup, D., Sutton, R.S., Singh, S.P., <italic>et al</italic>. (2000) Eligibility Traces for Off-Policy Policy Evaluation. <italic>Proceedings of the Seventeenth International Conference on Machine Learning</italic>, Standord, 29 June-2 July 2000, 759-766.</mixed-citation>
          <element-citation publication-type="confproc">
            <person-group person-group-type="author">
              <string-name>Precup, D.</string-name>
              <string-name>Sutton, R.S.</string-name>
              <string-name>Singh, S.P.</string-name>
              <string-name>Learning, S</string-name>
            </person-group>
            <year>2000</year>
            <article-title>Eligibility Traces for Off-Policy Policy Evaluation</article-title>
            <source>Proceedings of the Seventeenth International Conference on Machine Learning</source>
            <volume>29</volume>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B6">
        <label>6.</label>
        <citation-alternatives>
          <mixed-citation publication-type="confproc">Yang, L., Shi, M., Zheng, Q., Meng, W. and Pan, G. (2018) A Unified Approach for Multi-Step Temporal-Difference Learning with Eligibility Traces in Reinforcement Learning. <italic>Proceedings</italic><italic>of</italic><italic>the</italic><italic>Twenty</italic>- <italic>Seventh</italic><italic>International</italic><italic>Joint</italic><italic>Conference</italic><italic>on</italic><italic>Artificial</italic><italic>Intelligence</italic>, Stockholm, 13-19 July 2018, 2984-2990. https://doi.org/10.24963/ijcai.2018/414 <pub-id pub-id-type="doi">10.24963/ijcai.2018/414</pub-id><ext-link ext-link-type="uri" xlink:href="https://doi.org/10.24963/ijcai.2018/414">https://doi.org/10.24963/ijcai.2018/414</ext-link></mixed-citation>
          <element-citation publication-type="confproc">
            <person-group person-group-type="author">
              <string-name>Yang, L.</string-name>
              <string-name>Shi, M.</string-name>
              <string-name>Zheng, Q.</string-name>
              <string-name>Meng, W.</string-name>
              <string-name>Pan, G.</string-name>
              <string-name>Intelligence, S</string-name>
            </person-group>
            <year>2018</year>
            <article-title>A Unified Approach for Multi-Step Temporal-Difference Learning with Eligibility Traces in Reinforcement Learning</article-title>
            <source>Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence</source>
            <volume>13</volume>
            <pub-id pub-id-type="doi">10.24963/ijcai.2018/414</pub-id>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B7">
        <label>7.</label>
        <citation-alternatives>
          <mixed-citation publication-type="thesis">De Asis, K. (2018) A Unified View of Multi-Step Temporal Difference Learning. Ph.D. Thesis, University of Alberta Edmonton.</mixed-citation>
          <element-citation publication-type="thesis">
            <person-group person-group-type="author">
              <string-name>Asis, K.</string-name>
              <string-name>Thesis, U</string-name>
            </person-group>
            <year>2018</year>
            <article-title>A Unified View of Multi-Step Temporal Difference Learning</article-title>
            <source>Ph.D. Thesis</source>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B8">
        <label>8.</label>
        <citation-alternatives>
          <mixed-citation publication-type="journal">Sutton, R.S., Mahmood, A.R. and White, M. (2016) An Emphatic Approach to the Problem of Off-Policy Temporal-Difference Learning. <italic>Journal of Machine Learning Researc</italic><italic>h</italic>, 17, 2603-2631.</mixed-citation>
          <element-citation publication-type="journal">
            <person-group person-group-type="author">
              <string-name>Sutton, R.S.</string-name>
              <string-name>Mahmood, A.R.</string-name>
              <string-name>White, M.</string-name>
            </person-group>
            <year>2016</year>
            <article-title>An Emphatic Approach to the Problem of Off-Policy Temporal-Difference Learning</article-title>
            <source>Journal of Machine Learning Research</source>
            <volume>17</volume>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B9">
        <label>9.</label>
        <citation-alternatives>
          <mixed-citation publication-type="confproc">Sutton, R.S., Maei, H.R., Precup, D., Bhatnagar, S., Silver, D., Szepesvári, C., <italic>et al</italic>. (2009) Fast Gradient-Descent Methods for Temporal-Difference Learning with Linear Function Approximation. <italic>Proceedings</italic><italic>of</italic><italic>the</italic> 26 <italic>th</italic><italic>Annual</italic><italic>International</italic><italic>Conference</italic><italic>on</italic><italic>Machine</italic><italic>Learning</italic>, Montreal, 14-18 June 2009, 993-1000. https://doi.org/10.1145/1553374.1553501 <pub-id pub-id-type="doi">10.1145/1553374.1553501</pub-id><ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1145/1553374.1553501">https://doi.org/10.1145/1553374.1553501</ext-link></mixed-citation>
          <element-citation publication-type="confproc">
            <person-group person-group-type="author">
              <string-name>Sutton, R.S.</string-name>
              <string-name>Maei, H.R.</string-name>
              <string-name>Precup, D.</string-name>
              <string-name>Bhatnagar, S.</string-name>
              <string-name>Silver, D.</string-name>
              <string-name>Learning, M</string-name>
            </person-group>
            <year>2009</year>
            <article-title>Fast Gradient-Descent Methods for Temporal-Difference Learning with Linear Function Approximation</article-title>
            <source>Proceedings of the 26th Annual International Conference on Machine Learning</source>
            <volume>14</volume>
            <pub-id pub-id-type="doi">10.1145/1553374.1553501</pub-id>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B10">
        <label>10.</label>
        <citation-alternatives>
          <mixed-citation publication-type="confproc">Maei, H.R., Szepesvári, C., Bhatnagar, S., Precup, D., Silver, D. and Sutton, R.S. (2009) Convergent Temporal-Difference Learning with Arbitrary Smooth Function Approximation. <italic>Proceedings of the</italic>23 <italic>rd International Conference on Neural Infor</italic><italic>mation Processing Systems</italic>, Vancouver, 7-10 December 2009, 1204-1212.</mixed-citation>
          <element-citation publication-type="confproc">
            <person-group person-group-type="author">
              <string-name>Maei, H.R.</string-name>
              <string-name>Bhatnagar, S.</string-name>
              <string-name>Precup, D.</string-name>
              <string-name>Silver, D.</string-name>
              <string-name>Sutton, R.S.</string-name>
              <string-name>Systems, V</string-name>
            </person-group>
            <year>2009</year>
            <article-title>Convergent Temporal-Difference Learning with Arbitrary Smooth Function Approximation</article-title>
            <source>Proceedings of the 23rd International Conference on Neural Information Processing Systems</source>
            <volume>7</volume>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B11">
        <label>11.</label>
        <citation-alternatives>
          <mixed-citation publication-type="confproc">Maei, H.R. and Sutton, R.S. (2010) GQ( <italic>λ</italic>): A General Gradient Algorithm for Temporal-Difference Prediction Learning with Eligibility Traces. <italic>Proceedings of the</italic> 3 <italic>r</italic><italic>d</italic><italic>Conference on Artificial General Intelligence</italic> ( <italic>AGI</italic>-10), Lugano, 5-8 March 2010, 100-105. https://doi.org/10.2991/agi.2010.22 <pub-id pub-id-type="doi">10.2991/agi.2010.22</pub-id><ext-link ext-link-type="uri" xlink:href="https://doi.org/10.2991/agi.2010.22">https://doi.org/10.2991/agi.2010.22</ext-link></mixed-citation>
          <element-citation publication-type="confproc">
            <person-group person-group-type="author">
              <string-name>Maei, H.R.</string-name>
              <string-name>Sutton, R.S.</string-name>
            </person-group>
            <year>2010</year>
            <article-title>GQ(λ): A General Gradient Algorithm for Temporal-Difference Prediction Learning with Eligibility Traces</article-title>
            <source>Proceedings of the 3rd Conference on Artificial General Intelligence (AGI-10)</source>
            <volume>5</volume>
            <pub-id pub-id-type="doi">10.2991/agi.2010.22</pub-id>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B12">
        <label>12.</label>
        <citation-alternatives>
          <mixed-citation publication-type="journal">Touati, A., Bacon, P.L., Precup, D. and Vincent, P. (2018) Convergent Tree-Backup and Retrace with Function Approximation. arXiv: 1705.09322.</mixed-citation>
          <element-citation publication-type="journal">
            <person-group person-group-type="author">
              <string-name>Touati, A.</string-name>
              <string-name>Bacon, P.L.</string-name>
              <string-name>Precup, D.</string-name>
              <string-name>Vincent, P.</string-name>
            </person-group>
            <year>2018</year>
            <article-title>Convergent Tree-Backup and Retrace with Function Approximation</article-title>
            <fpage>1705</fpage>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B13">
        <label>13.</label>
        <citation-alternatives>
          <mixed-citation publication-type="confproc">Yang, L., Zheng, G., Zhang, Y., Zheng, Q., Li, P. and Pan, G. (2021) On Convergence of Gradient Expected Sarsa( <italic>λ</italic>). <italic>Proceedings</italic><italic>of</italic><italic>the</italic><italic>AAAI</italic><italic>Conference</italic><italic>on</italic><italic>Artificial</italic><italic>Intelligence</italic>, 35, 10621-10629. https://doi.org/10.1609/aaai.v35i12.17270 <pub-id pub-id-type="doi">10.1609/aaai.v35i12.17270</pub-id><ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1609/aaai.v35i12.17270">https://doi.org/10.1609/aaai.v35i12.17270</ext-link></mixed-citation>
          <element-citation publication-type="confproc">
            <person-group person-group-type="author">
              <string-name>Yang, L.</string-name>
              <string-name>Zheng, G.</string-name>
              <string-name>Zhang, Y.</string-name>
              <string-name>Zheng, Q.</string-name>
              <string-name>Li, P.</string-name>
              <string-name>Pan, G.</string-name>
            </person-group>
            <year>2021</year>
            <article-title>On Convergence of Gradient Expected Sarsa(λ)</article-title>
            <source>Proceedings of the AAAI Conference on Artificial Intelligence</source>
            <volume>35</volume>
            <pub-id pub-id-type="doi">10.1609/aaai.v35i12.17270</pub-id>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B14">
        <label>14.</label>
        <citation-alternatives>
          <mixed-citation publication-type="other">Bertsekas, D.P. and Tsitsiklis, J.N. (1996) Neuro-Dynamic Programming, Volume 5. Athena Scientific.</mixed-citation>
          <element-citation publication-type="other">
            <person-group person-group-type="author">
              <string-name>Bertsekas, D.P.</string-name>
              <string-name>Tsitsiklis, J.N.</string-name>
              <string-name>Programming, V</string-name>
            </person-group>
            <year>1996</year>
            <article-title>Neuro-Dynamic Programming, Volume 5</article-title>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B15">
        <label>15.</label>
        <citation-alternatives>
          <mixed-citation publication-type="journal">Liu, B., Liu, J., Ghavamzadeh, M., Mahadevan, S. and Petrik, M. (2015) Finite-Sample Analysis of Proximal Gradient TD Algorithms. arXiv: 2006.14364.</mixed-citation>
          <element-citation publication-type="journal">
            <person-group person-group-type="author">
              <string-name>Liu, B.</string-name>
              <string-name>Liu, J.</string-name>
              <string-name>Ghavamzadeh, M.</string-name>
              <string-name>Mahadevan, S.</string-name>
              <string-name>Petrik, M.</string-name>
            </person-group>
            <year>2015</year>
            <article-title>Finite-Sample Analysis of Proximal Gradient TD Algorithms</article-title>
            <fpage>2006</fpage>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B16">
        <label>16.</label>
        <citation-alternatives>
          <mixed-citation publication-type="journal">Dalal, G., Szorenyi, B., Thoppe, G. and Mannor, S. (2018) Finite Sample Analysis of Two-Timescale Stochastic Approximation with Applications to Reinforcement Learning. arXiv: 1703.05376.</mixed-citation>
          <element-citation publication-type="journal">
            <person-group person-group-type="author">
              <string-name>Dalal, G.</string-name>
              <string-name>Szorenyi, B.</string-name>
              <string-name>Thoppe, G.</string-name>
              <string-name>Mannor, S.</string-name>
            </person-group>
            <year>2018</year>
            <article-title>Finite Sample Analysis of Two-Timescale Stochastic Approximation with Applications to Reinforcement Learning</article-title>
            <fpage>1703</fpage>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B17">
        <label>17.</label>
        <citation-alternatives>
          <mixed-citation publication-type="journal">Wang, Y., Chen, W., Liu, Y.T., Ma, Z.M. and Liu, T.Y. (2017) Finite Sample Analysis of the GTD Policy Evaluation Algorithms in Markov Setting. arXiv: 1809.08926.</mixed-citation>
          <element-citation publication-type="journal">
            <person-group person-group-type="author">
              <string-name>Wang, Y.</string-name>
              <string-name>Chen, W.</string-name>
              <string-name>Liu, Y.T.</string-name>
              <string-name>Ma, Z.M.</string-name>
              <string-name>Liu, T.Y.</string-name>
            </person-group>
            <year>2017</year>
            <article-title>Finite Sample Analysis of the GTD Policy Evaluation Algorithms in Markov Setting</article-title>
            <fpage>1809</fpage>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B18">
        <label>18.</label>
        <citation-alternatives>
          <mixed-citation publication-type="journal">Bhandari, J., Russo, D. and Singal, R. (2018) A Finite Time Analysis of Temporal Difference Learning with Linear Function Approximation. arXiv: 1806.02450.</mixed-citation>
          <element-citation publication-type="journal">
            <person-group person-group-type="author">
              <string-name>Bhandari, J.</string-name>
              <string-name>Russo, D.</string-name>
              <string-name>Singal, R.</string-name>
            </person-group>
            <year>2018</year>
            <article-title>A Finite Time Analysis of Temporal Difference Learning with Linear Function Approximation</article-title>
            <fpage>1806</fpage>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B19">
        <label>19.</label>
        <citation-alternatives>
          <mixed-citation publication-type="journal">Xu, T.Y., Zou, S.F. and Liang, Y.B. (2019) Two Time-Scale Off-Policy TD Learning: Non-Asymptotic Analysis over Markovian Samples. arXiv: 1909.11907.</mixed-citation>
          <element-citation publication-type="journal">
            <person-group person-group-type="author">
              <string-name>Xu, T.Y.</string-name>
              <string-name>Zou, S.F.</string-name>
              <string-name>Liang, Y.B.</string-name>
            </person-group>
            <year>2019</year>
            <article-title>Two Time-Scale Off-Policy TD Learning: Non-Asymptotic Analysis over Markovian Samples</article-title>
            <fpage>1909</fpage>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B20">
        <label>20.</label>
        <citation-alternatives>
          <mixed-citation publication-type="journal">Mahmood, A.R., Yu, H. and Sutton, R.S. (2017) Multi-Step Off-Policy Learning without Importance Sampling Ratios. arXiv: 1702.03006.</mixed-citation>
          <element-citation publication-type="journal">
            <person-group person-group-type="author">
              <string-name>Mahmood, A.R.</string-name>
              <string-name>Yu, H.</string-name>
              <string-name>Sutton, R.S.</string-name>
            </person-group>
            <year>2017</year>
            <article-title>Multi-Step Off-Policy Learning without Importance Sampling Ratios</article-title>
            <fpage>1702</fpage>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B21">
        <label>21.</label>
        <citation-alternatives>
          <mixed-citation publication-type="confproc">Baird, L. (1995) Residual Algorithms: Reinforcement Learning with Function Approximation. In: Prieditis, A. and Russell, S., Eds., <italic>Machine</italic><italic>Learning</italic><italic>Proceedings</italic> 1995, Elsevier, 30-37. https://doi.org/10.1016/b978-1-55860-377-6.50013-x <pub-id pub-id-type="doi">10.1016/b978-1-55860-377-6.50013-x</pub-id><ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/b978-1-55860-377-6.50013-x">https://doi.org/10.1016/b978-1-55860-377-6.50013-x</ext-link></mixed-citation>
          <element-citation publication-type="confproc">
            <person-group person-group-type="author">
              <string-name>Baird, L.</string-name>
              <string-name>Prieditis, A.</string-name>
              <string-name>Russell, S.</string-name>
            </person-group>
            <year>1995</year>
            <article-title>Residual Algorithms: Reinforcement Learning with Function Approximation</article-title>
            <source>In: Prieditis</source>
            <volume>30</volume>
            <pub-id pub-id-type="doi">10.1016/b978-1-55860-377-6.50013-x</pub-id>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B22">
        <label>22.</label>
        <citation-alternatives>
          <mixed-citation publication-type="journal">Dann, C., Neumann, G. and Peters, J. (2014) Policy Evaluation with Temporal Differences: A Survey and Comparison. <italic>The Journal of Machine Learning Research</italic>, 15, 809-883.</mixed-citation>
          <element-citation publication-type="journal">
            <person-group person-group-type="author">
              <string-name>Dann, C.</string-name>
              <string-name>Neumann, G.</string-name>
              <string-name>Peters, J.</string-name>
            </person-group>
            <year>2014</year>
            <article-title>Policy Evaluation with Temporal Differences: A Survey and Comparison</article-title>
            <source>The Journal of Machine Learning Research</source>
            <volume>15</volume>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B23">
        <label>23.</label>
        <citation-alternatives>
          <mixed-citation publication-type="journal">Borkar, V.S. (1997) Stochastic Approximation with Two Time Scales. <italic>Systems</italic><italic>&amp;</italic><italic>Control</italic><italic>Letters</italic>, 29, 291-294. https://doi.org/10.1016/s0167-6911(97)90015-3 <pub-id pub-id-type="doi">10.1016/s0167-6911(97)90015-3</pub-id><ext-link ext-link-type="uri" xlink:href="https://doi.org/10.1016/s0167-6911(97)90015-3">https://doi.org/10.1016/s0167-6911(97)90015-3</ext-link></mixed-citation>
          <element-citation publication-type="journal">
            <person-group person-group-type="author">
              <string-name>Borkar, V.S.</string-name>
            </person-group>
            <year>1997</year>
            <article-title>Stochastic Approximation with Two Time Scales</article-title>
            <source>Systems &amp; Control Letters</source>
            <volume>6911</volume>
            <issue>97</issue>
            <pub-id pub-id-type="doi">10.1016/s0167-6911(97)90015-3</pub-id>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B24">
        <label>24.</label>
        <citation-alternatives>
          <mixed-citation publication-type="other">Kushner, H. and Yin, G.G. (2003) Stochastic Approximation and Recursive Algorithms and Applications, Volume 35. Springer Science &amp; Business Media.</mixed-citation>
          <element-citation publication-type="other">
            <person-group person-group-type="author">
              <string-name>Kushner, H.</string-name>
              <string-name>Yin, G.G.</string-name>
              <string-name>Applications, V</string-name>
            </person-group>
            <year>2003</year>
            <article-title>Stochastic Approximation and Recursive Algorithms and Applications, Volume 35</article-title>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B25">
        <label>25.</label>
        <citation-alternatives>
          <mixed-citation publication-type="journal">Yu, H.Z. (2016) Weak Convergence Properties of Constrained Emphatic Temporal-Difference Learning with Constant and Slowly Diminishing Stepsize. <italic>Journal of Machine Learning Research</italic>, 17, 7745-7802.</mixed-citation>
          <element-citation publication-type="journal">
            <person-group person-group-type="author">
              <string-name>Yu, H.Z.</string-name>
            </person-group>
            <year>2016</year>
            <article-title>Weak Convergence Properties of Constrained Emphatic Temporal-Difference Learning with Constant and Slowly Diminishing Stepsize</article-title>
            <source>Journal of Machine Learning Research</source>
            <volume>17</volume>
          </element-citation>
        </citation-alternatives>
      </ref>
      <ref id="B26">
        <label>26.</label>
        <citation-alternatives>
          <mixed-citation publication-type="journal">Yu, H.Z. (2017) On Convergence of Some Gradient-Based Temporal-Differences Algorithms for Off-Policy Learning. arXiv: 1712.09652.</mixed-citation>
          <element-citation publication-type="journal">
            <person-group person-group-type="author">
              <string-name>Yu, H.Z.</string-name>
            </person-group>
            <year>2017</year>
            <article-title>On Convergence of Some Gradient-Based Temporal-Differences Algorithms for Off-Policy Learning</article-title>
            <fpage>1712</fpage>
          </element-citation>
        </citation-alternatives>
      </ref>
    </ref-list>
  </back>
</article>