Nous utilisons des ensembles de données tabulaires provenant à l'origine d'OpenML et compilés en un ensemble de jeux de données de référence par l'équipe Inria-Soda sur HuggingFace. Nous effectuons l'entraînement sur 28 855 échantillons d'apprentissage et testons sur les 9 619 échantillons restants. Tous les MLP sont entraînés avec une taille de lot de 64, 64, et 0,0005, et nous étudions 3 couches de 100 neurones chacune. Nous définissons ici les six principales métriques utilisées dans notre travail.Nous utilisons des ensembles de données tabulaires provenant à l'origine d'OpenML et compilés en un ensemble de jeux de données de référence par l'équipe Inria-Soda sur HuggingFace. Nous effectuons l'entraînement sur 28 855 échantillons d'apprentissage et testons sur les 9 619 échantillons restants. Tous les MLP sont entraînés avec une taille de lot de 64, 64, et 0,0005, et nous étudions 3 couches de 100 neurones chacune. Nous définissons ici les six principales métriques utilisées dans notre travail.

Le Guide du Geek pour l'Expérimentation en ML

2025/09/21 13:47

Abstrait et 1. Introduction

1.1 Explication Post Hoc

1.2 Le problème de désaccord

1.3 Encourager le consensus d'explication

  1. Travaux connexes

  2. Pear : Régularisateur d'accord d'explicateur Post HOC

  3. L'efficacité de la formation au consensus

    4.1 Métriques d'accord

    4.2 Amélioration des métriques de consensus

    [4.3 Cohérence à quel prix ?]()

    4.4 Les explications sont-elles toujours précieuses ?

    4.5 Consensus et linéarité

    4.6 Deux termes de perte

  4. Discussion

    5.1 Travaux futurs

    5.2 Conclusion, remerciements et références

Annexe

A ANNEXE

A.1 Jeux de données

Dans nos expériences, nous utilisons des jeux de données tabulaires provenant à l'origine d'OpenML et compilés en un ensemble de jeux de données de référence par l'équipe Inria-Soda sur HuggingFace [11]. Nous fournissons quelques détails sur chaque jeu de données :

\ Bank Marketing Il s'agit d'un jeu de données de classification binaire avec six caractéristiques d'entrée et est approximativement équilibré en termes de classes. Nous entraînons sur 7 933 échantillons d'entraînement et testons sur les 2 645 échantillons restants.

\ California Housing Il s'agit d'un jeu de données de classification binaire avec sept caractéristiques d'entrée et est approximativement équilibré en termes de classes. Nous entraînons sur 15 475 échantillons d'entraînement et testons sur les 5 159 échantillons restants.

\ Electricity Il s'agit d'un jeu de données de classification binaire avec sept caractéristiques d'entrée et est approximativement équilibré en termes de classes. Nous entraînons sur 28 855 échantillons d'entraînement et testons sur les 9 619 échantillons restants.

A.2 Hyperparamètres

Beaucoup de nos hyperparamètres sont constants dans toutes nos expériences. Par exemple, tous les MLP sont entraînés avec une taille de lot de 64 et un taux d'apprentissage initial de 0,0005. De plus, tous les MLP que nous étudions comportent 3 couches cachées de 100 neurones chacune. Nous utilisons toujours l'optimiseur AdamW [19]. Le nombre d'époques varie selon les cas. Pour les trois jeux de données, nous entraînons pendant 30 époques lorsque 𝜆 ∈ {0,0, 0,25} et 50 époques dans les autres cas. Lors de l'entraînement des modèles linéaires, nous utilisons 10 époques et un taux d'apprentissage initial de 0,1.

A.3 Métriques de désaccord

Nous définissons ici chacune des six métriques d'accord utilisées dans notre travail.

\ Les quatre premières métriques dépendent des k caractéristiques les plus importantes dans chaque explication. Soit 𝑡𝑜𝑝_𝑓 𝑒𝑎𝑡𝑢𝑟𝑒𝑠(𝐸, 𝑘) représentant les k caractéristiques les plus importantes dans une explication 𝐸, soit 𝑟𝑎𝑛𝑘 (𝐸, 𝑠) le rang d'importance de la caractéristique 𝑠 dans l'explication 𝐸, et soit 𝑠𝑖𝑔𝑛(𝐸, 𝑠) le signe (positif, négatif ou zéro) du score d'importance de la caractéristique 𝑠 dans l'explication 𝐸.

\

\ Les deux métriques d'accord suivantes dépendent de toutes les caractéristiques au sein de chaque explication, pas seulement des k premières. Soit 𝑅 une fonction qui calcule le classement des caractéristiques dans une explication par importance.

\

\ (Remarque : Krishna et al. [15] précisent dans leur article que 𝐹 doit être un ensemble de caractéristiques spécifié par un utilisateur final, mais dans nos expériences, nous utilisons toutes les caractéristiques avec cette métrique).

A.4 Résultats de l'expérience sur les caractéristiques inutiles

Lorsque nous ajoutons des caractéristiques aléatoires pour l'expérience de la section 4.4, nous doublons le nombre de caractéristiques. Nous faisons cela pour vérifier si notre perte de consensus nuit à la qualité de l'explication en plaçant des caractéristiques non pertinentes dans le top-K plus souvent que les modèles entraînés naturellement. Dans le tableau 1, nous rapportons le pourcentage de fois où chaque explicateur a inclus l'une des caractéristiques aléatoires dans les 5 caractéristiques les plus importantes. Nous observons que dans l'ensemble, nous ne constatons pas d'augmentation systématique de ces pourcentages entre 𝜆 = 0,0 (un MLP de référence sans notre perte de consensus) et 𝜆 = 0,5 (un MLP entraîné avec notre perte de consensus)

\ Tableau 1 : Fréquence des caractéristiques inutiles obtenant des rangs dans le top 5, mesurée en pourcentage.

A.5 Plus de matrices de désaccord

Figure 9 : Matrices de désaccord pour toutes les métriques considérées dans cet article sur les données de Bank Marketing.

\ Figure 10 : Matrices de désaccord pour toutes les métriques considérées dans cet article sur les données de California Housing.

\ Figure 11 : Matrices de désaccord pour toutes les métriques considérées dans cet article sur les données d'Electricity.

A.6 Résultats étendus

Tableau 2 : Précision moyenne des tests pour les modèles que nous avons entraînés. Ce tableau est organisé par jeu de données, modèle, hyperparamètres dans la perte et coefficient de décroissance des poids (WD). Les moyennes sont calculées sur plusieurs essais et nous rapportons les moyennes ± une erreur standard.

A.7 Graphiques supplémentaires

Figure 12 : Les surfaces logit pour les MLP, chacun entraîné avec une valeur lambda différente, sur 10 plans à trois points construits aléatoirement à partir du jeu de données Bank Marketing.

\ Figure 13 : Les surfaces logit pour les MLP, chacun entraîné avec une valeur lambda différente, sur 10 plans à trois points construits aléatoirement à partir du jeu de données California Housing.

\ Figure 14 : Les surfaces logit pour les MLP, chacun entraîné avec une valeur lambda différente, sur 10 plans à trois points construits aléatoirement à partir du jeu de données Electricity.

\ Figure 15 : Graphiques supplémentaires de courbes de compromis pour tous les jeux de données et métriques.

\

:::info Auteurs :

(1) Avi Schwarzschild, Université du Maryland, College Park, Maryland, USA et travail réalisé en travaillant chez Arthur (avi1umd.edu) ;

(2) Max Cembalest, Arthur, New York City, New York, USA ;

(3) Karthik Rao, Arthur, New York City, New York, USA ;

(4) Keegan Hines, Arthur, New York City, New York, USA ;

(5) John Dickerson†, Arthur, New York City, New York, USA ([email protected]).

:::


:::info Cet article est disponible sur arxiv sous licence CC BY 4.0 DEED.

:::

\

Opportunité de marché
Logo de SIX
Cours SIX(SIX)
$0.01306
$0.01306$0.01306
-2.09%
USD
Graphique du prix de SIX (SIX) en temps réel
Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter [email protected] pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.

Vous aimerez peut-être aussi

La chute des actions de Bitcoin et d'IA entraîne l'effacement de plus de 500 millions de dollars de paris haussiers

La chute des actions de Bitcoin et d'IA entraîne l'effacement de plus de 500 millions de dollars de paris haussiers

Marchés Part Partager cet article
Copier le lienX (Twitter)LinkedInFacebookEmail
Le Bitcoin et la chute des actions d'IA voient plus de 500 milli
Partager
Coindesk2025/12/16 11:23
Le groupe CME élargit ses produits dérivés crypto avec des contrats à terme XRP et SOL cotés au comptant

Le groupe CME élargit ses produits dérivés crypto avec des contrats à terme XRP et SOL cotés au comptant

Le groupe CME lance des contrats à terme XRP et SOL cotés au comptant, élargissant l'accès aux cryptos axé sur le détail avec des échéances plus longues et des coûts de renouvellement réduits. Le groupe CME a lancé au comptant
Partager
LiveBitcoinNews2025/12/16 11:30
Le récent rallye de Solana (SOL) peut impressionner, mais les investisseurs visant un ROI qui change la vie regardent ailleurs

Le récent rallye de Solana (SOL) peut impressionner, mais les investisseurs visant un ROI qui change la vie regardent ailleurs

Le post La récente hausse de Solana (SOL) peut impressionner, mais les investisseurs visant un ROI qui change la vie regardent ailleurs est apparu sur BitcoinEthereumNews.com. La dernière hausse de Solana (SOL) a attiré des investisseurs du monde entier, mais l'histoire plus importante pour les investisseurs visionnaires est de savoir où se dirigent les prochaines vagues de rendements qui changent la vie. Alors que Solana continue de connaître des niveaux élevés d'utilisation de l'écosystème et d'utilisation du réseau, la scène se prépare lentement pour Mutuum Finance (MUTM). MUTM est proposé à 0,035 $ dans sa prévente en croissance rapide. Une appréciation de prix de 14,3 % est ce que les investisseurs vont anticiper dans la prochaine phase. Plus de 15,85 millions de dollars ont été levés alors que la prévente continue de prendre de l'ampleur. Contrairement à la majorité des tokens surfant sur des vagues de pre-hype à court terme, Mutuum Finance devient un choix axé sur l'utilité avec un potentiel de valeur plus important et donc une option de plus en plus intéressante pour les investisseurs qui recherchent plus qu'une simple action sur les prix. Solana maintient ses gains près de 234 $ alors que la spéculation persiste Solana (SOL) se négocie actuellement à 234,08 $, maintenant sa fourchette de 24h autour de 234,42 $ à 248,19 $ illustrant la tendance récente. Le token a enregistré de solides gains sur sept jours de près de 13 %, dépassant de loin la plupart de ses pairs, soutenu par un volume croissant et des achats institutionnels. La résistance se situe à 250-260 $, et le support semble être à 220-230 $, ce qui constitue des niveaux significatifs pour une potentielle percée ou un repli. Cependant, la nouvelle crypto DeFi Mutuum Finance est considérée par les observateurs du marché comme ayant un potentiel de hausse plus important, étant encore en prévente. Prévente Phase 6 de Mutuum Finance Mutuum Finance est actuellement en Phase 6 de Prévente et propose des tokens à 0,035 $. La prévente a progressé très rapidement, et les investisseurs ont levé plus de 15,85 millions de dollars. Le projet envisage également un stablecoin indexé sur l'USD sur la blockchain Ethereum pour des paiements pratiques et comme gardien de valeur à long terme. Mutuum Finance est une plateforme DeFi à double prêt et à usages multiples qui profite aussi bien aux emprunteurs qu'aux prêteurs. Elle fournit le réseau aux particuliers ainsi qu'à...
Partager
BitcoinEthereumNews2025/09/18 06:23